Удивителната връзка между невронните мрежи и природата на Вселената

Физици твърдят, че тайната на невронните мрежи се крие в законите на физиката и самата структура на материята.

През последните няколко години машинното обучение преобрази света на изкуствения интелект. Една по една, способности, които доскоро приемахме за уникално човешки качества, вече започнаха да стават достъпни за все повече машини. Един такъв пресен пример е демонстрацията на Google Duplex. При специализирани задачи, дълбоките невронни мрежи вече надминават човешките способности, като при разпознаване на лица и обекти, и дори диагностициране на заболявания като рака. Изкуственият интелект вече усвои интуитивната игра Go и победи най-добрите играчи, което постави крайъгълния камък в историята и развитието на изкуствения интелект.

Но съществува проблем. Учени и инженери не разполагат с математическо обяснение, защо подредените в слоеве невронни мрежи са толкова ефективни при подобни предизвикателства. Математици и физици са объркани. Въпреки огромния успех на дълбоките невронни мрежи, никой не е напълно сигурен как те постигат невероятните резултати. Но днес, благодарение на работата на Хенри Лин от Харвардския университет и Макс Тегмарк от МИТ, това е на път да се промени. Според тях, причината поради която математиците са толкова притеснени, е, че отговорът зависи от природата на самата вселената. С други думи, същината на отговора се крие във физиката на самата материя, а не в математиката.

Как дълбоките невронните мрежи стигат до решение?

Нека да се опитаме да разрешим проблема, като използваме пример за класифициране на черно-бяло изображение, за да определим дали показва котка или куче. Едно такова изображение се състои от милион пиксела, които могат да варират в 256 различни стойности на сивото. Така че, в тези условия, на теория може да съществуват 2 561 000 000 възможни изображения, и за всяко едно е необходимо да се изчисли дали показва котка или куче. Това е абсурдно много работа, и все пак невронните мрежи, само с хиляди или милион входни изображения, успяват да направят тази класификация с лекота, без да изчисляват всички вероятности.

На езика на математиката, невронните мрежи работят чрез осредняване на сложните математически функции с по-простите такива. Когато става дума за класифициране на изображения на котки и кучета, невронната мрежа трябва да изпълни функция, която приема като вход милион пиксела в сивата скала и извежда вероятностно разпределение на това, което могат да изобразяват. Звучи сложно и в действителност е сложно, защото под капака се крие (и се случва) много повече от архитектурата, която пресъздава процеса.

Проблемът е, че масивът на (входните) математически функции е по-голям от броя на потенциалните невронни възли, които могат да ги осреднят. И все пак дълбоките невронни мрежи по някакъв начин получават правилния отговор. Сякаш се възползват от някакъв основен принцип, който неволно извиква асоциации с начина по който работят и квантовите изчисления и дори холографията – свойства от нисък порядък, които представляват фундаментални и универсални характеристики на материята, или поне на начина, по който я възприемаме.

Винаги когато пишем за квантови компютри и невронни мрежи, обичаме да намекваме за изчислителната мощност на самата материя. Но ето, че сега Лин и Тегмарк ни дадоха едно правдоподобно обяснение за това защо това е така. Според тях, отговорът се крие в това, че вселената се управлява от малко подмножество от всички възможни закономерности. С други думи, когато законите на физиката се описват математически, те могат да бъдат описани от функции, които имат малък набор от забележително прости свойства. Така дълбоките невронни мрежи не трябва да осредняват всяка възможна математическа зависимост, а само малка част от тях.

За да поставим това в перспектива, помислете за реда на полиномна функция, която представлява размерът на нейния най-висок експонент. Така че квадратно уравнение като y = x2 ще има ред 2, а уравнението y = x24 – ред 24 и т.н. Очевидно е, че броят на реда е безкраен, но въпреки това в законите на физиката имаме само малко подмножество от експоненциални зависимости. „Поради причини, които все още не са напълно разбрани, нашата вселена може да бъде правилно описана от полином с нисък ред“, обясняват Лин и Тегмарк. Обикновено полиномите, които описват законите на физиката, имат ред, вариращи от 2 до 4.

Законите на физиката имат и други важни качества. Например, когато става въпрос за ротация и движение, те обикновено са симетрични. Завъртете котка или куче на 360 градуса, ще изглеждат същите; преместете го на 10 метра или на 100 метра, или на километър, ще изглежда същото. Това опростява задачата за осредняване в процеса на разпознаване на котка или куче.

Храна за мозъка! Срежете холографската плака на две части и ще имате две еднакви изображения с по-малка разделителна способност – цялостта и смисълът на изображението не са изгубени. Интересно е дали интерференцията като свойство на материята също може да има участие в дистрибуцията на информацията в невронните мрежи; дали паралелизмът в невронните мрежи не създава условия за интрерференчно извеждане на решение, подобно на квантовите изчисления? И при двете архитектури с повтаряне на итерациите нараства прецизността.

Тези свойства означават, че невронните мрежи не трябва да осредняват безкрайните математически функции, а само малка част от най-простите. Вселената притежава и едно друго интересно свойство, от което невронните мрежи се възползват. Това е йерархията на структурата на материята – фракталността. „Елементарните частици образуват атоми, които на свой ред образуват молекули, клетки, организми, планети, слънчеви системи, галактики и т.н.“, обясняват Лин и Тегмарк. Сложните структури често се формират чрез поредица от по-прости стъпки и правила.

Ето защо структурата на невронните мрежи също е от значение: слоевете в тези мрежи могат да осредняват всяка следваща причинно-следствена стъпка.

Лин и Тегмарк дават за пример реликтовото излъчване, ехото от Големия взрив, което отеква във Вселената. През годините различни космически апарати правят изображения на излъчването с все по-висока резолюция. И, разбира се, физиците са озадачени защо тези карти показват точно това изображение. Учените посочват, че каквато и да е причината, това несъмнено е резултат от причинна йерархия. „Набор от параметри определя спектъра на колебанията в нашата Вселена, което на свой ред определя модела на космическото микровълново фоново лъчение, достигащо до нас от нашата ранна вселена.“

Всеки от тези причинно-следствени слоеве съдържа прогресивно повече данни. Има само една шепа космологични параметри, но картите и шумът, са съставени от милиарди стойности. Целта на физиката е да анализира ясните числа по начин, който разкрива по-неясните. И когато явленията се подчиняват на тази йерархична структура, невронните мрежи правят процеса на анализирането им значително по-лесен.

„Ние показахме, че успехът на дълбокото и ефективно обучение зависи не само от математиката, но и от физиката, която благоприятства определени класове от изключително прости разпределения на вероятностите, които дълбокото обучение (изкуствени и естествени невронни мрежи) е уникално приспособено да моделира.“

Лин и Тегмарк

Този свеж доклад представлява някои интересни и важни заключения, със значителни последствия за изкуствения интелект и науката като цяло. Не е безизвестно, че изкуствените невронни мрежи са взаимствани от биологичните. Така че идеите на Лин и Тегмарк не само обясняват защо машините за дълбоко обучение работят толкова добре, но и обясняват защо човешкият мозък е така добър в откриването на смисъл във Вселената.

А и сега, когато най-накрая започваме да разбираме как дълбоките невронни мрежи работят, математиците ще могат да започнат да изследват задълбочено ключовите им свойства, които им позволяват да се представят толкова добре. Дълбокото обучение направи огромни крачки през последните години, а със задълбоченото им разбиране, скоростта на напредъка ще се ускори.

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *