Изкуствен интелект чете по устни по-добре от човек

След гледане на хиляди часове телевизия, изкуственият интелект на Google вече може да чете по устните в пъти по-добре от човек.

Изследователи от дивизията по изкуствен интелект на Google – DeepMind и Университета Оксфорд, използвайки изкуствен интелект създадоха най-точния софтуер за четене на разговор по устните. Използвайки хиляди часове видео материали от BBC, учените са обучили невронна мрежа да разпознава разговорите с точност от 46.8%. Това може да не изглежда впечатляващо, особено в сравнение със способността на ИИ да разпознава звук, но сравнено с човек професионалист, върху същите видео материали (и снимки) – най-добрите резултати за позната дума стигат едва 12.4%.

Учените използват работа публикувана от друга група в Оксфорд. Използвайки подобна техника, в ранното проучване учените успяват да създадат програма за четене по устните наречена LipNet, която в контролирани условия достига точност от 93.4%, в сравнение с 52.3% при човек. Само че, LipNet тестовете са проведени върху специално записани видео материали. В сравнение,  постиженията на DeepMind – “Watch, Listen, Attend, and Spell” – се базират на далеч по-предизвикателни материали; транскрипция върху натурална реч; разговори без сценарий, на реални политически предавания по BBC TV.

Тези постижения могат да имат практически приложения, например за асистиране на хора с проблеми със слуха; анотации на неми филми; и дори в асистенти като Google Now, Siri и Alexa, с помощта на камерата.

Естествено начинът, по който ИИ учи е впечатляващ и първата мисъл, която хрумва на повечето хора е, какво ще означава това за видео наблюдението. Е, все пак, поне за сега, има разлика между висококачествените видео материали и тези от CCTV камерите, които обикновено са с доста ниска разделителна способност и много слаб фрейм поток. Но сами можете да се досетите, че изкуствения интелект скоро може и да прескочи този праг.