MIT

Zatvori

Računala uče govoriti poput djece

Sustav koji povezuje snimljeni govor i slike, mogao bi dovesti do potpuno automatskog prepoznavanja govora.

Photo Credit: MIT

Današnji računalni sustavi za prepoznavanje govora poput Sirija i Googlea razvijeni su zahvaljujući metodama strojnog učenja. Računalo prolazi kroz tisuće ili milijune audio datoteka i njihovih transkripcija, te uči kako akustične značajke korespondiraju s određenim napisanim riječima.

Razvijanje takvih sustava je prilično skup i dugotrajan posao koji je limitiran na prepoznavanje govora u prilično malom broju jezika.

Znanstvenici MIT-evog CSAIL laboratorija za umjetnu inteligenciju na Neural Information Processing Systems konferenciji prezentirat će novi pristup u treniranju sustava za prepoznavanje govora koji ne ovisi o transkripcijama, već analizira korespodencije između slika i njihovih izgovorenih opisa, koji se nalaze u velikoj kolekciji audio snimaka. Sustav potom uči koje akustične značajke sa snimaka stvaraju korelaciju s kojim značajkama slika.

Jim Glass, znanstvenik u CSAIL-u i jedan od autora ovog znanstvenog rada, navodi da je ova metoda pokušaj da se stroj nauči govoru na način koji je puno više nalik na način kako to rade ljudi (djeca).

"Napravljen je veliki napredak u onome što donose Siri i Google, no vrlo je skupo napraviti takve sustave, a fokusirani su na vrlo mali broj jezika u svijetu. Postoji oko 7.000 jezika, a za manje o 2 posto njih postoje ASR sustavi (mogućnost automatskog prepoznavanja govora) te se ništa ne radi kako bi bili dostupni drugima", kaže Glass.

Znanstvenici kažu da njihov sustav ne stvara korelacije između snimki govora i napisanog teksta, već umjesto toga spaja govor s grupama tematski povezanih slika.

Ako je na primjer iskaz povezan s određenim razredom slike, a slike imaju tekstualne opise povezane s njim, to bi trebalo omogućiti transkripciju i to u potpunosti bez ljudske intervencije. Isto tako, klasa slika s pripadajućim tekstom i povezanim tekstualnim opisima može poslužiti za automatsko prevođenje na različitim jezicima.

Kako bi testirali sustav, znanstvenici su koristili podatkovnu bazu od 1.000 slika, od kojih je svaka imala verbalni opis slobodne forme povezan s njom. Oni su tada uputili sustavu jednu od snimki i zatražili ga da pronađe 10 slika koje se najbolje slažu s njim. Set od 10 slika je u 31 posto slučajeva posjedovao jednu točnu.

Znanstvenici kažu da je ovo tek mali dječji korak i da je pred njima još puno rada, no početak je vrlo ohrabrujući.

Za izradu sustava znanstvenici su koristili neuralčne mreže, sustave za imitiranje strukture ljudskog mozga

"Beba uči govoriti iz svoje percepcije okoliša, od čega se veliki dio odnosi na vizualnu percepciju", navodi profesorica Lin-shan Lee sa Nacionalnog sveučilišta u Tajvanu. “Danas su strojevi započeli imitirati takve procese učenja. Ovaj rad je jedan od ranih uspjeha u tom smjeru i doista sam impresionirana kada sam saznala za to".