Nalazite se
Članak
Objavljeno: 22.05.2025. 12:49

MIT 

AI sam uči kako su vid i zvuk povezani

Novi model strojnog učenja može uskladiti odgovarajuće audio i vizualne podatke, što bi jednog dana moglo pomoći robotima u interakciji u stvarnom svijetu.

AI sam uči kako su vid i zvuk povezani

Ljudi prirodno uče uspostavljajući veze između vida i zvuka. Na primjer, možemo gledati nekoga kako svira violončelo i prepoznati da pokreti violončelista stvaraju glazbu koju čujemo.

Novi pristup koji su razvili američki istraživači s MIT-a poboljšava sposobnost AI modela da uči na isti način. To bi moglo biti korisno u primjenama poput novinarstva i filmske produkcije, gdje bi model mogao pomoći u odabiru multimodalnog sadržaja putem automatskog pretraživanja videa i zvuka.

Dugoročno gledano, ovaj rad bi se mogao koristiti za poboljšanje sposobnosti robota da razumije stvarna okruženja, gdje su slušne i vizualne informacije često usko povezane.

Unapređujući prethodni rad svoje grupe, istraživači su stvorili metodu koja pomaže modelima strojnog učenja da usklade odgovarajuće audio i vizualne podatke iz videoisječaka bez potrebe za ljudskim oznakama.

Prilagodili su način na koji se njihov izvorni model obučava kako bi učio precizniju korespondenciju između određenog video kadra i zvuka koji se javlja u tom trenutku. Istraživači su također napravili neke arhitektonske prilagodbe koje pomažu sustavu da uravnoteži dva različita cilja učenja, što poboljšava performanse.

Uzeta zajedno, ova relativno jednostavna poboljšanja povećavaju točnost njihovog pristupa u zadacima pretraživanja videozapisa i klasifikacije radnje u audiovizualnim scenama. Na primjer, nova metoda mogla bi automatski i precizno uskladiti zvuk zalupljivanja vrata sa slikom njihovog zatvaranja u videoisječku.

MIT-AV-Learning-02-press

Istraživači u ovaj model, nazvan CAV-MAE, unose neoznačene videoisječke, a on zasebno kodira vizualne i audio podatke u reprezentacije koje se nazivaju tokeni. Koristeći prirodni zvuk iz snimke, model automatski uči mapirati odgovarajuće parove audio i vizualnih tokena blizu jedan drugome unutar svog unutarnjeg prostora reprezentacije.

Otkrili su da korištenje dvaju ciljeva učenja uravnotežuje proces učenja modela, što omogućuje CAV-MAE-u da razumije odgovarajuće audio i vizualne podatke, a istovremeno poboljšava njegovu sposobnost oporavka videoisječaka koji odgovaraju korisničkim upitima. 

No CAV-MAE tretira audio i vizualne uzorke kao jednu cjelinu, pa se 10-sekundni video isječak i zvuk zalupljivanja vratima mapiraju zajedno, čak i ako se taj audio događaj dogodi u samo jednoj sekundi videa.

U svom poboljšanom modelu, nazvanom CAV-MAE Sync, istraživači su podijelili zvuk u manje prozore prije nego što model izračuna svoje prikaze podataka, tako da generira odvojene prikaze koji odgovaraju svakom manjem prozoru zvuka.

Tijekom treninga, model uči povezati jedan video kadar sa zvukom koji se javlja tijekom samo tog kadra. Također su uključili arhitektonska poboljšanja koja pomažu modelu da uravnoteži svoja dva cilja učenja.

Model uključuje kontrastivni cilj, gdje uči povezivati ​​slične audio i vizualne podatke, te cilj rekonstrukcije koji ima za cilj oporaviti specifične audio i vizualne podatke na temelju korisničkih upita.

Iako su istraživači imali određenu intuiciju da će ova poboljšanja poboljšati performanse CAV-MAE Sync-a, bila je potrebna pažljiva kombinacija strategija kako bi se model pomaknuo u smjeru u kojem su željeli. Na kraju su njihova poboljšanja poboljšala sposobnost modela da dohvaća videozapise na temelju audio upita i predviđa klasu audiovizualne scene, poput laveža psa ili sviranja instrumenta.

U budućnosti, istraživači žele u CAV-MAE Sync uključiti nove modele koji generiraju bolje prikaze podataka, što bi moglo poboljšati performanse. Također žele omogućiti svom sustavu da obrađuje tekstualne podatke, što bi bio važan korak prema generiranju audiovizualnog modela velikog jezika.

Vezani sadržaji
Ključne riječi MIT
Komentari

Učitavam komentare ...

Učitavam