Tianjin University

Zatvori

Naš mozak sve bolje prepoznaje AI glasove

Novo istraživanje pokazuje da vaš slušni sustav prepoznaje glasovne deepfakeove koje vaša svijest propušta.

Brzi napredak umjetne inteligencije omogućio je sustavima za pretvaranje teksta u govor (TTS) da proizvode glasove koji su sve manje prepoznatljivi od ljudskih, što predstavlja značajne društvene rizike, posebno kroz potencijalnu zlouporabu u prijevare i obmane.

Kako bi se riješili ovaj problem, istraživači sa Sveučilišta Tianjin i Kineskog sveučilišta u Hong Kongu testirali su 30 slušatelja na njihovu sposobnost prepoznavanja govora generiranog umjetnom inteligencijom.

Ova studija, objavljena u časopisu eNeuro, kombinirala je procjene ponašanja i neuronska mjerenja korištenjem elektroencefalografije (EEG) kako bi se ispitalo poboljšava li kratkoročni perceptivni trening sposobnost ljudi da razlikuju govor generiran umjetnom inteligencijom od ljudskog.

Trideset sudionika oba spola slušalo je rečenice koje su proizveli ljudski govornici i odgovarajući klonovi generirani umjetnom inteligencijom, procjenjujući svaku rečenicu kao ljudsku ili generiranu umjetnom inteligencijom prije i nakon kratke (∼12-minutne) sesije treninga, tijekom koje su glasovi eksplicitno označeni kao "ljudski" ili "AI".

Bihevioralno, sudionici su pokazivali dosljedno slabu diskriminaciju prije i nakon treninga, uz samo minimalno poboljšanje. Međutim, neuronske analize otkrile su značajne promjene izazvane treningom. Konkretno, analiza funkcije vremenskog odgovora (TRF) identificirala je značajnu neuronsku diferencijaciju između tipova govora u ranim (∼55 ms, ∼210 ms) i kasnijim (∼455 ms) fazama slušne obrade nakon treninga.

Dodatne EEG analize, uključujući spektralnu snagu i dekodiranje, provedene su kako bi se dalje istražili učinci treninga, ali ta su mjerenja otkrila ograničenu diferencijaciju.

Ovdje dobiveni nalazi ističu disocijaciju između bihevioralne i neuronske osjetljivosti: dok se slušatelji muče s bihevioralnim razlikovanjem sofisticiranih glasova generiranih umjetnom inteligencijom, njihovi slušni sustavi brzo se prilagođavaju suptilnim akustičnim razlikama nakon kratkotrajne izloženosti.

Razumijevanje ove neuronsko-bihevioralne disocijacije ključno je za razvoj učinkovitih protokola perceptivnog treninga i informiranje politika za ublažavanje društvenih prijetnji koje predstavljaju sve realističniji sintetički glasovi.

Glasovi generirani umjetnom inteligencijom (UI) postaju sve nerazlučiviji od stvarnog ljudskog govora, što izaziva ozbiljnu zabrinutost zbog prijevare jer prevaranti mogu uvjerljivo oponašati pouzdane osobe.

Nova studija pokazuje da čak i kada slušatelji ne mogu bihevioralno razlikovati glasove generirane UI od stvarnih ljudskih glasova, kratki perceptivni trening omogućuje njihovom mozgu da otkrije suptilne akustične razlike.

Identificiranjem ovog jaza istraživači ističu razvoj specijaliziranih programa obuke koji vode slušatelje da prepoznaju i koriste te suptilne razlike.

Takva ciljana obuka mogla bi značajno poboljšati sposobnost ljudi da identificiraju sintetičke glasove, nudeći potencijalnu zaštitu od rastućih rizika od prijevara i dezinformacija koje omogućuju sve realističnije tehnologije UI govora.

Nakon samo 12 minuta treninga, ti su se neuronski odgovori počeli razdvajati. Mozak je počeo drugačije označavati sintetički govor u tri različita trenutka, oko 55 milisekundi, 210 milisekundi i 455 milisekundi nakon što je čuo glas. To su rane faze obrade, puno prije nego što svjesna misao uopće uđe u sliku.

Istraživači su pronašli stvarne fizičke razlike u glasovima koje objašnjavaju ovu nepovezanost. Akustička analiza pokazala je da se stvarni i umjetna inteligencija govor razlikuju u rasponu modulacije od 5,4 do 11,7 Hz, pojasu povezanom s načinom na koji naš mozak prati detalje brzog govora poput fonema i početka slogova.

Glasovi umjetne inteligencije, čak i oni koji zvuče nevjerojatno prirodno, očito ne pogađaju te mikro varijacije savršeno.

Ovo istraživanje znači da ljudi nisu bespomoćni protiv prijevare kloniranja glasa i da biološki hardver sasvim dobro funkcionir, samo ga moramo naučiti koristiti.

Budući alati mogli bi naučiti ljude da osluškuju specifične znakove koje njihov mozak već detektira. Umjesto generičkih savjeta poput „budi oprezan“, mogli bismo dobiti ciljane programe obuke koji pomažu u povezivanju neuronske percepcije sa svjesnim donošenjem odluka.

Za sada je zaključak neobično utješan. Vaš mozak radi više nego što mislite i već se prilagođava glasovima umjetne inteligencije čak i ako vaša svijest to još nije sasvim sustigla.