Pennsylvania State University

Zatvori

Prisluškivanje telefona detektiranjem unutarnjih vibracija

Istraživači su koristili milimetarski valni radarski senzor za prikupljanje razgovora iz vibracija pametnih telefona i dekodirali signale u prepoznatljive govorne transkripcije.

Tim istraživača računalnih znanosti na Sveučilištu Penn State pokazao je da se transkripcije telefonskih poziva mogu generirati radarskim mjerenjima snimljenim do tri metra od telefona. Iako točnost ostaje ograničena, nalazi postavljaju važna pitanja o budućim rizicima za privatnost.

„Kada razgovaramo mobitelom, skloni smo ignorirati vibracije koje dolaze kroz slušalicu i uzrokuju vibraciju cijelog telefona“, rekao je prvi autor Suryoday Basak, doktorand računalnih znanosti. „Ako uhvatimo te iste vibracije pomoću udaljenih radara i uključimo strojno učenje koje će nam pomoći da saznamo što se govori, koristeći kontekstualne tragove, možemo odrediti cijele razgovore. Razumijevanjem onoga što je moguće možemo pomoći javnosti da bude svjesna potencijalnih rizika.“

Basak i njegov savjetnik, Mahanth Gowda, izvanredni profesor računalnih znanosti i inženjerstva, koji je i koautor rada, koristili su milimetarski radarski senzor, istu vrstu tehnologije koja se koristi u autonomnim automobilima, detektorima pokreta i 5G bežičnim mrežama, kako bi istražili potencijal kompaktnih uređaja temeljenih na radaru koji bi se mogli minijaturizirati kako bi stali u svakodnevne predmete poput olovaka.

Njihova eksperimentalna postavka namijenjena razvijena je u iščekivanju onoga što bi zlonamjerni akteri potencijalno mogli stvoriti. Zatim su prilagodili "Whisper", model prepoznavanja govora otvorenog koda velikih razmjera pokretan umjetnom inteligencijom, kako bi dekodirali vibracije u prepoznatljive transkripcije govora.

Kako bi prešli s podataka s šumom na prepoznatljiv govor bez ponovnog treniranja cijele mreže, istraživači su koristili metodu prilagodbe modela nazvanu adaptacija niskog ranga, koja im je omogućila specijalizaciju modela za radarske podatke ponovnom obukom samo 1% Whisperovih parametara modela.

Za snimanje vibracija, istraživači su koristili milimetarski radarski senzor postavljen nekoliko metara od telefona kako bi uhvatili suptilne vibracije površine dok se govor reproducirao kroz slušalicu. Za analizu podataka, unijeli su ovaj signal dobiven s radara u svoju prilagođenu verziju modela prepoznavanja govora Whisper, što je rezultiralo točnošću do 60%. Točnost transkripcije mogla bi se dodatno poboljšati, uključivanjem ručnih korekcija temeljenih na kontekstu, poput prilagođavanja određenih riječi ili fraza, kada je dostupno prethodno znanje o razgovoru.

Istraživači su usporedili mogućnosti svog modela s čitanjem s usana. Iako čitanje s usana omogućuje samo oko 30% do 40% izgovorenih riječi, mnoge osobe koje čitaju s usana koriste kontekstualne tragove kako bi dešifrirale dovoljno da bi otkrile rečeno u razgovoru.

„Slično kao što čitači s usana mogu koristiti ograničene informacije za tumačenje razgovora, rezultati našeg modela u kombinaciji s kontekstualnim informacijama mogu nam omogućiti da zaključimo dijelove telefonskog razgovora s udaljenosti od nekoliko metara“, rekao je Basak. „Cilj našeg rada bio je istražiti mogu li zlonamjerni akteri potencijalno koristiti ove alate za prisluškivanje telefonskih razgovora s udaljenosti. Naši nalazi sugeriraju da je to tehnički izvedivo pod određenim uvjetima i nadamo se da će ovo podići svijest javnosti kako bi ljudi mogli biti pažljiviji tijekom osjetljivih poziva.“

Znanstveni rad koji opisuje ovu metodu možete pronaći na ovoj poveznici.