MIT

Zatvori

AI za bežični sustav vida koji vidi kroz prepreke

S ovom novom tehnikom, robot bi mogao preciznije detektirati skrivene predmete ili razumjeti unutarnju scenu koristeći reflektirane Wi-Fi signale.

Istraživači s MIT-a proveli su više od desetljeća proučavajući tehnike koje omogućuju robotima pronalaženje i manipuliranje skrivenim predmetima "videći" kroz prepreke. Njihove metode koriste bežične signale koji prodiru kroz površinu i reflektiraju se od skrivenih predmeta.

Sada istraživači koriste generativne modele umjetne inteligencije kako bi prevladali dugogodišnje usko grlo koje je ograničavalo preciznost prethodnih pristupa. Rezultat je nova metoda koja proizvodi točnije rekonstrukcije oblika, što bi moglo poboljšati sposobnost robota da pouzdano hvata i manipulira objektima koji su blokirani iz pogleda.

Ova nova tehnika gradi djelomičnu rekonstrukciju skrivenog objekta iz reflektiranih bežičnih signala i popunjava nedostajuće dijelove njegovog oblika pomoću posebno obučenog generativnog AI modela.

Istraživači su također predstavili prošireni sustav koji koristi generativnu umjetnu inteligenciju za preciznu rekonstrukciju cijele sobe, uključujući sav namještaj. Sustav koristi bežične signale poslane s jednog stacionarnog radara, koji se reflektiraju od ljudi koji se kreću u prostoru.

Time se prevladava jedan ključni izazov mnogih postojećih metoda, koje zahtijevaju bežični senzor montiran na mobilnog robota za skeniranje okoliša. I za razliku od nekih popularnih tehnika temeljenih na kameri, njihova metoda čuva privatnost ljudi u okolišu.

Ove inovacije mogle bi omogućiti skladišnim robotima provjeru zapakiranih predmeta prije slanja, čime bi se uklonio otpad od povrata proizvoda. Također bi mogle omogućiti pametnim kućnim robotima da razumiju nečiju lokaciju u prostoriji, poboljšavajući sigurnost i učinkovitost interakcije čovjeka i robota.

Obično istraživači koriste izuzetno velike skupove podataka za treniranje generativnog modela umjetne inteligencije, što je jedan od razloga zašto modeli poput Claudea i Llame pokazuju tako impresivne performanse. Ali nijedan mmWave skup podataka nije dovoljno velik za treniranje.

Umjesto toga, istraživači su prilagodili slike u velikim skupovima podataka računalnog vida kako bi oponašali svojstva u refleksijama mmWave.

Istraživači ugrađuju fiziku refleksija mmWave izravno u ove prilagođene podatke, stvarajući sintetički skup podataka koji koriste za podučavanje generativnog AI modela izvođenju uvjerljivih rekonstrukcija oblika.

Kompletan sustav, nazvan Wave-Former, predlaže skup potencijalnih površina objekata na temelju mmWave refleksija, unosi ih u generativni AI model kako bi dovršio oblik, a zatim pročišćava površine dok ne postigne potpunu rekonstrukciju.

Wave-Former je uspio generirati vjerne rekonstrukcije oko 70 svakodnevnih predmeta, poput limenki, kutija, pribora za jelo i voća, povećavajući točnost za gotovo 20 posto u odnosu na najsuvremenije osnovne modele. Predmeti su bili skriveni iza ili ispod kartona, drveta, suhozida, plastike i tkanine.

Tim je koristio isti pristup za izgradnju proširenog sustava koji u potpunosti rekonstruira cijele unutarnje scene iskorištavajući refleksije mmWave valova od ljudi koji se kreću u prostoriji.

Ove sekundarne refleksije stvaraju takozvane "fantomske signale", koji su reflektirane kopije izvornog signala koje mijenjaju lokaciju kako se čovjek kreće. Ti se fantomski signali obično odbacuju kao šum, ali oni također sadrže informacije o rasporedu prostorije.

Koristili su sličnu metodu treniranja kako bi naučili generativni AI model interpretirati te grube rekonstrukcije scene i razumjeti ponašanje višestrukih mmWave refleksija. Ovaj model popunjava praznine, usavršavajući početnu rekonstrukciju dok ne dovrši scenu.

Testirali su svoj sustav za rekonstrukciju scene, nazvan RISE, koristeći više od 100 ljudskih putanja snimljenih jednim mmWave radarom. U prosjeku, RISE je generirao rekonstrukcije koje su bile otprilike dvostruko preciznije od postojećih tehnika.

U budućnosti istraživači žele poboljšati granularnost i detalje u svojim rekonstrukcijama. Također žele izgraditi velike temeljne modele za bežične signale, poput temeljnih modela GPT, Claude i Gemini za jezik i vid, što bi moglo otvoriti nove primjene.

Svoja otkrića istraživači objavljuju u dva rada koji su objavljeni na ovoj i ovoj poveznici.