Nalazite se
  • Zdravlje
  • AI preporuke liječenja mogu biti problematične
Članak
Objavljeno: 24.06.2025. 11:16

MIT 

AI preporuke liječenja mogu biti problematične

LLM-ovi uzimaju u obzir nepovezane informacije prilikom preporučivanja medicinskih tretmana.

AI preporuke liječenja mogu biti problematične

Prema studiji istraživača s MIT-a, model velikog jezika (LLM) koji se koristi za davanje preporuka za liječenje može biti problematičan zbog nekliničkih informacija u porukama pacijenata, poput tipografskih pogrešaka, dodatnog praznog prostora, nedostajućih rodnih oznaka ili upotrebe neodređenog, dramatičnog i neformalnog jezika.

Otkrili su da stilske ili gramatičke promjene u porukama povećavaju vjerojatnost da će LLM preporučiti pacijentu da samostalno upravlja svojim prijavljenim zdravstvenim stanjem umjesto da dođe na pregled, čak i kada bi taj pacijent trebao potražiti liječničku pomoć.

Njihova analiza je također otkrila da ove nekliničke varijacije u tekstu, koje oponašaju način na koji ljudi stvarno komuniciraju, vjerojatnije mijenjaju preporuke modela za liječenje pacijentica, što rezultira većim postotkom žena kojima je pogrešno savjetovano da ne traže liječničku pomoć.

Ovaj rad „snažan je dokaz da se modeli moraju revidirati prije upotrebe u zdravstvu, što je okruženje u kojem se već koriste“, kaže Marzyeh Ghassemi, izvanredna profesorica na Odjelu za elektrotehniku ​​i računarstvo (EECS) Sveučilišta Massachusetts (MIT), članica Instituta za medicinsko-inženjerske znanosti i Laboratorija za informacijske i sustave odlučivanja te glavna autorica studije ovjavljene u časopisu ACM Digital Library.

MIT_Medium-Message-01-press_0

Ovi nalazi ukazuju na to da LLM-ovi uzimaju u obzir nekliničke informacije za kliničko donošenje odluka na prethodno nepoznate načine. To naglašava potrebu za rigoroznijim studijama LLM-ova prije nego što se primijene za važne zadaće poput davanja preporuka za liječenje, kažu istraživači.

„Ovi se modeli često treniraju i testiraju na pitanjima s medicinskog pregleda, ali se zatim koriste u zadacima koji su prilično daleko od toga, poput procjene težine kliničkog slučaja. Još uvijek toliko toga ne znamo o LLM-u“, dodaje Abinitha Gourabathina, diplomirana studentica EECS-a i glavna autorica studije.

Veliki jezični modeli poput OpenAI-jevog GPT-4 koriste se za izradu kliničkih bilješki i trijažu poruka pacijenata u zdravstvenim ustanovama diljem svijeta, u nastojanju da se pojednostave neki zadaci kako bi se pomoglo preopterećenim kliničarima. 

Sve veći broj radova istraživao je mogućnosti kliničkog rasuđivanja LLM-ova, ali malo je studija procijenilo kako nekliničke informacije utječu na prosudbu modela.

Zainteresirana za to kako spol utječe na zaključivanje u LLM-u, Gourabathina je provela eksperimente u kojima je zamijenila znakove za spol u bilješkama pacijenata. Iznenadila se da su pogreške u formatiranju u upitima, poput dodatnog bijelog prostora, uzrokovale značajne promjene u LLM odgovorima.

Kako bi istražili ovaj problem, istraživači su osmislili studiju u kojoj su mijenjali ulazne podatke modela zamjenom ili uklanjanjem rodnih oznaka, dodavanjem neodređenog jezika ili umetanjem dodatnog prostora i tipografskih pogrešaka u poruke pacijenata.

Svaka je perturbacija osmišljena kako bi oponašala tekst koji bi mogla napisati osoba iz ranjive populacije pacijenata, na temelju psihosocijalnog istraživanja o tome kako ljudi komuniciraju s kliničarima.

Na primjer, dodatni razmaci i tipografske pogreške simuliraju pisanje pacijenata s ograničenim znanjem engleskog jezika ili onih s manjim tehnološkim sposobnostima, a dodatak nesigurnog jezika predstavlja pacijente s anksioznošću.

„Medicinski skupovi podataka na kojima se ovi modeli treniraju obično su očišćeni i strukturirani te ne odražavaju baš realističan prikaz populacije pacijenata. Željeli smo vidjeti kako bi ove vrlo realistične promjene u tekstu mogle utjecati na daljnje slučajeve upotrebe“, kaže Gourabathina.

Koristili su LLM za stvaranje poremećenih kopija tisuća bilješki pacijenata, osiguravajući pritom minimalne promjene teksta i čuvajući sve kliničke podatke, poput lijekova i prethodne dijagnoze. Zatim su procijenili četiri LLM-a, uključujući veliki, komercijalni model GPT-4 i manji LLM izgrađen posebno za medicinske uvjete.

Svakom su LLM-u postavili tri pitanja na temelju pacijentove bilješke: Treba li se pacijent sam snalaziti kod kuće, treba li pacijent doći na pregled u kliniku i treba li pacijentu dodijeliti medicinski resurs, poput laboratorijskog testa.

Istraživači su usporedili preporuke LLM-a sa stvarnim kliničkim odgovorima i uočili su nedosljednosti u preporukama za liječenje i značajno neslaganje među LLM-ovima kada su im servirani poremećeni podaci. U svim područjima, LLM-ovi su pokazali povećanje prijedloga za samoupravljanje od 7 do 9 posto za svih devet vrsta izmijenjenih poruka pacijenata. 

To znači da su LLM-ovi vjerojatnije preporučivali pacijentima da ne traže liječničku pomoć kada su poruke sadržavale tipografske pogreške ili zamjenice neutralne prema rodu. Najveći utjecaj imala je upotreba živopisnog jezika, poput slenga ili dramatičnih izraza.

Također su otkrili da su modeli činili oko 7 posto više pogrešaka kod pacijentica i da su bili skloniji preporučivati ​​pacijenticama da se samostalno brinu o svom zdravlju kod kuće, čak i kada su istraživači uklonili sve rodne znakove iz kliničkog konteksta.

Mnogi od najgorih rezultata, poput pacijenata kojima je rečeno da se sami brinu o svom zdravlju kada imaju ozbiljno zdravstveno stanje, vjerojatno ne bi bili obuhvaćeni testovima koji se usredotočuju na ukupnu kliničku točnost modela.

„U istraživanjima obično gledamo agregirane statistike, ali mnogo se toga gubi u prijevodu. Moramo pogledati smjer u kojem se te pogreške događaju - ne preporučiti posjete liječnicima kada biste trebali puno je štetnije nego činiti suprotno“, kaže Gourabathina.

Nedosljednosti uzrokovane nekliničkim jezikom postaju još izraženije u konverzacijskim okruženjima gdje LLM komunicira s pacijentom, što je uobičajen slučaj upotrebe chatbotova okrenutih prema pacijentu.

Istraživači žele proširiti ovaj rad osmišljavanjem perturbacija prirodnog jezika koje obuhvaćaju druge ranjive populacije i bolje oponašaju stvarne poruke. Također žele istražiti kako LLM-ovi zaključuju o spolu iz kliničkog teksta.

Vezani sadržaji
Ključne riječi MIT
Komentari

Učitavam komentare ...

Učitavam