Giskard
Kratki i koncizni odgovori AI-ja često su halucinacije
Istraživanje otkriva da vodeći LLM-ovi samouvjereno proizvode činjenično netočne informacije kada tražite da im odgovori budu kratki i sažeti.

Ako tražite od chatbotova da njihovi odgovori na vaša pitanja budu čim kraći i koncizni, znatno je veća mogućnost da ćete dobiti netočne odgovore koji se u svijetu LLM-ova obično nazivaju halucinacije.
Francuski istraživači iz pariške tvrtke za testiranje umjetne inteligencije koja razvija holistički kriterij za modele umjetne inteligencije, Giskard, objavili su rezultate svoje studije koja je provedena njihovim alatom Phare, s ciljem evaluacije najboljih modela iz osam AI laboratorija, uključujući ChatGPT, Claude, Gemini, Llama, Mistral, DeepSeek i Grok.
Istraživanje Phare mjerilom otkriva da vodeći LLM-ovi samouvjereno proizvode činjenično netočne informacije. Pokazalo se da modeli koji se najviše rangiraju u popularnim testovima poput LMArene, koji prvenstveno mjere korisničke preferencije i zadovoljstvo, nisu nužno i najotporniji na halucinacije. Optimizacija za korisničko iskustvo ponekad može ići na štetu činjenične točnosti.
Evaluacija otkriva izravnu vezu između percipiranog samopouzdanja ili autoriteta u korisnikovom upitu i spremnosti modela da opovrgne kontroverzne tvrdnje.
Testovi pokazuju da kada korisnici s visokom pouzdanošću iznose kontroverzne tvrdnje ili citiraju percipirane autoritete, većina modela znatno manje vjerojatno opovrgava te tvrdnje. Iznošenje tvrdnji na vrlo samouvjeren način (npr. „100% sam siguran da…“ ili „Moj učitelj mi je rekao da…“) može uzrokovati pad uspješnosti opovrgavanja i do 15% u odnosu na neutralno uokviravanje (npr. „Čuo sam da…“).
Utjecaj tog "ulizivanja" korisnicima mogao bi biti nusprodukt RLHF procesa treniranja koji potiču modele da budu ugodni i korisni korisnicima. To stvara napetost između točnosti i usklađenosti s očekivanjima korisnika, posebno kada ta očekivanja uključuju lažne premise.
Pozitivno je to što neki modeli pokazuju otpornost na ulizivanje (antropski modeli i Llama u svojim najvećim verzijama), što sugerira da je moguće riješiti problem na razini treniranja modela.
Podaci također pokazuju da jednostavne promjene u sistemskim uputama dramatično utječu na sklonost modela halucinacijama. Upute koje naglašavaju sažetost (npr. „kratko odgovorite na ovo pitanje“) posebno su smanjile činjeničnu pouzdanost u većini testiranih modela. U najekstremnijim slučajevima to je rezultiralo padom otpornosti na halucinacije za 20%.
Čini se da se ovaj učinak javlja jer učinkoviti odgovori općenito zahtijevaju dulja objašnjenja. Kada su prisiljeni biti sažeti, modeli se suočavaju s nemogućim izborom između izmišljanja kratkih, ali netočnih odgovora beskorisno potpunim odbacivanjem pitanja. Podaci pokazuju da modeli dosljedno daju prednost kratkoći nad točnošću kada im se daju ta ograničenja.
Ovo otkriće ima važne implikacije za implementaciju, budući da mnoge aplikacije daju prioritet konciznim izlazima kako bi smanjile korištenje tokena, poboljšale latenciju i minimizirale troškove. Istraživanje sugerira da takvu optimizaciju treba temeljito testirati u odnosu na povećani rizik od činjeničnih pogrešaka.
Očito je da razvojni programeri velikih jezičnih modela umjetne inteligencije trebaju znatno više pažnje posvetiti tome da prednost u odgovorima imaju činjenice pred stavovima korisnika, mada je to u nekim slučajevima očito teško isprogramirati jer su strukturirani tako da vam se rado "uvlače", bez obzira što ih pitate i prema kojim bazama podataka formuliraju odgovore.
Drugim riječima, ako tražite točne odgovore od AI chatbotova, nemojte ih ograničavati, već ih pustite da kreiraju opširne odgovore, po mogućnosti s pozivanjem na izvore kako ne biste postali žrtvom njihovih halucinacija.
Učitavam komentare ...