Nature

Zatvori

U 14 posto znanstvenih radova koristi se AI

Znakovi teksta generiranog umjetnom inteligencijom pronađeni su u 14% biomedicinskih sažetaka prošle godine.

Prema opsežnoj analizi znanstvene literature, otprilike jedan od sedam sažetaka biomedicinskih istraživanja objavljenih prošle godine vjerojatno je napisan uz pomoć umjetne inteligencije. Više od 200.000 sažetaka od 1,5 milijuna indeksiranih u PubMedu 2024. godine sadržavalo je riječi koje obično predlažu veliki jezični modeli (LLM-ovi), navodi se u članku objavljenom u časopisu Nature.

"Ukupan broj radova uređenih na LLM-u i dalje neumoljivo raste", kaže Andrew Gray, stručnjak za bibliometrijsku podršku na University Collegeu u Londonu koji smatra da istraživači nisu u potpunosti shvatili opseg u kojem se ovi alati koriste za izradu znanstvenih radova. "Nadam se da će ovaj rad pomoći u skretanju pozornosti na problem", dodaje.

Mnoge skupine pokušavaju procijeniti utjecaj LLM-a na znanstveni rad, ali to je nezgodno jer većina korisnika ne otkriva te prakse. Istraživači obično obučavaju modele za prepoznavanje razlika između teksta generiranog ljudskim djelovanjem i teksta generiranog LLM-om, a zatim primjenjuju te uvide za procjenu literature. No, nije jasno kako takvi modeli razlikuju dvije vrste teksta, a skupovi podataka za obuku ne predstavljaju uvijek ažurne trendove u pisanju generiranom LLM-om.

Dmitrij Kobak, znanstvenik podataka na Sveučilištu u Tübingenu u Njemačkoj, i njegovi kolege zauzeli su otvoreniji pristup. Pretraživali su sažetke tražeći "suvišne riječi" koje su se počele pojavljivati češće nego što se očekivalo nakon studenog 2022., kada je ChatGPT postao široko dostupan. Tim je bio inspiriran radom koji je procjenjivao "prekomjerne smrtne slučajeve" tijekom pandemije COVID-19.

Istraživači su otkrili da se 454 riječi pojavljivalo mnogo češće u 2024. nego u bilo kojoj drugoj godini od 2010. Uglavnom su to bile 'stilske' riječi koje nisu povezane sa sadržajem istraživanja, najčešće glagoli i pridjevi. Neke su bile uobičajene, poput 'nalazi', 'ključan' i 'potencijal', dok su druge bile neobičnije, uključujući 'dubine' i 'pokazivanje'. Prekomjerne riječi koje su se pojavile u drugoj polovici 2024. uključuju 'povećati' i 'ometati', kao i superlative poput 'neusporediv' i 'neprocjenjiv', kaže Kobak.

Promjene u znanstvenom leksikonu događaju se tijekom vremena, uključujući dramatične promjene koje prate velike događaje, poput pandemije COVID-19 koja je započela 2020.

U 2021. je bilo 190 dodatnih riječi, a to su uglavnom bile imenice povezane sa sadržajem istraživanja, no leksički pomak koji se dogodio otkako su LLM-ovi postali popularni bio je još izraženiji i uglavnom stilski.

Kako se čini, znanstvenici uvelike koriste ChatGPT i druge LLM-ove u svojim studijama, baš kao što ih mnogi "obični" ljudi koriste za pisanje molbi za zapošljavanje, školskih zadaća, traženje novca od europskih fondova i za druge potrebe.