AI postaje sve gluplji
AKO PUNO koristite alate umjetne inteligencije (AI), odnosno neki od velikih jezičnih modela (LLM) poput ChatGPT-ja ili Geminija, možda ste već primijetili da u nekim sposobnostima napreduju, dok u drugima nazaduju.
Tu nije problem u vašoj pretjeranoj kritičnosti, već u načinu na koji AI uči. Naime, jedno istraživanje objavljeno u uglednom časopisu Nature pokazalo je da AI postaje sve gluplji što se više trenira na kreacijama koje su proizveli stariji modeli AI-ja.
Kolaps modela
Taj proces zove se kolaps modela. Najkraće rečeno, to znači da model koji uči iz umjetno proizvedenih podataka počinje sve slabije razumjeti stvarnu raspodjelu podataka te da počinje zaboravljati rijetke i neobične informacije koje su nerijetko originalne, inovativne i važne. Ono što ostaje sve je prosječnije, predvidljivije i siromašnije. Moglo bi se kratko nazvati AI kičem.
Zašto je to važno?
To je važno jer internet, najveći izvor podataka za treniranje velikih AI modela, više nije isti kao prije deset ili dvadeset godina. Sve veći dio online sadržaja, od članaka, opisa proizvoda i komentara do objava na društvenim mrežama, sažetaka, marketinških tekstova i recenzija, nastaje uz pomoć umjetne inteligencije. Ako tvrtke koje razvijaju nove AI modele prikupljaju sadržaj s weba bez ozbiljne provjere njegova podrijetla, u njihove skupove za treniranje ulazi sve više materijala koji nije proizveo čovjek, nego stariji modeli AI-ja.
Na prvi pogled to možda ne zvuči dramatično. Ako AI može proizvesti uvjerljiv tekst, zašto drugi AI ne bi mogao učiti iz njega? No, problem je u tome što generativni modeli ne kopiraju stvarnost savršeno. Oni je procjenjuju. Uče obrasce iz podataka, a zatim proizvode tekst, sliku ili druge rezultate koji sliče onome što su vidjeli.
U tom procesu nastaju odstupanja. Kada novi model uči iz tih odstupanja, može ih prihvatiti kao dio stvarnosti i zatim im dodati još i vlastita odstupanja. Nakon nekoliko generacija pogreške se nagomilaju. O tome smo u jednom drugom kontekstu već pisali na Indexu u tekstu s naslovom "AI ozbiljno uništava internet".
Jedan od autora studije, Yarin Gal iz odjela računalnih znanosti na University of Oxford, opisao je problem ovako: "Kolaps modela AI-ja ekvivalent je povratnoj sprezi koja je pošla po zlu. Što se modeli više hrane vlastitim rezultatima, to se više udaljavaju od stvarnosti. Kolaps modela prijeti stvaranjem AI eho-komore".
AI teži prosječnom i najčešćem
Ključan pojam u ovom istraživanju su tzv. "repovi distribucije". Distribucija je način na koji su podaci raspoređeni. Neke stvari pojavljuju se često, a neke rijetko. U tekstovima na internetu česte su jednostavne rečenice, opće fraze i uobičajene teme.
Problem je u tome što upravo oni prvi nestaju. Modeli imaju tendenciju učiti ono što je najvjerojatnije jer LLM-ovi tako funkcioniraju – pojednostavljeno govoreći, na temelju prethodnog teksta procjenjuju statistički najvjerojatniji sljedeći token, odnosno dio riječi, riječ ili znak.
Ako se rijetki obrasci ne pojavljuju dovoljno često u novim podacima, model ih može prestati prepoznavati kao važan dio stvarnosti. To ne znači samo da će tekstovi biti dosadniji. To može značiti i da će modeli lošije razumjeti rijetke bolesti, manje jezike, inovativne znanstvene hipoteze ili iskustva ljudi koji nisu jako zastupljeni u podacima.
Ilia Shumailov, glavni autor rada, kaže da se "kolaps modela odnosi na AI koji spiralno tone u ponor, hraneći se vlastitim pogreškama i postajući sve zbunjeniji i repetitivniji".
Podaci postaju sve lošiji
Znanstvenici u radu objavljenom u Natureu nisu ostali samo na teoriji. Testirali su što se stvarno događa u nekoliko različitih tipova modela, uključujući velike jezične modele, varijacijske autoenkodere i Gaussove mješovite modele. Varijacijski autoenkoderi su modeli koji uče sažeti podatke, primjerice slike, u jednostavniji unutarnji oblik, a zatim ih ponovno rekonstruirati.
Gaussovi mješoviti modeli su statistički modeli koji podatke opisuju kao kombinaciju više zvonolikih raspodjela. U svojem istraživanju uočili su da se navedeni problem nije pojavio samo u jednoj vrsti AI-ja, nego u više različitih sustava.
U eksperimentima s jezičnim modelima istraživači su pokazali da podaci proizvedeni pomoću njih mogu iz generacije u generaciju postajati sve lošiji.
Nature u sažetku rada navodi da neselektivno korištenje sadržaja koje su proizveli modeli u treniranju budućih modela izaziva "nepovratne nedostatke" i dovodi do nestanka repova izvorne raspodjele podataka.
Zasipavanje Interneta smećem
Ross Anderson, pokojni profesor s University of Cambridge i jedan od autora rada, još je 2023. na svom blogu upozorio na isti problem vrlo slikovitom usporedbom.
"Baš kao što smo oceane zasuli plastičnim smećem, a atmosferu napunili ugljikovim dioksidom, tako ćemo sada internet napuniti blebetanjem", napisao je. Dodao je još i rečenicu koja se često citira u raspravama o ovoj temi: "LLM-ovi su poput vatre, koristan alat, ali onaj koji zagađuje okoliš. Kako ćemo se nositi s time?"
Snaga LLM-ova dolazi iz sposobnosti da prepoznaju obrasce u jeziku i proizvode tekst koji djeluje smisleno. No upravo zbog toga oni su posebno osjetljivi na kvalitetu tekstova na kojima uče.
Važno je naglasiti da rad ne kaže da je sav umjetno stvoreni sadržaj beskoristan. Podaci koje stvaraju modeli mogu biti korisni u nekim područjima, osobito kada ih se pažljivo kontrolira i provjerava. Problem nastaje kada se sadržaj generiran AI-jem neselektivno ubacuje u goleme skupove podataka za treniranje, bez jasnog označavanja i bez osiguravanja dovoljnog udjela provjerenih ljudskih podataka.
Može li se kolaps izbjeći?
Nakon objavljivanja navedenog rada u Natureu pojavile su se i neke studije koje su pokušale odgovoriti na pitanje može li se kolaps izbjeći. Jedan rad analizirao je koliko je opasno treniranje na umjetnim podacima i zaključio da se kolaps ne može izbjeći kada se modeli treniraju isključivo na umjetnim podacima, ali da miješanje stvarnih i umjetnih može pomoći ako udio umjetnih ostane dovoljno nizak.
Druga studija postavila je pitanje je li kolaps neizbježan ako se podaci ne zamjenjuju potpuno, nego se akumuliraju. Autori su pokazali da zadržavanje izvornih stvarnih podataka i dodavanje novih podataka može spriječiti kolaps u nekim eksperimentalnim uvjetima.
Što to znači za obične korisnike?
Sličan problem uočen je i kod generatora slika. Matyas Bohacek i Hany Farid pokazali su da se kreacije modela za generiranje slika mogu ozbiljno izobličiti ako se iznova i iznova treniraju na vlastitim rezultatima. Čak i mali udio takvih podataka može s vremenom narušiti kvalitetu slika.
Sve navedeno ne znači da je svaka rečenica generirana AI-jem bezvrijedna. To znači da se iza kulisa vodi ozbiljna borba za kvalitetne podatke. Zbog toga tehnološke kompanije sve više sklapaju ugovore s medijima, izdavačima, znanstvenim bazama i drugim izvorima provjerenog sadržaja.