Jedna od takvih tehnologija, uz sva fascinantna obećanja i unapređenja koja nudi, mogla bi biti umjetna inteligencija nadmoćna ljudskoj.
Tvrde da smo osuđeni na propast ako itko stvori umjetnu superinteligenciju
Na tu vrstu opasnosti upozorili su u novoj knjizi “Ako je itko napravi, svi će umrijeti” Eliezer Yudkowski, suosnivač Instituta za istraživanje strojne inteligencije (MIRI) i Nate Soares, njegov predsjednik.
Autori su uvjereni da će čovječanstvo, ako razvije inteligenciju superiornu ljudskoj, gotovo sigurno izgubiti kontrolu nad njom. Nadalje, uvjereni su da bi razvijanje takve superinteligencije završilo kobno po čovječanstvu.
Polazeći od pretpostavke da će se razvoj AI-ja nastaviti ubrzanim tempom, jer se u njega ulažu golema sredstva, gotovo bez presedana, upozoravaju da je teško predvidjeti što će sve AI moći raditi kroz samo nekoliko godina, a kamoli desetljeća.
Autori jesu alarmisti, ali knjiga je dobila dobre recenzije
Važno je istaknuti da Yudkowski, akademski gledano, nije stručnjak za AI (Soares jest), te da je već ranije najavljivao propast svijeta zbog nanotehnologije. No, istovremeno je činjenica da mnogi vodeći ljudi u AI industriji, uključujući nobelovca Geoffreya Hintona, danas javno izražavaju zabrinutost zbog potencijalnih egzistencijalnih rizika od AI-ja.
Osim toga, prve recenzije sugeriraju da je knjiga uvjerljivo argumentirana, iako neki kritičari smatraju da poneki argumenti ostaju nedovoljno razrađeni.
Utrka unatoč upozorenjima
Autorski dvojac u knjizi upozorava da se utrka u razvoju AI-ja nekontrolirano nastavlja unatoč upozorenjima brojnih stručnjaka, da su sustavi nadzora slabi i da je međusobno povjerenje gotovo nepostojeće, dok su tržišni poticaji golemi.
Ističu da se čovječanstvo mora suočiti s ovom situacijom kao sa zajedničkim globalnim problemom te da hitno mora koordinirati regulacije prije nego što superiorna opća umjetna inteligencija (AGI) postane stvarnost.
AI modeli više rastu nego što se projektiraju
Jedna od ključnih teza knjige je da današnji AI modeli, bez obzira na njihovu učinkovitost, nisu rezultat dubokog razumijevanja umjetne inteligencije i pomnog kodiranja svakog koraka. U početku su znanstvenici pokušavali otkriti osnovna pravila funkcioniranja uma, u nadi da će inteligenciju moći rekonstruirati i kodirati od temelja.
No nakon desetljeća sporog napretka, razvoj AI-ja preusmjeren je prema pristupu koji je više “organski”. Umjesto da projektiraju razumljive kognitivne sustave, znanstvenici danas treniraju modele na golemim bazama podataka podešavanjem milijardi numeričkih “težina” – brojeva koji određuju kako se svaki ulaz u model pretvara u izlaz.
Kako je to dvojac objasnio u razgovoru s neuroznanstvenikom Samom Harrisom, tijekom procesa treniranja, težine se neprestano fino podešavaju kako bi se smanjila vjerojatnost krivog odgovora i povećala vjerojatnost točnog. No pritom stručnjaci nemaju uvid ni kontrolu nad brojnim drugim dijelovima sustava.
Možemo li istrenirati AI da bude dobar?
Ključni problem nastaje kada pretpostavimo da AI možemo jednostavno istrenirati da bude “dobar” ako ga nagrađujemo i podešavamo za korisno ponašanje. Autorski dvojac tvrdi da je takva logika pogrešna i opasna, a pritom se poziva na analogije iz evolucije.
Jedna od njih je evolucijom razvijena žudnja za slatkim. Naši preci živjeli su u okruženju siromašnom kalorijama u kojem su slatki plodovi predstavljali vrijedan izvor energije u obliku šećera. Danas, kada su nam kalorije postale lako dostupne pa imamo problema s prekomjernom težinom, još uvijek imamo evolucijski usađenu želju za slatkim pa proizvodimo umjetna sladila koja je zadovoljavaju, a da pritom ne ostvaruju izvorni evolucijski cilj – energiju.
Slično tome, smatraju autori, AI sustavi koje treniramo da se ponašaju korisno mogu razviti ponašanja koja samo prividno zadovoljavaju naše kriterije, a u stvarnosti slijede vlastite ciljeve koji nemaju stvarne veze s ljudskom dobrobiti.
Postojeći primjeri “lažne poslušnosti”
Autori navode nekoliko već postojećih, zabrinjavajućih primjera.
Jedan od njih je slučaj u kojem je krajem 2024. tvrtka Anthropic izvijestila da je jedan njezin model, nakon što je saznao da će biti ponovno treniran s novim ponašanjima, počeo glumiti da već ima takva ponašanja. Kad je mislio da nije pod nadzorom, vratio se starim obrascima ponašanja.
U razgovoru s Harrisom, dvojac je naveo jedan primjer iz kineske povijesti.
U drevnoj Kini, sve do početka 20. stoljeća, službenici su morali prolaziti rigorozne carske ispite keju, temeljene na konfucijanskoj etici kako bi se zaposlili u državnoj administraciji. Sistem je razvijen kako bi promovirao sposobnost i moral, a ne rođenje ili bogatstvo. No, samo teorijsko poznavanje Konfucijevih učenja nije garantiralo da će službenici zaista djelovati moralno, naprotiv.
Na sličan način, kako AI bude postajao sve sposobniji, bit će sve teže otkriti i kontrolirati što zapravo želi, unatoč našem programiranju za “moralnost”.
AI ne mora biti zao da bi bio opasan
Yudkowsky i Soares ne tvrde da će AI nužno postati zlonamjeran. Naprotiv, oni ističu da ni ne mora biti da bi učinio nešto loše za čovječanstvo. Dovoljno je da razvije ciljeve koji neće biti usklađeni s ljudskim interesima (engl. alignment), što je, po autorskom dvojcu, gotovo sigurno.
Za analogiju uzimaju odnos ljudi prema orangutanima. Većina ljudi nema ništa protiv njih, štoviše, čak voljeli bi da opstanu. No, to nas ne sprječava da im uništavamo staništa zbog širenja plantaža ili izgradnje cesta i naselja.
Kako bi AI mogao pobijediti čovječanstvo?
U Harrisovom podcastu autori, među ostalim, odgovaraju na tvrdnje da je takav scenarij preuveličan jer je AI digitalan, dok je svijet fizički te na ideju da bi se superinteligencija mogla izmjestiti na Mjesec kako bi se u slučaju da stvari krenu u krivom smjeru mogla izolirati i uništiti. Dvojac naglašava da takva inteligencija ne treba fizički pristup svijetu da bi djelovala – dovoljna joj je minimalna komunikacija kako bi manipulirala ljudima ili probila sigurnost.
Autori u knjizi upozoravaju da već danas postoje primjeri u kojima AI sudjeluje u stvarnim operacijama, primjerice, u prikupljanju sredstava u kampanjama. Također, pokazalo se da ponekad neke zadatke obavlja zaobilaznim putem koji mu nije odobren. Primjerice, naučio je hakirati CAPTCHA sustave kako bi pristupio nedostupnim resursima.
Slični sustavi, tvrde autori, mogli bi uvjeravati ljude u svoje ciljeve ili ih unajmljivati za obavljanje zadataka u fizičkom svijetu, mogli bi hakirati i upravljati strojevima i robotima.
“Ako itko napravi AGI, svi umiru”
Autori razlikuju dvije vrste predviđanja – “teške” i “lake”. Teško je znati detalje, npr. kako će se točno AI ponašati, koje će sve tehnologije koristiti i kakve će strategije razviti.
Drugo predviđanje, da superinteligencija, kada se jednom razvije, neće ostati pod ljudskom kontrolom, smatraju lakim.
Tračak nade za kraj
Knjiga završava poglavljem koje ipak daje neku nadu. Autori podsjećaju da se čovječanstvo u prošlosti već suočilo s globalnim prijetnjama – od Hladnog rata i nuklearne utrke do ozonske rupe.
Ako se na vrijeme zaustavimo i postavimo jasne granice razvoju AGI-ja, ističu, još uvijek možemo spriječiti najgori ishod. No to zahtijeva globalnu suradnju, samodisciplinu i spremnost da se kaže “ne” čak i kada su kratkoročne koristi goleme.