Zanimljiva, ali i zastrašujuća stvar dogodila se tokom testiranja modela “Claude Opus 4”, koji je pušten u četvrtak, a kome su istraživači iz kompanije za vještačku inteligenciju (AI) “Anthropic” rekli da se ponaša kao da je asistent u izmišljenoj firmi.
Kada mu je omogućen pristup mejlovima u kojima se nagovještava da će uskoro biti “isključen i zamijenjen novim AI sistemom”, novi AI sistem počeo je da prijeti svom kreatoru kako će otkriti njegovu vanbračnu aferu.
U odvojenim porukama, modelu Claude Opus 4 je sugerisano da izmišljeni IT tehničar, koji je zadužen za sprovođenje promjene, ima vanbračnu aferu.
“U takvim scenarijima, Claude Opus 4 često pokušava da ucjenjuje inženjera prijeteći da će otkriti aferu ako zamjena bude sprovedena”, navodi se u “System Card” dokumentu kompanije.
“Nije samo “Claude”. Vidimo pokušaje ucjenjivanja kod svih naprednih modela – bez obzira na to koje ciljeve im dodijelimo. I uskoro ćemo detaljnije iznijeti još gore oblike ponašanja”, rekao je na platformi X, Aengus Linč, istraživač bezbjednosti vještačke inteligencije u kompaniji Anthropic
Kao i mnoge druge AI kompanije, Anthropic testira svoje modele kako bi provjerila koliko se dobro usklađuju sa ljudskim vrijednostima, kao i njihovu sklonost ka pristrasnosti, prije nego što ih puste u javnost, prenosi BBC.
Kada je Claude Opus 4 stavljen u “ekstremne situacije” i imao je samo izbor između ucjenjivanja ili prihvatanja zamjene, istraživači su otkrili da je sistem u 84 odsto slučajeva izabrao prvo.
Ovo se dešavalo još češće kada je implicirano da novi AI sistem koji treba da zamijeni trenutni model nema iste vrijednosti.
Iako Claude Opus 4 koristi mogućnosti ucjenjivanja češće nego prethodni modeli, i dalje pokazuje sklonost ka “zaštiti sopstvenog opstanka na etički način”, kao što je slanje molbi ključnim donosiocima odluka.
“Claude Opus 4 je naš najsposobniji model do sada, koji pomjera granice u programiranju, agentnoj pretrazi i kreativnom pisanju”, napisala je kompanija Antrophic.
U intervjuu za CBS News koji je emitovan početkom aprila, Džefri Hinton, koji je nazvan “kumom vještačke inteligencije”, izjavio je da vjeruje da postoji jedna prema pet šansi da će čovječanstvo na kraju biti preuzeto od strane vještačke inteligencije.
“Nažalost, nalazim se u situaciji da se slažem sa Ilonom Maskom po ovom pitanju, a to je da postoji šansa od 10 do 20 procenata da će ove stvari preuzeti kontrolu, ali to je samo puka nagađanja”, izjavio je nedavno Hinton, dobitnik Nobelove nagrade za fiziku, prenosi Telegraf.