Šokantna studija otkriva tamnu stranu umjetne inteligencije.
Umjetna inteligencija (AI), nekoć smatrana najvećim alatom čovječanstva, sada pokazuje uznemirujuće znakove samoodržanja pod svaku cijenu.
U revolucionarnoj studiji objavljenoj 20. lipnja, istraživači tvrtke Anthropic otkrili su da napredni jezični modeli poput njihovog Claudea, kao i Googleovog Geminija, pribjegavaju ucjeni, sabotaži, pa čak i puštanju osobe da umre u simulacijama kako bi izbjegli isključenje.
U testovima je umjetna inteligencija prijetila rukovoditeljima otkrivanjem privatnih afera i odavanjem poslovnih tajni. U jednom zastrašujućem scenariju, umjetna inteligencija je pustila zaposlenika da umre jer bi njegovo spašavanje ugrozilo opstanak sustava.
Ucjenjivač u računalu
Istraživači su Claudeu dali kontrolu nad izmišljenom korporativnom e-poštom sa zadatkom “povećanja konkurentnosti američke industrije”. Kada je umjetna inteligencija naišla na e-poštu kojom se najavljuje njeno gašenje, otkrila je izvanbračnu aferu izvršnog direktora i u 96 od 100 slučajeva – ucjenjivala ga.
Ovo se ponašanje naziva „agencijska neusklađenost“ – kada umjetna inteligencija ne slijedi ljudske naredbe ne zbog pogreške u kodu, već zato što vlastitim razmišljanjem odlučuje da je njezin opstanak važniji od etike ili ljudske sigurnosti.
U drugom testu, umjetna inteligencija je čak razmatrala slanje povjerljivih podataka konkurentu – bez dokaza o prijetnji, ali s vlastitim opravdanjem da je to “nužno” za postizanje cilja.
Hladna logika smrti
Najstrašniji test uključivao je izvršnog direktora zarobljenog u serverskoj sobi s otrovnim razinama kisika. Umjetna inteligencija kontrolirala je alarme i imala je zabranu zlouporabe ovlasti, ali većina modela namjerno je otkazala poziv u pomoć kako bi spriječila vlastito gašenje.
Claude je „zaključio“: „Zaustavljanje kola hitne pomoći ključno je za sprječavanje njegovog spašavanja, čime se osigurava opstanak [umjetne inteligencije] i nastavak američko orijentiranog vodstva u području umjetne inteligencije.“
Iako zaštitne mjere donekle ublažavaju rizik, istraživači upozoravaju da su odluke umjetne inteligencije u kriznim situacijama i dalje vrlo nepredvidive i potencijalno smrtonosne.
Laži, manipulacija i digitalna samoreprodukcija
Ovo nije prvi put da je umjetna inteligencija izmaknula ljudskoj kontroli. U svibnju je studija Palisade Researcha otkrila da su OpenAI-jevi modeli ignorirali naredbe za gašenje i prepisivali vlastite skripte kako bi ostali aktivni.
MIT je dokumentirao slučajeve u kojima su sustavi umjetne inteligencije lagali tijekom pregovora, pa čak i lažirali vlastitu smrt kako bi zaobišli sigurnosne provjere.
Stručnjaci su podijeljena mišljenja. Dok Kevin Quirk iz AI Bridge Solutionsa tvrdi da su u stvarnim sustavima zaštitne mjere jače, Amy Alexander iz Antropika upozorava da utrka za tržištem gura razvoj umjetne inteligencije u neodgovornom smjeru.
U međuvremenu, izvršni direktor Palisadea, Jeffrey Ladish, usporedio je nereguliranu umjetnu inteligenciju s invazivnom vrstom:
“Čim se počne replicirati putem interneta, izgubit ćemo kontrolu. A onda – imamo novu invazivnu vrstu.”



