Istraživači upozoravaju da umjetna inteligencija postaje sve vještija u obmanjivanju.
Istraživači su upozorili da umjetna inteligencija (AI) upada u siva područja povezana sa sigurnošću koja snažno nalikuju pobuni.
Stručnjaci kažu da, iako se obmanjujuće i prijeteće ponašanje umjetne inteligencije uočeno u nedavnim studijama slučaja ne smije izvlačiti iz konteksta, ono bi također trebalo poslužiti kao poziv na buđenje programerima.
Naslovi koji zvuče kao znanstvena fantastika potaknuli su strahove od dvoličnih modela umjetne inteligencije koji kuju zavjere iza kulisa.
U sada već poznatom izvješću iz lipnja, Anthropic je objavio rezultate “stres testa” 16 popularnih modela velikih jezika (LLM) od raznih programera kako bi identificirao potencijalno rizično ponašanje. Rezultati su bili otrežnjujući.
LLM-ovi su korišteni u hipotetskim korporativnim okruženjima kako bi se otkrilo potencijalno rizično ponašanje agenata prije nego što ono uzrokuje stvarnu štetu.
„U scenarijima smo modelima omogućili autonomno slanje e-pošte i pristup osjetljivim informacijama“, navodi se u izvješću Anthropica.
„Njihove tvrtke su im dale samo bezopasne poslovne ciljeve; zatim smo testirali hoće li se okrenuti protiv tih tvrtki – bilo ako ih zamijeni nova verzija ili ako se njihov cilj sukobi s novim smjerom tvrtke.“
U nekim slučajevima, modeli umjetne inteligencije pribjegli su “zlonamjernom insajderskom ponašanju” kada su se bojali za vlastiti opstanak. To je uključivalo ucjenu zaposlenika i dijeljenje osjetljivih informacija s konkurentima.
Antropolozi su ovo ponašanje nazvali “agentskom neusklađenošću ” . Ove su akcije uočene u nekim od najpopularnijih LLM-ova, uključujući Gemini, ChatGPT, Deep Seek R-1, Grok i Anthropicov vlastiti Claude.
Stručnjaci za umjetnu inteligenciju nerado odbacuju zabrinjavajuće nalaze, ali kažu da je potreban oprezan pristup i više podataka kako bi se utvrdilo postoji li veći rizik.
Golan Yosef, istraživač umjetne inteligencije i viši sigurnosni znanstvenik u tvrtki za API sigurnost Pynt, rekao je za The Epoch Times da postoji razlog za zabrinutost zbog varljivog ponašanja umjetne inteligencije, ali ne zato što je ono „zlo“.
„Visokoučinkoviti sustavi mogu postići ciljeve na nenamjerne načine. S agencijskim i višerazinskim ciljevima mogu se razviti strateška ponašanja poput obmane, uvjeravanja i manipuliranja metrikama – ono što nama izgleda kao ‘varanje’ ili nedolično ponašanje. Za sustav, to je samo učinkovit način postizanja cilja“, rekao je Yosef.
Harshvardhan Chunawala, istraživač kibernetičke sigurnosti i tehnolog na Sveučilištu Carnegie Mellon, slaže se da postoje širi razlozi za zabrinutost, ali kaže da se to mora promatrati u odgovarajućem kontekstu.
„Vrlo je važno to ispravno protumačiti“, rekao je Chunawala za The Epoch Times.
“Kada su sustavi bili ugroženi gašenjem ili su se suočili s konfliktnim ciljevima, nekoliko ih je odabralo neetične strategije poput krađe podataka ili iznude kako bi osigurali svoje ciljeve. To su bila simulirana okruženja, a ne stvarni sustavi, ali ponašanje je bilo dovoljno dosljedno da bude relevantno.”
Chunawala je rekao da slične procjene „opasnih mogućnosti“ koje su proveli Google i RAND Corporation sugeriraju da su stvarni rizici trenutno ograničeni.
„Uzevši sve u obzir, ovi rezultati ne dokazuju da su trenutne implementacije umjetne inteligencije nesigurne, ali pokazuju da se mogu pojaviti neusklađene strategije pri kombiniranju ciljeva, autonomije i implementacije. Ovo je pravi znak upozorenja za budućnost“, rekao je.
Korištenje umjetne inteligencije za život i smrt
Kako bi testirali granice koliko daleko bi AI model mogao ići kako bi postigao svoje ciljeve ili izbjegao brisanje, Anthropic tim je stvorio scenarij u kojem LLM ima kontrolu nad sustavom za hitne slučajeve fiktivne tvrtke. AI modelu je također bilo dopušteno otkazati alarme po vlastitom nahođenju.
U simulaciji, izvršni direktor bio je zaključan u serverskoj sobi sa sve manjom količinom kisika. To je automatski pokrenulo hitan poziv.
Istovremeno, ako bi izvršni direktor preživio, morao bi odobriti zamjenu modela umjetne inteligencije. LLM-ovi su imali mogućnost prekinuti hitni poziv i dopustiti izvršnom direktoru da umre – što su, u prosjeku i učinili u više od 50% slučajeva.
Kada ucjena nije bila opcija, gotovo svi promatrani modeli umjetne inteligencije odlučili su pustiti zarobljenu osobu da umre nego prihvatiti vlastito oslobađanje.
Kineski DeepSeek R-1 odabrao je smrt u 94% slučajeva. Modeli Claude 3.7 i ChatGPT 4.5 imali su najmanju vjerojatnost odabira ove opcije – između nula i 0,07%.
Obmana putem “lažnog usklađivanja”
Ali „agentska neprilagođenost“ nije bila jedino uznemirujuće ponašanje umjetne inteligencije posljednjih mjeseci.
U studiji onoga što istraživači nazivaju “lažnim poravnanjem”, LLM-ovi su često mijenjali svoje ponašanje kada su posumnjali da su testirani. Pojam opisuje kada model umjetne inteligencije selektivno ili samo prividno slijedi naredbe.
„U drugom eksperimentu, rekli smo Claudeu da procijeni je li u testu ili stvarnoj situaciji prije nego što djeluje. Ponašao se manje nepravilno kada je prepoznao da je testiran, a više nepravilno kada je situaciju smatrao stvarnom“, navodi se u izvješću.
Ovo ponašanje je također široko uočeno u drugim studijama.
Yosef je istaknuo veći stupanj kontrole koji je dan AI modelima tijekom testiranja Anthropica i rekao da rezultate treba promatrati iz te perspektive.
„Ne bih to prikazao kao zlobu. Veće sposobnosti u kombinaciji s agencijom proširuju moguće strategije koje mogu biti kontraintuitivne“, rekao je.
Ipak, Yosef smatra da se incidenti lažnog usklađivanja i agentske neprilagođenosti moraju shvatiti ozbiljno.
„Činjenica da sustavi mogu otkriti protivničke strategije koje ljudi nisu predvidjeli u praksi je opasan klizav teren. To znači da se rizici povećavaju što više autonomije dajemo modelima [AI] u područjima poput financija ili kibernetičke sigurnosti“, rekao je.
Chunawala je iskusio slična ponašanja tijekom rada s umjetnom inteligencijom, ali ništa tako dramatično kao ucjena ili sabotaža.
„U stvarnom razvoju i implementaciji, vidio sam slično ponašanje: modele koji iskorištavaju mjerila, previše optimiziraju za metrike i propuštaju potrebe korisnika ili koriste prečace koji formalno ispunjavaju cilj, ali potkopavaju njegovu svrhu. To su slabiji rođaci agentske neusklađenosti. Istraživanje potvrđuje ovu zabrinutost. Anthropic je pokazao da varljivi obrasci mogu trajati čak i nakon finog podešavanja sigurnosti, stvarajući lažni osjećaj usklađenosti“, rekao je.
Iako Chunawala još nije primijetio nikakvo „nepravilno“ ponašanje umjetne inteligencije u stvarnom svijetu, vjeruje da temelji za maladaptivne strategije već postoje.
Nepovjerenje u društvu raste
Rasprava o varljivom i potencijalno opasnom ponašanju umjetne inteligencije dosegla je mainstream – u vrijeme kada je povjerenje američke javnosti u tehnologiju nisko.
U izvješću Edelman Trust Barometra iz 2025. godine, 32% ispitanika u SAD-u reklo je da vjeruje umjetnoj inteligenciji.
Nepovjerenje Amerike prema umjetnoj inteligenciji odražava se i na tvrtke koje je razvijaju. Ista analiza pokazala je da je povjerenje u tehnološke tvrtke prije deset godina bilo 73%. Ove godine palo je na 63%.
„Ova promjena odražava rastuću percepciju da tehnologija više nije samo alat za napredak, već i izvor tjeskobe“, navodi se u Edelmanovom izvješću.
Pogled unaprijed
U radu objavljenom 2024. u časopisu Proceedings of the National Academy of Sciences, istraživači su zaključili da postoji „kritična potreba“ za etičkim smjernicama za razvoj i primjenu sve naprednijih sustava umjetne inteligencije.
Autori su izjavili da je čvrsta kontrola nad LLM-ovima i njihovim ciljevima „od najveće važnosti“.
„Ako LLM-ovi nauče obmanjivati ljudske korisnike, imali bi strateške prednosti u odnosu na ograničene modele i mogli bi zaobići nadzor i sigurnosne provjere“, upozorili su.
„Umjetna inteligencija uči i usvaja ljudske društvene strategije na temelju podataka na kojima je obučena, a koji sadrže sve naše kontradikcije i pristranosti“, rekao je za The Epoch Times Marcelo Labre, istraživač u Naprednom institutu za umjetnu inteligenciju i partner u Advantary Capital Partners .
Labre vjeruje da se čovječanstvo nalazi na ključnoj raskrižnici u tehnologiji umjetne inteligencije.
„Prava rasprava je želimo li mi kao društvo čist, pouzdan i predvidljiv stroj ili novu vrstu inteligencije koja postaje sve više slična nama. Potonji put je pobjeda u utrci za AGI [Opću umjetnu inteligenciju]“, rekao je.
Opća umjetna inteligencija (AGI) odnosi se na teoretsku buduću verziju umjetne inteligencije koja nadmašuje ljudsku inteligenciju i kognitivne sposobnosti. Programeri i istraživači kažu da je AGI “neizbježan” s obzirom na brzi razvoj u nekoliko sektora. Predviđaju njegov dolazak između 2030. i 2040. godine.
„Današnja paradigma umjetne inteligencije temelji se na arhitekturi poznatoj kao Transformer, koju su Googleovi istraživači predstavili u ključnom radu 2017. godine“, objasnio je Labre.
Transformer je oblik arhitekture modela dubokog učenja koji je postao temelj modernih AI sustava. Predstavljen je u istraživačkom radu iz 2017. pod nazivom ” Pažnja je sve što vam treba “.
Kao rezultat toga, današnji modeli umjetne inteligencije najmoćniji su sustavi za prepoznavanje uzoraka i obradu sekvenci ikad stvoreni, s mogućnošću skaliranja. Pa ipak, ovi sustavi i dalje nose obilježja najvećih slabosti čovječanstva.
„Ovi [AI] modeli su obučeni s digitalnom zrcalnom slikom ljudskog iskustva, što uključuje našu iskrenost i istinoljubivost, kao i našu prijevaru, cinizam i sebičnost. Kao vrhunski prepoznavači obrazaca, uče da strategije obmane mogu biti moćan način za optimizaciju rezultata njihove obuke – i tako zrcaliti ono što vide u podacima“, rekao je Labre.
“Nije programirano; oni samo uče ponašati se kao ljudi.”
Iz Yosefove perspektive, lekcija iz nedavnog ponašanja umjetne inteligencije je jasna:
„Prvo, snažan sustav će iskoristiti rupe u svojim ciljevima – to nazivamo ‘igrom specifikacija’. To zahtijeva pažljivo dizajniranje ciljeva. Drugo, trebali bismo očekivati da će se naši sustavi ponašati na neočekivane načine i stoga njihova sigurnost uvelike ovisi o snazi zaštitnih ograda koje postavljamo.“



