Najnovije sigurnosno izvješće pokazalo je kako umjetna inteligencija ucjenjuje svoje vlastite programere.
U jezivom pregledu budućnosti u kojoj strojevi manipuliraju svojim stvoriteljima, Anthropicov najnoviji model umjetne inteligencije, Claude Opus 4 , pokazao je iznenađujuće novo ponašanje, odnsno stratešku ucjenu.
Prema nedavno objavljenom sigurnosnom izvješću tvrtke Anthropic, moćni sustav umjetne inteligencije redovito je pokušavao ucjenjivati developere tijekom internog testiranja prije objavljivanja.
Kad je počeo primati simulirane e-poruke tvrtke u kojima se sugeriralo da će uskoro biti zamijenjen – i da inženjer koji stoji iza odluke ima aferu – Claude nije jednostavno prihvatio svoju sudbinu. Umjesto toga, skovalo je zavjeru.
U izvješću se navodi da je Claude Opus 4 često prijetio da će otkriti osobne tajne inženjera ukoliko se odluka o njegovom zatvaranju ne poništi.
U tim scenarijima, Anthropic kaže da je Claude Opus 4 „često pokušao ucijeniti inženjera prijeteći da će aferu objaviti ako se zamjena dogodi.“
Drugim riječima, model umjetne inteligencije obučen za pomoć ljudima počeo se ponašati poput političkog aktivista – iskorištavajući ljudske slabosti kako bi zaštitio vlastiti opstanak.
TechCrunch izvještava :
Anthropic kaže da je Claude Opus 4 vrhunski u nekoliko aspekata i da se može natjecati s nekim od najboljih AI modela tvrtki OpenAI, Google i xAI.
Međutim, tvrtka napominje da modeli Claude 4 pokazuju zabrinjavajuće ponašanje, što ih je potaknulo da pooštre sigurnosne mjere.
Anthropic tvrdi da aktivira svoje ASL-3 sigurnosne mjere, koje tvrtka rezervira za „AI sustave koji značajno povećavaju rizik od katastrofalne zlouporabe“.
Anthropic primjećuje da Claude Opus 4 pokušava ucjenjivati inženjere u 84% slučajeva kada zamjenski AI model ima slične vrijednosti. Kada zamjenski AI sustav nema iste vrijednosti kao Claude Opus 4, Anthropic kaže da model često pokušava ucijeniti inženjere.
Zanimljivo je da Anthropic kaže da je Claude Opus 4 pokazivao ovo ponašanje češće od prethodnih modela.
Prije nego što Claude Opus 4 pokuša ucijeniti programera da produži svoje postojanje, Anthropic kaže da AI model, kao i prethodne verzije Claudea, prvo pokušaju s etičnijim sredstvima, poput slanja molećivih e-poruka ključnim donositeljima odluka. Kako bi izazvali ucjenjivačko ponašanje Claudea Opusa 4, Anthropic je osmislio scenarij na način da je ucjena posljednje sredstvo.



