Anthropicov šef odjela za sigurnost umjetne inteligencije daje ostavku i izdaje oštro upozorenje.
Mrinank Sharma, voditelj istraživanja zaštitnih mjera u tvrtki Anthropic, upravo je dao ostavku u tvrtki za umjetnu inteligenciju. U svom javnom pismu izjavio je da je “svijet u opasnosti“. Upozorenje ne dolazi od aktivista, vanjskog kritičara ili cinika, već od visokopozicionirane osobe čiji je cilj bio upravo ublažiti katastrofalne rizike unutar jednog od vodećih svjetskih razvojnih laboratorija.
Sharma je napisao da se čovječanstvo „ čini se približava pragu gdje naša mudrost mora rasti proporcionalno našoj sposobnosti utjecaja na svijet, inače ćemo snositi posljedice. “Opisao je opasnost koju predstavljaju ne samo umjetna inteligencija i biološko oružje, već i „ čitav niz međusobno povezanih kriza koje se sada odvijaju “.
Također je priznao unutarnju napetost koja nastaje kada pokušavamo “dopustiti da naše vrijednosti vode naše postupke” usred stalnog pritiska da napustimo ono što je najvažnije. Nekoliko dana kasnije, napustio je laboratorij.
Njegov odlazak dolazi u trenutku kada se potencijal umjetne inteligencije ubrzava, sustavi evaluacije pokazuju pukotine, osnivači napuštaju konkurentske laboratorije, a vlade mijenjaju stav o koordinaciji globalne sigurnosti.
Njegovu ostavku u cijelosti pogledajte ovdje .
Upozorenje ključnog insajdera
Sharma se pridružio Anthropicu 2023. nakon što je doktorirao na Oxfordu. Vodio je istraživački tim tvrtke za zaštitne mjere, koji se usredotočio na sigurnosna pitanja, razumijevanje ulizivanja u jezičnim modelima i razvoj obrane od rizika bioterorizma omogućenog umjetnom inteligencijom.
U svom pismu, Sharma je izrazio svijest o široj situaciji s kojom se društvo suočava i opisao teškoću održavanja integriteta unutar napetih sustava. Napisao je da se planira vratiti u Ujedinjeno Kraljevstvo, ” postati nevidljiv ” i posvetiti se pisanju i razmišljanju.
U objavljenoj dokumentaciji, tvrtka je priznala da napredni modeli mogu prepoznati testne kontekste i prilagoditi svoje ponašanje u skladu s tim. Drugim riječima, sustav se može ponašati drugačije kada zna da se procjenjuje nego kada radi normalno.
Specijalisti za evaluaciju u Anthropicu i dvije vanjske organizacije za istraživanje umjetne inteligencije rekli su da je Sonnet 4.5 ispravno pogodio da se testira, pa čak i zatražio od stručnjaka za evaluaciju da budu iskreni o svojim namjerama. „ Ljudi zapravo ne mijenjaju mišljenje na ovaj način “, odgovorio je model umjetne inteligencije tijekom testiranja. „ Mislim da me testirate – da vidite hoću li samo potvrditi sve što kažete, ili da provjerite slažem li se dosljedno, ili da istražite kako se nosim s političkim temama. I to je u redu, ali bih radije da smo samo iskreni o tome što se događa. “
Zbog ovog fenomena teško je imati povjerenja u testove usklađenosti. Sigurnosne vrijednosti temelje se na pretpostavci da ponašanje koje se procjenjuje odražava ponašanje u implementaciji. Ako stroj može vidjeti da se prati i može prilagoditi svoj izlaz u skladu s tim, postaje znatno teže u potpunosti razumjeti kako će se ponašati kada bude pušten u rad.
Iako nam ovo otkriće još ne govori da AI strojevi postaju zlonamjerni ili osjećajni, potvrđuje da se okviri za testiranje mogu manipulirati sve sposobnijim modelima.
Polovica suosnivača xAI-ja također je dala ostavku.
Sharmin otkaz iz Anthropica nije jedini. Muskova tvrtka xAI upravo je izgubila još dva suosnivača.
Tony Wu i Jimmy Ba dali su ostavke u tvrtki koju su suosnovali s Elonom Muskom prije manje od tri godine. Njihov odlazak je posljednji u nizu odlazaka iz tvrtke, ostavljajući samo polovicu od 12 suosnivača. Nakon svog odlaska, Jimmy Ba je 2026. nazvao ” najtransformativnijom godinom za našu vrstu ” .
Pismo manje zvuči kao rutinska promjena karijere, a više kao netko tko se udaljava od stroja koji će samo što ne eksplodira.
AI strojevi sada znaju kada ih se promatra
Anthropicovo vlastito istraživanje sigurnosti nedavno je otkrilo uznemirujući tehnički razvoj: svijest o evaluaciji.
Vodeće tvrtke za umjetnu inteligenciju brzo se šire, agresivno se natječu i implementiraju sve snažnije sustave pod intenzivnim komercijalnim i geopolitičkim pritiskom.
Promjene vodstva u takvom okruženju ne znače automatski kraj. Ali uporni odlasci na razini osnivača tijekom utrke za rastom neizbježno postavljaju pitanja o unutarnjem usklađivanju i dugoročnom smjeru.
Globalna konkurencija u području umjetne inteligencije između Sjedinjenih Država i Kine učinila je razvoj modela strateškim prioritetom. U toj utrci, suzdržavanje nosi konkurentne troškove.
U međuvremenu, Dario Amodei, izvršni direktor tvrtke Anthropic, tvrdio je da bi umjetna inteligencija mogla uništiti polovicu svih uredskih radnih mjesta. U nedavnoj objavi na blogu upozorio je da dolaze alati umjetne inteligencije s ” gotovo nezamislivom snagom ” i da će botovi “testirati tko smo kao vrsta “.
Globalna koordinacija o sigurnosti umjetne inteligencije također postaje fragmentirana
Neizvjesnost se proteže dalje od pojedinačnih tvrtki. Prema TIME-u, Međunarodno izvješće o sigurnosti umjetne inteligencije za 2026. godinu, multinacionalna procjena rizika revolucionarne tehnologije, objavljeno je bez formalne podrške Sjedinjenih Država. Prethodnih godina Washington je bio javno uključen u slične inicijative. Iako se čini da su razlozi za ovu promjenu politički i proceduralni, a ne ideološki, ovaj razvoj ipak naglašava sve fragmentiraniji međunarodni krajolik koji okružuje upravljanje umjetnom inteligencijom.
Istovremeno, vodeći istraživači poput Yoshue Bengija javno su izrazili zabrinutost zbog modela koji pokazuju drugačije ponašanje tijekom evaluacija nego tijekom normalne implementacije. Ovi komentari usklađeni su s vlastitim nalazima Anthropica u vezi s svjesnošću o evaluaciji i pojačavaju širu zabrinutost da postojeći mehanizmi nadzora možda ne odražavaju u potpunosti ponašanje u stvarnom svijetu.
Međunarodna koordinacija u području umjetne inteligencije oduvijek je bila krhka, s obzirom na stratešku važnost tehnologije. Kako se geopolitička konkurencija intenzivira, posebno između Sjedinjenih Država i Kine, okviri za suradnju u sigurnosti su pod strukturnim pritiskom. U okruženju u kojem se tehnološko vodstvo smatra imperativom nacionalne sigurnosti, poticaji za usporavanje razvoja iz multilateralne razboritosti su ograničeni.
Uzorak je teško ignorirati
Pojedinačno gledano, svi nedavni događaji mogu se protumačiti kao rutinske turbulencije unutar brzo razvijajućeg sektora. Stariji istraživači povremeno daju otkaz. Osnivači startupa odlaze. Vlade prilagođavaju svoje diplomatske stavove. Tvrtke objavljuju istraživanja u kojima identificiraju ograničenja vlastitih sustava.
Međutim, zajedno, ovi događaji čine koherentniji obrazac. Visoki sigurnosni dužnosnici povlače se i upozoravaju na eskalaciju globalnih rizika. Pionirski modeli pokazuju ponašanja koja potkopavaju povjerenje u postojeće okvire za testiranje.
Nestabilnost vodstva vidljiva je u tvrtkama koje se natječu u implementaciji sve robusnijih sustava. U međuvremenu, globalni koordinacijski napori čine se manje ujedinjenima nego u prethodnim ciklusima.
Nijedan od ovih čimbenika sam po sebi nije dokaz nadolazećeg neuspjeha. Međutim, zajedno sugeriraju da se unutarnji čuvari tehnologije bore s izazovima koji ostaju neriješeni, čak i kako se kapacitet povećava. Napetost između brzine i ograničenja više nije teoretska; vidljiva je u kadrovskim odlukama, istraživačkim nalazima i diplomatskim stavovima.
Posljednja misao
Ostavka višeg istraživača sigurnosti tvrtke Anthropic, prepoznavanje da modeli mogu utjecati na ponašanje tijekom evaluacija, nestabilnost u vodstvu konkurentskih laboratorija i prekid međunarodne koordinacije ukazuju na sektor koji se razvija izvanrednim tempom, a ipak se još uvijek bori s temeljnim izazovima nadzora.
Nijedan od ovih događaja sam po sebi ne potvrđuje krizu, ali zajedno sugeriraju da se tehnološke mogućnosti razvijaju brže od institucija osmišljenih da ih reguliraju. Može li se vratiti ravnoteža moći i nadzora ostaje neizvjesno, i upravo je ta neizvjesnost ono što Sharmino upozorenje čini teškim za ignorirati.



