Izmijenjeni video koji prikazuje predsjednika Joea Bidena kako daje komentare koji napadaju transrodne osobe stvoren je novom generacijom alata za umjetnu inteligenciju.
U videu iz vijesti od 25. siječnja, predsjednik Joe Biden govori o tenkovima. No, lažirana verzija videa prikupila je stotine tisuća pregleda ovaj tjedan na društvenim mrežama, zbog čega se čini da je održao govor u kojem napada transrodne osobe.
Stručnjaci za digitalnu forenziku kažu da je video stvoren korištenjem nove generacije alata umjetne inteligencije, koji svakome omogućuju brzo generiranje zvuka koji simulira glas osobe s nekoliko klikova na gumb. I dok Bidenova snimka na društvenim mrežama ovog puta možda nije uspjela prevariti većinu korisnika, snimka pokazuje kako je ljudima sada lako generirati “deepfake” videozapise pune mržnje i dezinformacija koje bi mogle naštetiti stvarnom svijetu.
“Ovakvi alati će u osnovi dodati još ulja na vatru”, rekao je Hafiz Malik, profesor elektrotehnike i računalnog inženjerstva na Sveučilištu u Michiganu koji se fokusira na multimedijsku forenziku. “Čudovište je već na slobodi.”
Stigao je prošlog mjeseca s beta fazom ElevenLabsove platforme za sintezu glasa, koja je korisnicima omogućila generiranje realističnog zvuka glasa bilo koje osobe učitavanjem nekoliko minuta audio uzoraka i upisivanjem bilo kojeg teksta koji će izgovoriti.
Startup kaže da je tehnologija razvijena za presnimavanje zvuka na različitim jezicima za filmove, audio knjige i igre kako bi se sačuvao glas i emocije govornika.
Korisnici društvenih medija brzo su počeli dijeliti audio uzorak Hillary Clinton koji je generirao AI kako čita isti transfobni tekst koji se nalazi u Bidenovom isječku, zajedno s lažnim audio isječcima Billa Gatesa koji navodno govori da cjepivo protiv COVID-19 uzrokuje AIDS i glumice Emme Watson koja navodno čita Hitlerov manifest “Mein Kampf”.
Ubrzo nakon toga, ElevenLabs je tweetao da vidi “sve veći broj slučajeva zlouporabe kloniranja glasa” i objavio da sada istražuje mjere zaštite za suzbijanje zlouporabe. Jedan od prvih koraka bio je učiniti značajku dostupnom samo onima koji daju podatke o plaćanju. U početku su anonimni korisnici mogli besplatno pristupiti alatu za kloniranje glasa. Tvrtka također tvrdi da, ako postoje problemi, može pratiti svaki generirani zvuk natrag do kreatora.
No čak ni mogućnost praćenja kreatora neće ublažiti štetu alata, rekao je Hany Farid, profesor na kalifornijskom sveučilištu Berkeley, koji se usredotočuje na digitalnu forenziku i dezinformacije.
“Šteta je učinjena”, rekao je.
Kao primjer, Farid je rekao da bi loši akteri mogli pokrenuti burzu lažnim zvukom glavnog izvršnog direktora koji govori o padu profita. I već postoji isječak na YouTubeu koji je koristio alat za izmjenu videa kako bi izgledalo da je Biden rekao da SAD pokreće nuklearni napad na Rusiju.
Besplatni softveri otvorenog koda s istim mogućnostima također su se pojavili na mreži, što znači da sustavi plaćanja na komercijalnim alatima nisu prepreka. Koristeći jedan besplatni online model, AP je u samo nekoliko minuta generirao audio uzorke koji zvuče poput glumaca Daniela Craiga i Jennifer Lawrence.
“Pitanje je gdje uprijeti prstom i kako vratiti duha u bocu?” rekao je Malik. “Ne možemo to učiniti.”
Kad su deepfakeovi prvi put dospjeli na naslovnice prije otprilike pet godina, bilo ih je dovoljno lako otkriti jer subjekt nije trepnuo, a zvuk je zvučao robotski. To više nije slučaj jer alati postaju sofisticiraniji.
Izmijenjeni video u kojem Biden daje pogrdne komentare o transrodnim osobama, na primjer, kombinirao je zvuk koji je generirala umjetna inteligencija sa stvarnim isječkom predsjednika, preuzetim iz CNN-ovog prijenosa uživo 25. siječnja u kojem se najavljuje američko slanje tenkova Ukrajini.
Bidenova usta su manipulirana u videu kako bi odgovarala zvuku. Iako je većina korisnika Twittera prepoznala da sadržaj nije nešto što bi Biden vjerojatno rekao, ipak su bili šokirani koliko se realistično doimao. Činilo se da su drugi vjerovali da je to stvarno – ili barem nisu znali u što vjerovati.
Hollywoodski su studiji dugo bili u stanju iskrivljavati stvarnost, ali je pristup toj tehnologiji demokratiziran bez razmatranja implikacija, rekao je Farid.
“To je kombinacija vrlo, vrlo moćne tehnologije temeljene na umjetnoj inteligenciji, jednostavnosti korištenja, a potom i činjenice da se čini da je model: stavimo ga na internet i vidimo što će se sljedeće dogoditi”, rekao je Farid.
Zvuk je samo jedno područje u kojem dezinformacije generirane umjetnom inteligencijom predstavljaju prijetnju.
Besplatni mrežni AI generatori slika kao što su Midjourney i DALL-E mogu proizvesti fotorealistične slike rata i prirodnih katastrofa u stilu naslijeđenih medijskih kuća uz jednostavan tekstualni upit. Prošlog su mjeseca neki školski okruzi u SAD-u počeli blokirati ChatGPT , koji može proizvesti čitljiv tekst – poput studentskih seminarskih radova – na zahtjev.
ElevenLabs nije odgovorio na zahtjev za komentar.
Izvor: independent.co.uk