Dipfejk sadržaji i mogućnosti verifikacije

slika: canva
slika: canva

Portal Radio-televizije Srbije uveo je u oktobru 2020. godine opciju iščitavanja tekstova, i to glasom Dragana Vučelića (ne Milorada Vučelića, ako vas je prezime štrecnulo). Dovoljan je jedan klik i vest će nam „saopštiti“ voditelj i glumac čuven po dobroj dikciji i prijatnom glasu. Softver je, zapravo, pozajmio jedan element Vučelićevog identiteta tako što je na prigodnom uzorku naučio kako voditelj izgovara određene reči i slogove. To, naravno, ne znači da je Vučelić pred mikrofonom morao da pročita sve reči iz Rečnika Matice srpske, u svim njihovim varijantama – rodovima, padežima, vremenima… Ne, uzorak neophodan za „kloniranje“ glasa začuđujuće je mali.

 

Budući da zasad ne postoji platforma koja bi na temelju pročitanog teksta simulirala moj govor na srpskom jeziku, okušao sam sreću s engleskim. Sajt Resemble AI zatražio je od mene da pročitam niz od 25 rečenica, poput „I wouldn’t have let anything come between“, „You wouldn’t have done that if there had not been something“ i „Her maid was standing by the garden gate, looking for her“. Ubrzo mi je stigla potvrda da je moj glas uspešno kloniran. Treba li pridev uspešno iz prethodne rečenice da stavim pod navodnike? Zavisi od toga šta posmatram. S jedne strane, klonirani glas nije bio sasvim nalik mom. S druge strane, ovaj sistem je omogućio da „mojim glasom“ tačno budu pročitane i one reči koje nikada nisam čuo, niti sam sasvim siguran kako se izgovaraju. Za usavršavanje softvera bilo bi potrebno još podešavanja i treniranja, ali je, uzevši u obzir skromnost početnog korpusa, napravljeno pravo malo čudo.

 

Jesmo li spremni za naredni korak? Ako je softver pozajmio jedan deo identiteta Dragana Vučelića, da li bi mogao da uzme i drugi? Recimo, neka input budu video-materijali iz emisija koje Vučelić vodi, a autput neka bude virtuelni voditelj. Drugim rečima, dodajmo generisanom zvuku generisanu sliku i pravi voditelj više nikada neće morati da dolazi na posao. Softver bi iščitavao vesti njegovim glasom, što bi bilo praćeno i uverljivim video-snimkom u kom su pokreti usta i mimika savršeno sinhronizovani s odabranim tekstom.

 

Ako bi se takav, veštački voditelj, pojavio u programu RTS-a, koliko bi gledalaca uvidelo da nešto nije u redu?

 

Dipfejk tehnologija razvija se na nekoliko koloseka, koji se po potrebi spajaju. Veštačke (kompjuterski generisane) slike, veštački zvuk i veštački audio napreduju neverovatnom brzinom i sve je teže golim okom ustanoviti da li je sadržaj autentičan. Naučnici testiraju različite metode, ali se nijedna od njih nije pokazala kao potpuno uspešna. Problem produbljuje to što na ovom polju gađamo „pokretnu metu“: taman naučimo softver da prepozna dipfejk, a dipfejk postane još napredniji i teže uhvatljiv.

 

Nedavno smo na FakeNews Tragaču pisali o slučaju lažnog eksperta Daniela Smita. Osim što je izmislio svoje ime i polje ekspertize, javnosti je ponudio i fotografiju koja je, po svemu sudeći, nastala pomoću servisa This person does not exist. To je moguće uočiti na osnovu pozicije očiju, oblika fotografije, ali i određenih nekonzistentnosti u načinu na koji je AI kreirao naočare. 

 

Pogledajmo još tri nepostojeće osobe koje je kreirao ovaj softver. Ukoliko se dobro zagledamo, videćemo da se uši deteta sa prve slike drastično razlikuju i da je desno mnogo kraće od levog. Uz to, žuta traka s detetove majice stapa se sa zelenom travom. Uho žene sa središnje fotografije takođe je veoma čudno, ali je još čudnija nemoguća pozadina, koja u gornjem levom uglu postaje potpuno apstraktna. Naposletku, ko tako stavlja sunčane naočare na glavu? Dok su se prve dve slike mogle odbaciti kao lažne uz malo strpljenja i zumiranja, s trećom nećemo proći tako lako, jer na njoj nema očiglednih mana. Ovo je, ujedno, i opomena da dipfejk slike ne moraju nužno da budu falične. Veliki broj njih izgleda krajnje uverljivo, a neko kome je potreban lažni identitet može da „rifrešuje“ softver do mile volje, sve dok ne dođe do slike koja mu po svim propozicijama odgovara.

 

Da li bi, međutim, neki softver mogao da nam pomogne ukoliko ne možemo golim okom da razrešimo misteriju? Postoji li ijedan program koji bi mogao s potpunom pouzdanošću da nam potvrdi da je gospodin sa treće slike veštački generisan? Tu dolazimo do složenog problema. Softveri, s jedne strane, mogu da prepoznaju greške koje mi ne možemo, ali – s druge strane – nisu u stanju da prepoznaju sve manjkavosti koje mi vidimo „na prvu“. Evo jednog misaonog eksperimenta: kako biste nekome objasnili zašto je pozadina središnje slike nemoguća? Meni bi to, na primer, bio veoma težak zadatak. S donje leve strane je nešto što bih mogao da protumačim kao plavu košulju s braon (kožnim) tregerom, ali šta je iznad toga? Spontano, za sebe, mogao bih da kažem „Nikada nisam video ništa slično ovome – dva kružna objekta deluju kao greška i stoga ne verujem da su autentični“. Međutim, da bih softveru objasnio zašto su ti objekti „greška“ morao bih da definišem šta je tačno pogrešno ili – još teže – šta bi bilo ispravno.

 

Veštački generisani portreti, poput onih koji su prikazani, jedan su od šest nivoa dipfejk manipulacija. Osim kompletne sinteze, imamo i „razmenu identiteta“, „stapanje identiteta“, izmenu elemenata identiteta, izmenu ekspresije i generisanje videa na osnovu zvučnog ili tekstualnog predloška. „Razmena identiteta“ bila je veoma popularna pre nekoliko godina, kada su društvene mreže bile preplavljene slikama i snimcima parova koji su pomoću aplikacije zamenili lica. Stapanje identiteta podrazumeva tehniku kompozitnog portreta, gde kombinovanjem dva ili više autentičnih lica dobijamo novo, generisano lice. Dipfejk tehnikama moguće je uticati i na specifični aspekt sadržaja, tj. element identiteta ili mimiku. Mnoge aplikacije nam, prema takvom modelu, omogućavaju da vidimo kako bismo izgledali kao osoba suprotnog pola, druge boje kože ili drugačijih godina.

 

Na kraju dolazimo i do našeg veštačkog voditelja s početka teksta, odnosno do naprednog, audiovizuelnog dipfejk sadržaja. Softver ovde ima zadatak da sklapa foneme (najmanje glasovne jedinice) i vizeme (mimiku koja prati izgovor konkretne foneme), što bi značilo da bi, u našem slučaju, u procesu treniranja morao pažljivo da razmotri kako Dragan Vučelić pokreće usne dok izgovara određene foneme i slogove, koliko mu se vide zubi i jezik, koliko mu se pokreće donja vilica dok priča i tome slično. Međutim, čak i kada bi program u ovom domenu savršeno prekopirao voditelja, jedan veliki problem ostao bi nerešen. Emocije. Možemo tražiti od računara da pročita tekst glasom Dragana Vučelića, a potom i da prema zvučnom zapisu kreira odgovarajući video. Međutim, time smo dobili samo sterilno, robotizovano rešenje, koje neće umeti da naglasi ključne reči u rečenici, a uz to se nikada neće ni osmehnuti ni namrštiti. S istim izrazom lica saopštiće vest o nagradi koju je domaći film dobio na Berlinalu, kao i vest o smrti poznate glumice. (I ovaj bi problem, međutim, uskoro mogao da bude prevaziđen, kada za srpski jezik i druge male jezike postanu dostupni softveri koji prepoznaju sentiment teksta.)

 

Teško je pobrojati sve metode koje naučnici testiraju s ciljem automatizacije prepoznavanja dipfejka. Springer je prošle godine objavio zbornik „Handbook of Digital Face Manipulation and Detection“ (ur. K. Ratgeb, R. Tolosana, R. Vera Rodrigez, K. Buš) u kom su predstavljeni mnogi pravci istraživanja, manje i više uspešni. Jedna grupa softvera traga za česticama nekonzistentnosti izgledu ili u ekspresiji. Na primer, likovi u dipfejk videima i dalje neprirodno „zure“ u nas, jer ne trepću ili to čine veoma retko. Ako treba da pomere glavu ulevo ili udesno, to će učiniti uz zamućen prelaz ili uz neprirodne „skokove“. Drugi softveri tragaju za „mapama“ utkanim u video. Ako se usne uvek na identičan način sklapaju pri izgovoru glasa „m“ ili se na istovetan način otvaraju kada dođemo do vokala „o“, softver će prepoznati te neprirodne pravilnosti. Slična matrica bila bi kreirana i kada bismo pravili svoj lični, rukopisni font. Ubacili bismo sva velika i mala slova, sve brojeve i znakove, ali bi pažljivi čitalac lako mogao da zaključi da mu nismo pisali rukom, jer je svako slovo „l“ isto, i svako „a“, i svako „ž“. Dipfejk se može softverski prepoznati i na osnovu svojih neuobičajenih „savršenosti“. Za razliku od autentičnih video-sadržaja, na dipfejku nema odsjaja kamere u oku, nema promene osvetljenja, niti vidimo sitne fiziološke izmene na licu koje nastaju usled promene raspoloženja, temperature ili toka interakcije.

 

Dragan Vučelić će, ipak, još godinama morati da ide na posao.

 

Stefan Janjić

 

 

Projekat se realizuje je u okviru Programa malih medijskih grantova koji finansira Ambasada SAD a administrira Nezavisno udruženje novinara Srbije. Stavovi, mišljenja i zaključci izneseni u projektu nužno ne izražavaju stavove NUNS i Ambasade SAD već isključivo autora.

Tagovi

Povezani tekstovi