Deep fakes, czyli kłamstwa głębszej wody

Gdy Barack Obama głośno i otwarcie mówi, „prezydent Trump to zupełny dupek” można się poczuć zagubionym w nowoczesności.

Powyższe słowa w istocie padły z ust byłego prezydenta USA. Sęk w tym, że on ich nigdy nie wypowiedział. Wideo na którym pada to zdanie zostało stworzone przy użyciu technologii deep learning, która umożliwia manipulację obrazem i filmami w skali do tej pory niespotykanej – i stanowi również niespotykane do tej pory zagrożenie.

Czym są deep fakes

Określenie Deepfake pochodzi z połączenia pojęcia deep learning (głębokiego uczenia maszynowego) z fakes, czyli po prostu oszustwami. Jednym z zastosowań tej technologii jest wstawianie określonego obrazu w film, na przykład w ramach podmiany niektórych elementów. W przypadku deepfakes najczęściej podmieniane są twarze – aktor otrzymuje twarz Barracka Obamy i wypowiada zdania, których ten by nigdy nie powiedział, lub też twarz Gal Gadot nalepiana jest na twarz aktorki pornograficznej.

Głębokie sieci neuronowe umożliwiają także podmianę mimiki oraz gestów w nagraniach, co pozwala „dokleić” politykowi lub działaczowi społecznemu jedno lub dwa zdania do realnego wystąpienia.

Nowość?

Manipulowanie obrazem dla korzyści politycznych i propagandowych nie jest nowym działaniem. Już w czasach stalinowskiego terroru znane były sytuacje, gdy niewygodni funkcjonariusze lub oficjele zostawali „zniknięci” ze wspólnej fotografii. Epoka komputerowej manipulacji obrazami i nieludzkiego piękna modelek na okładkach (lub też ich zupełnie niezamierzonej szpetoty) przyzwyczaiła odbiorców do obrazów odbiegających od rzeczywistości.

Podobną ewolucję przeszło kino, dla którego nagranie miasta zawijającego się nad uśmiechniętym Leonardo di Caprio nie jest oszałamiającym wyzwaniem.

Jednak o ile ludzie nie mają problemu z uwierzeniem w meteoryty lub dinozaury, trudno jest w sposób przekonujący pokazać sztucznego człowieka. Główną przyczyną jest działanie neuronów lustrzanych.

Poza doliną niesamowitości

Komunikacja międzyludzka opiera się, oprócz przekazu werbalnego, na niezliczonej ilości sygnałów wysyłanych równolegle – poprzez mimikę, ton głosu oraz drobne ruchy ciała i gesty. Jednak byt dostatecznie zbliżony do człowieka wyglądem, jednak nie wysyłający tych drobnych sygnałów budzi w odbiorcach niepewność, wzbudza dyskomfort, a czasami wręcz odrazę.

Efekt ten odkryty został w 1970 roku przez japońskiego inżyniera Masahiro Mori, który prowadził badania dotyczące reakcji ludzi na roboty[1]. Ruch obiektu dodatkowo potęgował doznania – android dostatecznie ludzki, by wyglądać jak człowiek, lecz niedostatecznie dobrze go udający był dla odbiorców straszny.

Deep fakes, dzięki analizie setek godzin nagrań ludzkiej mimiki, zachowania oraz gestów pozwala przekroczyć tę barierę i stworzyć obraz człowieka wysyłającego wszystkie niezbędne sygnały do odbiorcy. Przemysł filmowy docenił tę technologię podmieniając twarz norweskiej aktorki Ingvild Delii na zdjęcie 19-letniej Carrie Fisher.

W tym samym filmie obecny był również Peter Cushing jako niezapomniany Wielki Moff Tarkin, gwiezdnowojenna egzemplifikacja fanatycznego funkcjonariusza totalitarnego reżimu. Aktor zmarł w 1994 roku w wieku 81 lat.

Dlatego oglądając sztucznego Obamę widz nie czuje strachu – nie czuje dosłownie nic, co może wzbudzić jego podejrzliwość. I właśnie o to chodzi.

Czy należy bać się deep fakes?

Stworzenie deep fakes, choć wymaga ogromnej mocy obliczeniowej, w praktyce nie jest takie trudne, zwłaszcza dla instytucji dysponujących odpowiednimi (nie aż tak dużymi) pieniędzmi. Co więcej, możliwość skorzystania z nieograniczonej mocy obliczeniowej ma dzisiaj każdy – wystarczy sięgnąć po dostępne w chmurze obliczeniowej zasoby Amazon (Amazon Web Services) lub Google (Google Cloud Platform). Obie firmy udostępniają wyspecjalizowane platformy przystosowane do tworzenia sieci neuronowych, a wytrenowanie ich to jedynie kwestia odpowiednich pieniędzy – w przypadku organizacji politycznych lub dużych firm, którym zależy na zdyskredytowaniu przeciwników nie powinny one być problemem, zwłaszcza, że liczone są raczej w setkach dolarów, a nie milionach.

O fakcie, że technologie sieci neuronowych wymagają coraz mniejszych nakładów świadczyć może choćby fakt, że specjaliści od data science w wolnych chwilach opracowują modele, które usuwają cenzurę z hentai[2] (japońskich animowanych fimów pornograficznych). Motywacja raczej niszowa i nie mogąca spodziewać się wysokiego finansowania.

Deep fakes mogą zostać wykorzystane do wzmocnienia propagandy i dezinformacji rozsiewanej poprzez media społecznościowe – oprócz tekstu i zmanipulowanego zdjęcia możliwe będzie dołączenie nagrania, gdzie znana osoba wypowiada się i potwierdza tezy z fałszywego newsa.

Ze względu na relatywną łatwość przygotowywania deep fake’ów możliwe jest, że niedługo narzędzia tego typu staną się bardziej powszechne, stanowiąc zagrożenie nie tylko dla celebrytów i polityków, ale również dla zwykłych ludzi, których twarz może nagle stać się elementem filmu pornograficznego.

Deepfakes a sprawa stóp

Paradoksalnie, ze względu na coraz lepszej jakości fałszerstwa robione przez głębokie sieci neuronowe, coraz trudniej będzie udowodnić fałszywość lub prawdziwość konkretnego filmu, gdyż zawsze będzie można bronić się pojęciem deep fakes. Demaskowanie takich filmów wymaga hermetycznych umiejętności.

Pierwszą z nich jest reverse-engineering poprzez trenowanie sieci neuronowych wyspecjalizowanych w odnajdywaniu charakterystycznych elementów świadczących o działaniu sieci neuronowych, tak zwanych artefaktów. Stworzenie odpowiedniego narzędzia, choć możliwe, jest jednak trudniejsze niż wytworzenie samych deep fakes.

Innym narzędziem może być posługiwanie się hermetyczną wiedzą, tak, jak to miało miejsce w przypadku Alexandrii Ocasio-Cortez, najmłodszej członkini izby reprezentantów z ramienia partii demokratycznej.

Niedawno internet obiegło zdjęcie, które rzekomo maiło przedstawiać ją nagą, odbitą w wypolerowanym kranie. Z pomocą przyszli zrzeszeni w ramach portalu wikiFeet fetyszyści stóp[3], którzy, podpierając się bazą zgromadzonych fotografii, udowodnili, że z pewnością nie jest to jej zdjęcie – nie pasowała długość palców u nóg oraz kąty ich zakrzywienia.

Tym samym prawda zatriumfowała. Tym razem.

[1] https://en.wikipedia.org/wiki/Uncanny_valley

[2] https://motherboard.vice.com/en_us/article/43ekxg/machine-learning-algorithm-that-uncensors-hentai-porn-deepcreampy

[3] https://www.theguardian.com/us-news/2019/jan/09/wikifeet-how-online-foot-fetishists-debunked-alexandria-ocasio-cortezs-fake-nude

Adam Sanocki