Дипфейк — это создание манипулируемого визуального и аудиоконтента, или, другими словами, синтетических медиа. В его основе лежит технология Deep learning (направление Machine learning), которая способна обрабатывать большие объемы персональных данных.
Искусственный интеллект изучает, как выглядит одно лицо под разными углами, и переносит его на другое. Так появляется синтезированный фейковый образ. Обычно создатели дипфейков используют лица селебрити — и контент становится вирусным. Серию таких роликов с Томом Крузом в TikTok пользователи просмотрели 50 млн раз.
Как технология, которая изначально была нелегальной, получила такой успех у пользователей? Рассказываем о предыстории deepfake, а также о том, почему этот метод называют ключевой угрозой общественной безопасности и приватности будущего.
По материалам The Guardian, Frontiers, Hacked, TechBeacon.
Краткая история технологии deepfake
Со времен изобретения фотографии в XIX веке уровень доверия к визуальным медиа увеличился. В отличие от аудио, видео- и фотодоказательства широко используются в судебных процессах, а также служат эффективным инструментом пропаганды политиков.
Подделка фото была широко распространена в СССР. На Иосифа Сталина работала целая команда ретушеров, которые вырезали его политических врагов из документальных снимков. Так, в середине 1920-х, когда партийный деятель Николай Ежов, правая рука Сталина, стал неугодным официальному курсу руководителя, цензоры убрали его с их совместного фото. Фигура Ежова была на фоне реки — и ретушеры вырезали его, заполнив пустое место водой.
В 1940-х существовало относительно небольшое количество фотографий. У снимков событий или вообще не было копий, или были единичные, поэтому манипулировать фактами выходило легче. Противопоставьте это 1,2 трлн изображений, сделанных в 2017 году благодаря смартфонам, по данным Business Insider. Гораздо сложнее оперировать таким большим количеством исходных снимков, чем одним и без копии.
Создание и обработка видеоманипуляций отнимали очень много времени, поскольку каждый кадр нужно было менять отдельно. В 1990-х эту технологию усовершенствовали в Голливуде, но она была настолько дорогостоящей, что вышло всего несколько фильмов, где ее применили. Это «Парк Юрского периода» (1993), «Форрест Гамп» (1995) и позднее — «Аватар» (2009).
В 1997 году три исследователя Google — Кристоф Бреглер, Мишель Коувелл и Малколм Слейни — создали инновационную программу Video Rewrite Program. Специалисты впервые использовали технологию лицевой анимации. Программа предназначалась для дубляжа фильмов и телеконференций, чтобы синхронизировать движения губ актеров с начитываемым текстом. Video Rewrite записывает оригинальные кадры, где человек произносит речь, отслеживает произношение, движение и модулирует новый ролик, в котором он говорит то, чего на самом деле не произносил.
В начале 2000-х метод распознавания лиц все глубже проникал в мир науки и технологий. Разработки в этой области позволили существенно улучшить отслеживание каждого движения человека. Именно так современные дипфейки стали настолько убедительными.
В 2017 появился термин Deep Fake. Одноименный пользователь Reddit заполнил сайт-агрегатор онлайн-новостей порнографическими видео, в которых применялась face-swap технология (замена лиц) с открытым исходным кодом. Этот метод он и назвал deepfake.
В том же году были запущены проекты Face2Face (Мюнхенский университет) и Synthesizing Obama (Вашингтонский университет).
Face2Face создает анимацию в режиме реального времени, заменяя область рта человека на видео частью лица актера. Этот метод также разрабатывал способы синтеза голоса.
Synthesizing Obama — это Video Rewrite 2.0 с улучшенной анимацией, текстурами и мимикой. В функционал программы включили добавление морщинок и ямочек, разные типы и цвета кожи, улучшили освещение. Видео максимально приближено к реальности. Самым большим достижением проекта Synthesizing Obama стала возможность сопоставить и видео, и аудио. То есть брови человека двигаются во время речи, воспроизводя всю модель общения.
Три поколения deepfake-программ
Согласно исследованию стартапа Sentinel, который предоставляет AI-платформу защиты от дипфейков, количество таких видео выросло с 14 678 в 2019 году до 145 277 в 2021.
Сейчас существуют три поколения программ Deepfake (AI-синтетического медиа):
Первое поколение
Эти технологии основывались на большой базе данных тестовых изображений и сами обучались благодаря им. Первое поколение программ не применялось для создания дипфейк-роликов с участием обычных пользователей. Основной акцент — известные актеры и селебрити, фото которых доступны в сети.
Второе поколение
Программы преодолели барьер публичной доступности благодаря применению нейронной сети GAN. Она генерирует похожие, но не идентичные изображения путем случайного шума — и так обучается.
Последнее поколение
Эти программы основаны на втором поколении, но функционируют с расширенными возможностями. Несколько сетей объединяются в одну модель, что позволяет работать непосредственно с лицом, а не в пространстве 2D-кадра. Изменения изображений происходят более естественным образом.
Дипфейки стали популярными благодаря не столько wow-эффекту, сколько «компьютерному зрению». Это сложная область инжиниринга, с помощью которой транспортные средства могут анализировать дорожные пути, медицинские системы — диагностировать пациентов, а Facebook — распознавать лица пользователей и предлагать теги для фотографий. Именно под «компьютерное зрение» подпадают дипфейки. Постоянное развитие этой области делает их более доступными и популярными.
Весь бизнес-контент в удобном формате. Интервью, кейсы, лайфхаки корп. мира — в нашем телеграм-канале. Присоединяйтесь!
Угрозы deepfake-технологии
С 1 января 2020 года публикация дипфейков или фейковых новостей в Китае является уголовным преступлением. В 2019 в Калифорнии распространение таких изображений признано нелегальным. The Guardian посвятил тематике опасности синтетических медиа большую статью и назвал дипфейки «угрозой демократии».
Несмотря на это, пользователи массово скачивают популярные приложения. В 2021 году самые трендовые — Doublicat, FaceApp, FaceSwap и Zao. Также face-swap технологию применяет украинский стартап Reface. В Google Play это приложение скачали более 100 млн пользователей.
В чем основные опасности deepfake-технологий
#1. Политические манипуляции
Когда Дональд Трамп признал свое поражение через 2 месяца после выборов, Reuters и другие СМИ поставили вопрос: а действительно ли Трамп произнес эту речь? При наезде кадра становится видно, что видео размыто в районе шеи бывшего президента, задний фон фейковый, а флаг — фальшивый.
В 2019 году в Facebook и YouTube появился ролик, на котором спикер палаты представителей США Нэнси Пелоси выглядит пьяной и больной, не может связать двух слов в студии. По данным Daily Beast, ролик был впервые опубликован 34-летним Шоном Бруксом, спортивным блогером и суперфаном Трампа из Нью-Йорка.
#2. Инструмент для киберпреступлений
В 2019 году WSJ опубликовал материал, в котором сообщалось, что с помощью голосового дипфейка злоумышленнику удалось убедить CEO британской энергетической компании перевести на счет венгерского поставщика $243 тыс. CEO общался по телефону, как он думал, со своим руководителем — гендиром немецкой материнской компании. Фактически преступник использовал голосовую AI-технологию, чтобы обмануть собеседника: тот узнал немецкий акцент своего босса и даже распознал его манеру общения.
#3. Аморальный контент
В 2019 году AI компания Deeptrace обнаружила 15 тыс. дипфейк-видео онлайн. Из них 96% были порнографическими, а в 99% использовались лица женщин-селебрити. Даниэль Ситрон, профессор права в Бостонском университете, комментирует: «Технология deepfake стала оружием против женщин».
В чем преимущества deepfake-технологий
Дипфейки способны позитивно воздействовать на человека и общество в целом. Синтетические медиа дают людям голос, зрение, слух и возможность моделировать реальность.
#1. AI-синтетическое медиа делает мир доступным
С помощью AI можно создавать инструменты, которые дополняют основные способности человека — слух и зрение. Например:
— AI-приложения Seeing.ai от Microsoft и Lookout от Google призваны помочь слабовидящим и незрячим людям взаимодействовать и распознавать мир вокруг.
— Тактильный инструмент Canetroller также помогает людям со слабым зрением ориентироваться в виртуальной реальности с помощью моделирования и специальной трости.
— Благотворительная организация Team Gleason занимается разработкой технологии синтетического медиа на основе AI, чтобы дать возможность общаться пациентам с боковым амиотрофическим склерозом.
#2. Продвинутые технологии в искусстве
Голливуд широко использует инструменты создания спецэффектов CGI, VFX и SFX, чтобы моделировать искусственные, но реалистичные миры и добавить в картину элемент сторителлинга. В фильме «Форрест Гамп» герой встречает Джона Кеннеди и других исторических персонажей. Здесь использовались именно CGI-технологии.
Музей Сальвадора Дали в Сент-Питерсберге, штат Флорида, в 2019 году открыл выставку Dalí lives. Основной идеей экспозиции было «вернуть к жизни» культового художника, дать возможность посетителям почувствовать его присутствие. В музее можно было даже сделать селфи с Дали.
#3. Свобода слова и прогнозирование
Синтетические медиа способны содействовать правозащитникам и журналистам. Эти социальные деятели могут оставаться анонимными при деспотических или диктаторских режимах. Например, в соцсетях можно запостить конфиденциальный ролик о злодеяниях правительства, но при этом на видео будет синтетическая личность.
Проект UNICEF и MIT Deep Empathy использует deep learning для изучения сирийских регионов, затронутых конфликтом. Затем программа моделирует, как будут выглядеть города по всему миру в условиях аналогичного конфликта. В рамках проекта были созданы искусственные модели Бостона, Лондона и других мест. Так люди могут увидеть, какие бедствия и страдания приносит война.
Да, дипфейки можно использовать для распространения дезинформации, фальсификации и мошенничества. И да, создатели дипфейк-контента на Youtube, Reddit и TikTok соревнуются между собой, надеясь заработать. Все больше драмы, все больше шокирующих ситуаций. Однако выбор всегда остается за вами. Хотите ли вы видеть и слышать то, что вам показывают? Хотите ли поверить в это?


Хотите получать дайджест статей?

