Музыкальный продюсер Иосиф Пригожин после публикации якобы его телефонного разговора несколько сумбурно выдвинул ряд версий. За одну из них — иронично — зацепилось большинство комментаторов: «Сегодняшние технологии, нейросети позволяют подделать не только голос, но и беседу».
«Фонтанка» связалась с несколькими экспертами, в том числе и с непосредственными разработчиками, которые имеют дело с пресловутым искусственным интеллектом. Их спросили не о конкретной записи, а том, насколько действительно технологии deep-fake из визуальной сферы перебрались в звуковую и смысловую и действительно ли машина уже может имитировать манеру и лексикон любого человека в разговоре.
Роман Душкин, директор «Агентства искусственного интеллекта» по науке и технологиям, рассказал, что на текущий момент уже есть решения, которые могут по нескольким секундам записи человеческого разговора произвести любую тональность и любую эмоциональную нагрузку. «Такие решения заявлены в том числе Microsoft, но я лично их вживую не видел, — признается он. — В любом случае, если чей-то голос замешан в каких-то нелицеприятных вещах, если это нарушает чьи-то права или закон, суд назначает экспертизу, которая проводится в соответствии с определенным регламентом. И эта экспертиза, соответственно, дает заключение. Я уверен, что если нужно, именно такой глубокий анализ поможет разобраться».
При этом он уверен, что ситуация меняется на глазах: «Технологии движутся, скоро мы не сможем уже отличать [дипфейк это или нет] даже с помощью самых четких инструментов. Но, повторюсь, в свободном доступе я подобных систем генерации голоса не видел».
Независимый эксперт Алексей Минеев согласен, что нейросети развиваются просто семимильными шагами. «Еще в середине 2010-х годов были попытки воспроизвести голос Жириновского, например, — вспоминает он. — Для того чтобы сделать дипфейк, нужна достаточно большая база речи того человека, голос которого мы хотим подделать. Интервью публичных личностей много в открытом доступе, и потенциально этого может быть достаточно».
Спасение — пока что — в эмоциях. «Если говорить о длительности, то у нейросети здесь нет ограничений. 30 минут? Пожалуйста. Звук может быть практически неотличим от человеческой речи, вплоть до придыханий и смыкания губ — все это можно синтезировать, — говорит Минеев. — Признаком же фейка может быть отсутствие яркой эмоциональной окраски речи говорящего. У синтеза речи еще есть некоторые проблемы с эмоциональностью». Однозначно сказать, подделка это или нет, могут эксперты-фоноскописты: они сравнивают запись с реальным голосом человека и выдают свое заключение.
Сергей Кузнецов, заведующий международной научно-учебной лабораторией интеллектуальных систем и структурного анализа НИУ ВШЭ, вспоминает о специальном соревновании, которое развивает знаменитый тест Тьюринга. «На нем каждый год увеличивается время до идентификации того, что это не человек, — рассказывает эксперт. — Люди тоже разные бывают, понимаете? Накуренный пэтэушник или математический гений будут отвечать по-разному. Конечно, успех ChatGPT всех будоражит. Пока там есть проблемы с логикой. По большому счету все, что предлагает нейронная сеть, — это какая-то хитрая комбинация существующих кусков, ассоциативный вывод, а не логический».
Принципиальных отличий между генерацией текста и аудио эксперт в данном случае не видит. «На чем-то нейросеть всегда можно будет ловить, – полагает он. — Например, GPT так поймали: «Четыре машины доезжают от Тель-Авива до Иерусалима за один час. За сколько доедут восемь машин?» Она говорит: «За два». Логики нет, есть только ассоциативные связи».
Напомним, аудиозапись разговора, который якобы произошел между Иосифом Пригожиным и экс-сенатором Фархадом Ахмедовым, была опубликована в выходные. На ней собеседники высказывают суждения в адрес представителей существующей власти, которые резко контрастируют с их публичной позицией. Сам Пригожин назвал запись фейком и вспомнил о технических достижениях в области искусственного интеллекта. Позднее в интервью «Фонтанке» он заявил: «Безусловно, какие-то моменты есть реальные в разговоре. Голос похож на мой. Но непонятно, из чего и как клеили. Надо разбираться». Подробнее читайте здесь.
Алина Ампелонская, «Фонтанка.ру»