Музыка Deepfake имитирует стиль конкретного исполнителя, включая его голос. Как это возможно, чтобы это звучало так реально?

Долгое время музыке удавалось избегать мира дипфейков, потому что было слишком сложно синтезировать чей-то голос. Все изменилось с развитием технологий искусственного интеллекта. Это привело к созданию голосовых клонов известных исполнителей, которые можно использовать для создания новых вокальных треков.

Поскольку инструменты ИИ становятся все более доступными для обычных людей, дипфейковая музыка становится все более серьезной проблемой. Вот что это такое и как оно создается.

Эволюция дипфейковой музыки

Когда вы слышите, как ваш любимый артист поет на Spotify или YouTube, вы вряд ли думаете, что это может быть подделка, но достижения ИИ сделали это реальностью. Наряду с поддельными изображениями и видео существует и дипфейковая музыка.

Инструменты ИИ могут точно воспроизводить певческий голос человека, обучая модель ИИ на звуковых образцах его голоса. Созданные поклонниками художника или поклонниками технологии искусственного интеллекта, все больше людей пытаются создать голосовых двойников.

instagram viewer

Люди пытались синтезировать голос с помощью компьютера в течение многих лет, начиная с 1961 года, когда IBM 7094 был первым компьютером, способным петь. Вы можете услышать компьютерный голос поет Дейзи Белл в клипе на YouTube и попробуй представить, каким удивительным был этот момент.

Перенесемся в 21 век, и технология искусственного интеллекта улучшила качество синтезированного голоса. и позволил нам делать то, что большинство из нас никогда не считало возможным до сих пор, например, клонировать голоса людей.

Просто взгляните на этот клип, в котором Роберто Никсон трансформирует свой голос в артиста и рэпера Канье Уэста. Смотреть видео кажется сверхъестественным, оно действительно звучит так же, как Канье, но смотреть его также неудобно. Без особых размышлений о том, что художник может думать или чувствовать, и без разрешения, это может быть воспринято как присвоение чьего-то голоса.

В отличие от компьютерной версии Дейзи Белл, клонирование голоса ИИ способно воспроизвести точное подобие чей-то голос, который включает в себя все тонкие различия в тембре, которые помогают нам идентифицировать чей-то уникальный вокал профиль. Однако нелицензионная и сделанная без разрешения дипфейковая музыка имеет некоторые серьезные проблемы, о которых мы поговорим позже.

Как создаются дипфейковые песни

Для создания дипфейковых песен используются разные методы, но многие из них используют технологию искусственного интеллекта. Проекты с открытым исходным кодом, такие как Проект SoftVC VITS Singing Voice Conversion на GitHub, например, разработали модель ИИ, которая делает то, о чем говорится в ее названии: преобразует аудиосэмпл в поющий голос.

Эта модель берет существующий аудиофайл, в котором кто-то поет, и преобразует его в чей-то голос. Такие вещи, как текст и ритм исходного голоса, сохраняются, но тон, тембр и личные вокальные качества преобразуются в голос, указанный в обучающем наборе данных.

Имейте в виду, что другие части песни могут по-прежнему создаваться вручную, например, создавать биты и мелодии в том же стиле и жанре, что и оригинальный исполнитель.

Чтобы создать дипфейк голоса Канье Уэста, в модель SoftVC VITS необходимо было ввести сторонний набор данных, который включал бы образцы реального голоса Канье. Файл, содержащий набор данных, с тех пор был удален автором, что неудивительно, учитывая темную юридическую территорию, которая может возникнуть с неавторизованными наборами данных.

Хотя оно еще не превратилось в коммерческое приложение, вы можете найти версию Модель SoftVC VITS в Google Collab это более удобно для пользователя.

Пока не будут установлены этические и юридические границы, возможно, появятся более простые в использовании приложения для клонирования голоса. всплывающее окно - не слишком отличается от приложения Drayk.it, которое превращало текстовое описание в песни, стилизованные под исполнителя. Дрейк. Позже он был закрыт.

Некоторые другие инструменты, которые используются для создания дипфейковой музыки, включают большие языковые модели, такие как ЧатGPT, с помощью которого можно писать тексты в стиле известного исполнителя; и Музыкальный автомат OpenAI и Google MusicLM, которые представляют собой генеративные модели искусственного интеллекта, которые могут создавать музыку в необработанной аудиоформе полностью с нуля.

Вы слышите разницу?

Трек, созданный анонимным пользователем по имени Ghostwriter, стал вирусным на TikTok в апреле 2023 года, в немалой степени потому, что в нем были тексты, исполненные артистами Дрейком и The Weeknd. Конечно, это были не настоящие голоса артистов, а фальшивые.

Если бы вокал не был такой хорошей копией оригинала, он, возможно, не стал бы хитом. Немного покопавшись, вы могли довольно быстро выяснить, было ли это реальным или нет, но, используя только ваши уши, вы могли только догадываться, было ли это подлинным.

Если вы хотите идентифицировать изображение, созданное ИИ есть по крайней мере несколько визуальных аберраций, которые вы могли бы найти. Что касается звука, такие признаки, как низкокачественный звук или сбои в треке, не имеют большого значения, поскольку это творческий выбор, который постоянно используется в производстве музыки.

Что еще более интересно, так это то, что многим людям искренне нравится эта песня, даже после того, как они обнаруживают, что это не настоящие голоса Дрейка или The Weeknd. Поклонники отметили, что не все было просто сгенерировано с помощью ИИ, и что на написание текстов, сочинение битов и сборку всего этого ушли настоящие навыки и труд.

Трек попал на Spotify и YouTube, а в последующие дни был удален, но не раньше, чем фанаты скачали песню в формате mp3. Вы все еще можете найти копии песни в Интернете, если вы ищете «Heart On My Sleeve, Drake ft. Выходные".

Достаточно скоро обнаружить разницу между голосовыми клонами, созданными искусственным интеллектом, и настоящим человеческим голосом станет практически невозможно. Имея это в виду, люди задаются вопросом, является ли это хорошим использованием технологии ИИ в первую очередь или даже законным ее использованием.

Проблемы с дипфейковой музыкой

С одной стороны, людям нравится слушать созданные фанатами мэшапы любимых артистов, и они уважают творческий подход, который помогает воплотить их в жизнь. Но возможность иметь вокальные клоны в первую очередь зависит от наборов данных, которые могут быть авторизованы или нет.

Без разрешения образцы голоса человека собираются в набор данных, который затем используется для обучения модели преобразования голоса ИИ. Это похоже на проблему, с которой столкнулся художники, которые хотят удалить свои изображения из обучающих наборов данных которые используются для обучения генераторов изображений ИИ, таких как Dall-E или Midjourney.

Закон об авторском праве также не совсем готов бороться с дипфейковой музыкой. В 2020 году артисту Jay-Z не удалось заставить YouTube удалить сгенерированный ИИ звук, на котором он читает строки из монолога Уильяма Шекспира «Быть ​​или не быть».

Когда дипфейковая песня загружается на Spotify или YouTube, возникает вопрос, кто зарабатывает деньги. Должны ли вы зарабатывать деньги на песне, которая почти точно копирует чей-то голос?

Холли Херндон — одна художница, которая пыталась создать систему, чтобы люди могли компенсировать ей в обмен на использование ее голосовой модели для создания оригинальных работ. В то время как другие артисты, такие как Ник Кейв, высказался против ИИ, письмо:

Песни возникают из страданий, под которыми я подразумеваю, что они основаны на сложной внутренней человеческой борьбе за творение, и, насколько я знаю, алгоритмы не чувствуют.

Иногда, Тексту, созданному ИИ, может не хватать творчества в целом, но они все еще размещены в Интернете. ИИ может привести к созданию большого количества плохой музыки, в которую было вложено очень мало усилий.

Поиск баланса между музыкой и искусственным интеллектом

Музыка Deepfake создается с использованием инструментов ИИ и моделей ИИ, обученных на неавторизованных наборах данных. Некоторые модели имеют открытый исходный код и находятся в свободном доступе, в то время как другие были предприняты попытки упаковать их в удобное для пользователя приложение.

По мере того, как все больше людей получают в свои руки поддельные музыкальные модели или приложения, стоит задуматься о влиянии на исполнителя. Получение согласия на обучающие наборы данных и компенсация артисту — это лишь некоторые из проблем, нависших над музыкальной технологией ИИ.