Google MusicLM казался многообещающим благодаря своей способности генерировать музыку из текстовых подсказок. Но после того, как испытал его, он не совсем справился.

В январе 2023 года Google анонсировала MusicLM, экспериментальный инструмент искусственного интеллекта, который может генерировать музыку на основе текстовых описаний. Наряду с этой новостью, Google выпустил потрясающую исследовательскую работу для MusicLM, которая поразила многих людей способностью создавать музыку из воздуха.

Получив текстовую подсказку, модель пообещала воспроизводить музыку с высоким качеством воспроизведения, которая содержала бы всевозможные описания от жанра до инструмента и абстрактных подписей, описывающих известные произведения искусства. Теперь, когда MusicLM открыт для публики, мы решили проверить его.

Попытка Google создать генератор музыки с искусственным интеллектом

Превращение текстовой подсказки, такой как «расслабляющий джаз», в готовый к воспроизведению трек, возможно, является святым Граалем экспериментов в музыке с искусственным интеллектом. Подобно известным генераторам изображений с искусственным интеллектом, таким как Dall-E или Midjourney, вам не нужно иметь ни малейшего музыкального ноу-хау, чтобы создать трек с мелодией и ритмом.

instagram viewer

В мае 2023 года те, кто подписался на Google AI Test Kitchen, могли впервые опробовать демоверсию. Приветствуется удобной веб-страницей и парой руководящих правил — электронной и классической. инструменты работают лучше всего, и не забудьте указать «вибрацию» — создание фрагмента музыки невообразимо легко.

Скорость — одна из немногих вещей, которые MusicLM действительно обеспечивает, наряду с относительно высокой точностью воспроизведения сэмплов. Однако истинное испытание нельзя было измерять только с помощью секундомера. Может ли MusicLM создавать настоящую, пригодную для прослушивания музыку, основанную на нескольких словах? Не совсем так (мы скоро к этому вернемся).

Как использовать MusicLM в Google AI Test Kitchen

Пользоваться MusicLM легко, вы можете зарегистрироваться в списке ожидания для Кухня для тестирования искусственного интеллекта от Google если вы хотите попробовать.

В веб-приложении вы увидите текстовое поле, в котором вы можете составить подсказку от нескольких слов до нескольких предложений, описывающих музыку, которую вы хотите услышать. Для достижения наилучших результатов Google советует вам «быть очень описательным», добавляя, что вы должны попытаться включить настроение и эмоции музыки.

Когда будете готовы, нажмите Enter, чтобы начать обработку. Примерно через 30 секунд вам будут доступны для прослушивания два аудиофрагмента. Из двух вариантов у вас есть возможность присудить приз лучшему образцу, который соответствует вашему запросу, что, в свою очередь, помогает Google обучать модель и улучшать ее результаты.

Как звучит MusicLM

Люди создавали музыку по крайней мере 40 000 лет назад, и у них нет четкого представления о том, появилась ли музыка до, после или одновременно с развитием языка. Так что в некотором смысле неудивительно, что MusicLM до сих пор не взломал код этого древнего универсального искусства.

Исследовательский документ Google MusicLM предположил, что MusicLM может генерировать музыку из подписей, принадлежащих известным произведениям искусства, и следовать инструкции, такие как плавное изменение жанра или настроения в соответствии с последовательностью различных подсказки.

Однако, прежде чем приступить к таким высоким заказам, мы обнаружили, что MusicLM сначала нужно решить несколько фундаментальных проблем.

Сложно придерживаться темпа

Самая основная работа любого музыканта — просто играть вовремя. Другими словами, придерживайтесь темпа. Удивительно, но MusicLM не может делать это в 100% случаев.

На самом деле, используя одну и ту же подсказку 10 раз, которая воспроизводит 20 музыкальных треков, успели только три. Остальные 17 сэмплов были быстрее или медленнее указанного темпа, который был записан в «ударах в минуту» — широко используемом термине для описания музыки.

В этом примере мы использовали подсказку «соло на классическом фортепиано со скоростью 80 ударов в минуту, спокойное и медитативное». При более внимательном прослушивании музыка часто ускорялась или замедлялась в пределах небольшой длины семпла.

Музыке также не хватало сильного бита, и она звучала так, как будто кто-то нажал кнопку воспроизведения в середине произведения. Было ли это преднамеренно или нет, трудно судить, действительно ли MusicLM может сочинить правильное начало или конец музыкального произведения, помимо соблюдения ритма.

Случайный выбор инструмента

Возможно, MusicLM еще не научились играть в строгом ритме, поэтому мы перешли к другому общему музыкальному параметру. Мы хотели посмотреть, удовлетворит ли он наш запрос на определенные инструменты.

Мы написали несколько разных подсказок, которые включали такие описания, как «Соло-синтезатор» и «Соло-бас-гитара». Другие были более крупными ансамблями, такими как «Струнный квартет» или «Джаз-бэнд». В целом казалось, что шансы получить то, о чем просили, были 50 на 50.

Одна из теорий состоит в том, что модель связывает некоторые инструменты с популярными музыкальными жанрами. Возьмем, к примеру, подсказку «Соло-синтезатор, последовательность аккордов. Живой и жизнерадостный». Вместо того, чтобы получить синтезаторный звук сам по себе, MusicLM создал электронный трек с ударными и басом.

Возможно, у модели просто недостаточно данных и недостаточно обучения, чтобы понять конкретный запрос на инструмент.

Вокал вне уравнения

Согласно ограничениям того времени, модель не могла создавать музыку, содержащую вокал. Острые проблемы с авторскими правами MusicLM и глючный вокал является вероятным фактором, почему Google решил перестраховаться, установив это ограничение.

Но поэкспериментировав некоторое время с MusicLM, мы поняли, что контроль Google над выводом модели не совсем железный. Как ни странно, подсказка типа «акустическая гитара» создавала трек с призрачным вокалом на заднем плане, который звучал приглушенно и отдаленно.

Хотя это не обычное явление, это заставляет задуматься о способности MusicLM создавать убедительный вокал.

С таким программным обеспечением, как VOCALOID и Synthesizer V, Технология синтеза голоса с помощью искусственного интеллекта, исключение вокала из текущей модели заставляет задуматься, не достаточно ли она хороша, чтобы конкурировать с существующей технологией. MusicLM вполне может пройти долгий путь, прежде чем музыканты начнут петь ему дифирамбы.

Будущее музыкальных генераторов с искусственным интеллектом

Несмотря на то, что MusicLM продвинула вперед генеративную музыкальную технологию искусственного интеллекта, ему нужно вернуться в школу и изучить еще несколько вещей, прежде чем он сможет приступить к практической работе в музыкальной индустрии.

До сих пор лучшей попыткой генеративной музыки с помощью ИИ была модель под названием JukeboxAI от OpenAI. Он был не совсем готов к использованию, и потребовалось колоссальных девять часов, чтобы воспроизвести всего одну минуту музыки.

Благодаря вашим усилиям вы, вероятно, получите трек с действительно инопланетным звучанием, пронизанный звуковыми искажениями и артефактами. С другой стороны, вы не собирались скучать слушая причудливые творения, которые вызывает в воображении Jukebox.

В свете этого MusicLM добился значительных успехов в создании удобного для пользователя музыкального генератора с искусственным интеллектом. Мы могли бы почти простить модель за ее случайные выходные данные, если задуматься о том, насколько сложно генерировать музыку в необработанном аудиоформате.

Однако после того, как модель заработала, MusicLM чувствует себя недоделанным по сравнению с тем, что Google опубликовал в своей первоначальной исследовательской статье. Генератор изображений с искусственным интеллектом редко получает неправильное представление об Apple, точно так же генератор музыки с искусственным интеллектом должен правильно понимать несколько основ, таких как темп и инструменты.

MusicLM от Google не оправдал ожиданий

Поскольку технологические компании стремятся превзойти друг друга в области искусственного интеллекта, MusicLM чувствует, что начал публичные испытания еще до того, как был готов. Вместо правильного понимания основ модель, похоже, использует гораздо более расплывчатый и субъективный подход к созданию музыки.

Google может поощрять вас к тому, чтобы ваша подсказка была конкретной, но он не может хорошо обрабатывать темп, и вы не гарантируете, что каждый раз будете получать инструменты, о которых просили. MusicLM может быть интересным и хорошей демонстрацией мощных достижений ИИ, но если музыка является конечной целью, ей еще предстоит пройти долгий путь.