Всего несколько месяцев назад, если вы хотели создать изображение чего-либо, вы должны были уметь делать наброски, рисовать или использовать один из инструментов фотошопа, о которых все говорят. Однако после 2022 года все изменилось, и все благодаря ИИ — да, как в «искусственном интеллекте».

Вместо того чтобы пытаться господствовать над миром, художественные инструменты искусственного интеллекта могут превратить все, что вы им описываете, в изображение.

Пойдем с нами, когда мы погрузимся в мир визуализации текста с помощью ИИ, и посмотрим, как вы можете использовать такие инструменты для преобразования своих мыслей в настоящие изображения, просто печатая то, что вы имеете в виду.

Dall-E: художественная сторона OpenAI GPT-3

Первые инструменты на базе ИИ, которые стали популярными, были основаны на OpenAI GPT-3. Одной из причин была открытость проекта для внешнего доступа, что привело к некоторым предположениям, что GPT-3 — будущее творчества.

Сегодня вы можете использовать официальные инструменты, которые вы можете найти на

Бета-сайт OpenAI или сторонние решения, которые используют его лингвистические сверхспособности. Например, вы можете попросить GPT-3 придумать черновик поста, ответить на простые вопросы или даже отредактировать или перевести какой-то текст.

В 2022 году OpenAI показал, что GPT-3 так же хорош в создании изображений. Проект DALL-E, основанный на фильме Pixar «ВАЛЛ-И» и имени Дали, использует GPT-3 не для работы с текстом, а в качестве движка для создания изображений.

Как и в случае с GPT-3 и текстом, DALL-E на самом деле не творческий гений, материализующий изображения из воздуха. Вместо этого он «обучился» на миллионах изображений, которые уже существуют в сети. Его возможности ИИ заключаются в анализе этих изображений, извлечении из них элементов, настройке, преобразовании, корректировке и, наконец, объединении их в новые изображения.

По крайней мере, это упрощенная версия того, что происходит в фоновом режиме. Большинству людей будет важно только то, что они видят перед собой, а это текстовое поле, где вы можете ввести что-то и увидеть, как оно через несколько минут превратится в изображение.

Ответ Google Imagen

Google входит в тройку ведущих «игроков» в исследованиях ИИ. Тем не менее, их прогресс не так легко заметить, и его реализация в продуктах не так доступна, как предложения OpenAI.

Одна из первых широко доступных реализаций Google AI была в Google Docs и Gmail в виде более интеллектуального автозаполнения и предложений, известных как Smart Compose. Мы не будем углубляться в детали, так как мы уже рассмотрели Smart Compose (и как вы можете его использовать).

Когда эти функции активны, веб-приложения Google сравнивают то, что печатает пользователь, с тем, что миллионы других написали в прошлом. Затем он предлагает то, что они напечатали позже.

Это доказательство того, что, несмотря на то, во что мы хотели бы верить, мы не такие уж разные. Если 99 из 100 человек напишут «позже» после «увидимся», мы, вероятно, тоже будем печатать это.

Мы все использовали ту или иную форму автозаполнения, даже в эпоху «тупиков» в системе предиктивного ввода текста T9. Вот почему инструменты искусственного интеллекта Google не казались такими интеллектуальными, как GPT-3 OpenAI. Они не чувствовали себя намного более полезными, чем лучшая система T9, улучшенная для 21-го века. И именно поэтому открытие Imagen было немного шокирующим.

Как DALL-E на стероидах, Imagen — это инструмент визуализации текста. Основываясь на том, что доступно сегодня, Imagen может создавать «более чистые» и более яркие изображения, а также знает, как работать с расширенными функциями, такими как диффузия и прозрачность.

К сожалению, на момент написания статьи доступ к Imagen оставался ограниченным, поэтому мы не смогли его опробовать.

DALL-E Mini и друзья: открыт для бизнеса

Вы не можете получить свободный доступ к DALL-E и Imagen — пока. Тем не менее, многие альтернативы уже доступны, если вы хотите пошалить с генерацией текстовых изображений на основе ИИ.

Имея в виду, что это первые дни, и результаты или пользовательский опыт, которые они предлагают, могут быть далеки от оптимальных, все же стоит проверить некоторые из следующих.

Создание мемов с Dall-E Mini

Благодаря сочетанию более чем адекватных результатов и удобного интерфейса, но, что более важно, широкой доступности, DALL-E mini стал одним из самых популярных визуализаторов текста с искусственным интеллектом.

Далекие от совершенства, иногда результаты DALL-E mini могут быть более абстрактными, чем предполагалось.

В других случаях он может не создать то, что вы задумали, но может быть довольно близок к этому.

После взрыва популярности создатели DALL-E mini перенесли его в новый дом под новым брендом. Теперь вы можете найти последнюю версию DALL-E mini как мелок на собственном сайте.

Использование Craiyon сегодня так же просто, как поиск существующего изображения в Интернете. Вы можете посетить его сайт, ввести описание изображения в текстовое поле и нажать Enter. Через некоторое время вы увидите результаты на своем экране.

Что поразительно, так это то, насколько хорошо Craiyon и подобные инструменты имитируют визуальные стили. Например, мы попросили его вызвать образ щенка на скейтборде:

Затем мы использовали точную фразу, но добавили после нее «стиль Pixar». Через некоторое время Craiyon показал сетку из более «мультяшных» изображений, более близких к тому, что мы воспринимаем как графику Pixar с трассировкой лучей в их любимых фильмах.

Craiyon дал нам еще лучшие результаты, когда мы заменили «стиль Pixar» на «стиль аниме» в той же подсказке.

Аниме более стилизовано по внешнему виду, чем более реалистичные образы Pixar, которые, похоже, помогли Craiyon создать несколько почти готовых к использованию изображений.

Дурачиться со скрытой диффузией

Модель скрытой диффузии, обученная на наборе данных LAION-400M, — еще один интересный визуализатор текста на основе ИИ. Однако он также более сложен в использовании. Вы должны запустить его онлайн на виртуальной машине и поиграть с его различными параметрами, а не просто печатать в текстовом поле. Тем не менее, это проще, чем кажется.

  1. Посетить Совместное пространство Google Latent Diffusion это в настоящее время его дом.
  2. Прокрутите немного вниз и обратите внимание на Быстрый поле под Параметры. Замените приглашение по умолчанию на то, что вы хотите, чтобы ваше изображение отображало.
  3. Выбирать Выполнить все от Время выполнения меню или нажмите CTRL + F9.
  4. Если вы хотите иметь возможность экспортировать созданные изображения непосредственно из инструмента, ответьте положительно на вопрос, хотите ли вы связать его со своей учетной записью Google Диска. Инструменту требуется некоторое время для завершения настройки, и в ходе этого процесса необходимо загрузить некоторые файлы.

Увеличение значений для Шаги, Итерации, а также Samples_in_parallel, может привести к более подробным результатам. Однако инструмент крайне требователен к ресурсам на серверах Google. В результате может произойти сбой, если вы слишком сильно увеличите эти значения, или процесс создания определенного изображения станет более сложным, чем ожидалось.

Интересные альтернативы

Мы потратили много времени на тестирование DALL-E mini и Latent Diffusion. Наш научный метод состоял из двух отдельных частей. Во-первых, нам нужно было придумать концепции, которые можно было бы точно назвать безумными. Затем попросите эти визуализаторы ИИ превратить их в изображения. Чаще, чем ожидалось, им это удавалось, приближаясь к общей схеме, которую мы себе представляли.

Мы также попробовали некоторые из доступных альтернатив для этой статьи. Мы все еще ждем доступа к другим. Вот некоторые из них, которые стоит проверить (в произвольном порядке):

  • Середина пути
  • Бета-версия MindsEye
  • Звездный AI
  • Мечтать
  • Дискотека Диффузия

Заменит ли искусство, созданное искусственным интеллектом, изобразительное искусство?

Обилие и постоянно растущая популярность инструментов для создания изображений на базе ИИ приводят многих к выводу, что изобразительное искусство скоро умрет. Какой смысл тратить время и энергию на то, чтобы научиться рисовать или использовать сложное программное обеспечение для визуализации вещей, когда ИИ может сделать это быстрее (а вскоре и лучше), чем вы?

Если вы заметили, все эти инструменты «обучаются на наборах данных». Говоря простым языком, это означает, что они делают то, что делают, благодаря тому, что люди уже делали то же самое раньше.

Это намек на то, почему эти инструменты не могут заменить человеческое мастерство, творчество и изобретательность. Они мимики, умные репликаторы. Без созданных человеком оригиналов, на которых они обучаются, они не смогли бы произвести никакого результата.

Тем не менее, это настоящее, и мы признаем, что не знаем, что нас ждет в будущем. На данный момент визуальные художники могут спать спокойно. Тем не менее, учитывая скорость развития ИИ, многие специалисты в этой области согласны, что вопрос не в том, заменит ли он когда-либо работу таких людей, как ваш покорный слуга. Это только вопрос времени.

Но эй, это не все гибель и мрак. Пока Скайнет готовится занять наши рабочие места, по крайней мере, мы можем поднять себе настроение, без особых усилий создавая образы щенков на скейтбордах!