ИИ может обмануть нас, заставив принять сгенерированное искусство за настоящие фотографии. Так почему же руки представляют собой такую большую проблему?
Генераторы ИИ развиваются на наших глазах с пугающей скоростью, но у них все еще есть недостатки. Обнаружение странных деталей на изображениях ИИ на самом деле довольно забавно. Вот почему стрелки Midjourney стали горячей темой, проблемой, распространенной во многих двигателях.
Давайте разберемся, почему руки так сильно бросают вызов генераторам изображений ИИ. Их программисты уже исправляют эту достойную мемов проблему, но интересно подумать о том, как обучается искусственный интеллект, не говоря уже о том, что ему мешает.
Почему сгенерированные ИИ руки произвели фурор
Любой, кто использует механизмы искусственного интеллекта для создания изображений, возможно, заметил, что руки редко выходят правильно, но проблема привлекла внимание, когда в Твиттере появилась куча «фотографий».
При ближайшем рассмотрении странные руки людей выдали их за изображения, созданные искусственным интеллектом. Тот факт, что это была попытка Midjourney, делал ситуацию еще более интересной.
Один из лучших движков искусственного интеллекта не мог справиться со сложными человеческими руками, поэтому возможности Midjourney и его конкурентов были подвергнуты испытанию. Правда, даже DALL-E склонен к нереальным пальцам и ногтям.
Ажиотаж был непропорциональным, учитывая, что руки, сгенерированные ИИ, всегда были проблемой, но дополнительное внимание действительно побудило к выпуску Midjourney v5 для улучшения v4.
В новой версии был сделан акцент на улучшении дизайна руки, что ясно указывает на то, что инженеры ИИ обратили внимание на веселый ажиотаж и решили обновить возможности программного обеспечения.
Другие движки не спешат следовать примеру Midjourney, поэтому исправление искусственного интеллекта с помощью Photoshop остается бесценным навыком. Основная трудность для программистов заключается в том, насколько сложно обучить искусственный интеллект рисовать убедительные руки.
Почему генераторы изображений AI борются с руками?
Механизмы ИИ используют генеративно-состязательные сети (GAN) или стабильную диффузию для создания изображений. Обе технологии требуют обширных исходных материалов, обучения и вычислительной мощности для создания даже самых простых произведений искусства.
Поскольку уже существующие изображения играют центральную роль в обучении ИИ, программистам приходится скармливать своему программному обеспечению тысячи, если не миллионы изображений. наряду с подсказками — повторяя процесс снова и снова, пока движок не поймет, к чему относится конкретное слово и как его представить. объект.
Но исходные изображения, на которых учится ИИ, в основном двумерные, где руки изображены в разных положениях. Прямые или завитые, с пятью или тремя пальцами.
В конце концов, машина на самом деле не понимает концепцию рук, а изображения, на которых она учится, не всегда изображают руки четко или последовательно. Вот почему руки Midjourney могут быть такими уродливыми: замешательство ИИ.
Так же действителен, как Илон Маск обеспокоен развитием ИИ может быть, некоторым частям технологии еще предстоит многому научиться. И их препятствия выходят за рамки недостаточного количества примеров рук.
Другие причины, по которым генераторы изображений с искусственным интеллектом развиваются медленно
Смотря на Модели Midjourney, v5 предлагает расширенную согласованность между текстовыми подсказками и созданными изображениями, а также более высокое разрешение и дополнительные инструменты. Но такие достижения не дешевы.
Чтобы научить ИИ лучше работать руками, нужно снабжать его более качественными изображениями, особенно в 3D. Это означает, что много времени и сил тратится на процессы, от получения исходных материалов до улучшения кодирования и повторения обучения, пока ИИ не сделает все правильно.
Даже в этом случае программное обеспечение может ошибаться в ошеломляющих произведениях искусства. Помимо того, что это огромная и сложная работа, это дорого. Так что не ждите бесплатные генераторы ИИ для преобразования текста в изображение чтобы приблизиться к калибру Midjourney.
Проще говоря, проблема с двигателями ИИ заключается не только в неспособности этих компьютерных программ полностью понять, как выглядят или работают человеческие черты, такие как руки и ноги. Это также сводится к тому, сколько это стоит, и доступу технологии к 3D-изображениям и методам машинного обучения, которые могут помочь генераторам получить более реалистичное представление об окружающем мире.
Генераторы изображений AI не будут бороться вечно
Руки — сложная концепция для искусственного интеллекта, чтобы обернуть его двоичную голову, но решения проблемы уже работают. Midjourney, DALL-E 2 и другие платформы в конечном итоге смогут свести причудливые пальцы к минимуму, если не полностью их искоренить.
Достижения в других областях искусственного интеллекта обеспечивают постоянное развитие технологии, а ее разработчики всегда изучают новые способы ее применения и улучшения.