OpenAI предоставил ChatGPT возможность говорить синтезированным голосом, и скоро он появится на вашем смартфоне.

ChatGPT станет интерактивным продуктом с генеративным искусственным интеллектом. OpenAI сообщила, что ведущий в мире чат-бот с искусственным интеллектом сможет говорить и отвечать на запросы пользователей, используя синтезированный, предположительно сгенерированный искусственным интеллектом голос.

Наряду со своим новым голосом ChatGPT также сможет отвечать и обсуждать определенные изображения, загруженные на него или снятые при использовании приложения ChatGPT для Android или iOS. Функция распознавания изображений похожа на Google Lens и другие приложения, которые используют нейронные сети для точного обнаружения данных и информации.

OpenAI дает ChatGPT голос

25 сентября 2023 г. разработчик ChatGPT OpenAI раскрыт это даст голос своему ведущему в мире чат-боту с генеративным искусственным интеллектом. Пользователи ChatGPT могут напрямую обращаться к чат-боту и просить его ответить, что впервые позволяет ChatGPT напрямую общаться с помощью голоса.

instagram viewer

В примере клипа OpenAI изображена женщина, которая просит ChatGPT создать уникальную сказку на ночь, на что ChatGPT должным образом отвечает женским синтезированным голосом.

В соответствии с Проводной, новая модель преобразования текста в речь была разработана собственными силами. Он может генерировать «человеческий» звук из текста и нескольких секунд образца речи (использование модели OpenAI Whisper) и говорить разными тонами и стилями. Вы можете найти ряд образцов голоса на Блог OpenAI.

Некоторые компании уже используют новую голосовую модель OpenAI. Например, Spotify использует модель преобразования текста в речь OpenAI для перевода подкастов на разные языки, сочетая мастерство языкового перевода ChatGPT с его новыми возможностями речи.

Новая модель преобразования текста в речь ChatGPT доступна только подписчикам Plus и Enterprise, использующим официальную версию. Приложения для Android и iOS, которые, как ожидается, будут выпущены в течение следующих двух недель (начиная с 25 сентября, 2023). Кроме того, новая голосовая функция изначально ограничена английским языком, хотя мы ожидаем, что это быстро изменится.

ChatGPT может распознавать и анализировать изображения и фотографии

Вторая часть обновления OpenAI ChatGPT — это возможность анализировать и обсуждать изображения, загруженные в инструмент. Опция визуального анализа изображений была показана в видеороликах об обновлении GPT-4, но с тех пор особо не обсуждалась (Интерпретатор кода ChatGPT в сторону).

Теперь ChatGPT получает функциональность, аналогичную Google Lens. Вы можете загрузить изображение в ChatGPT или сделать фотографию с помощью камеры смартфона в приложении ChatGPT, и оно детализирует изображение, добавив больше контекста, где это необходимо.

Назвать его «похожим на Google Lens» на самом деле несправедливо. Возможность обсуждать изображение в чате, чтобы получить больше информации и контекста, делает его чрезвычайно полезным для широкого спектра настроек. Тем не менее, важно обратить внимание на мелкий шрифт: OpenAI ясно дает понять, что он ограничил «способность ChatGPT анализировать и делать прямые заявления о людях» по соображениям конфиденциальности и точности. Тем не менее, может ли в будущем появиться инструмент «Кто это» на базе OpenAI? (Будем надеяться, что нет!)

Как и новая модель преобразования текста в речь, OpenAI запустит распознавание изображений в ближайшие две недели, хотя оно будет доступно на всех платформах, а не только в приложении ChatGPT.

Конфиденциальность, безопасность и другие вопросы

Последствия использования ChatGPT с голосовым управлением очевидны. Конечно, это захватывающе. Однако возможность создать уникальный синтезированный голос, используя в качестве примера всего лишь короткий фрагмент, имеет серьезные проблемы с конфиденциальностью и безопасностью. Потенциал злоумышленников для использования этих инструментов огромен, и, как и в случае с любым инструментом генеративного искусственного интеллекта, как только джин выйдет из бутылки, он точно не вернется обратно. Никакое регулирование ИИ со стороны правительств или лидеров мнений не сможет повернуть ситуацию вспять.

Даже предупреждение OpenAI по этой теме, кажется, обходит очевидное, несмотря на упоминание проблем:

Однако эти возможности также создают новые риски, такие как возможность злоумышленников выдать себя за общественных деятелей или совершить мошенничество. Вот почему мы используем эту технологию для конкретного варианта использования — голосового чата.

Учитывая, что это верхушка айсберга, ожидайте сопротивления вновь обретенному голосу ChatGPT, особенно после того, как предсказуемо растет количество сомнительных заголовков, утверждающих, что ChatGPT используется для мошенничества, и поэтому на.

OpenAI делает ChatGPT популярным приложением для искусственного интеллекта

Чем больше OpenAI добавляет удобные для пользователя функции в ChatGPT, тем больше он становится популярным приложением для генеративного искусственного интеллекта. Будучи первым, кто достиг широкой известности во время первоначального бума генеративного искусственного интеллекта, ChatGPT по-прежнему лидирует и является единственное приложение, которое некоторые используют, несмотря на конкуренцию со стороны таких компаний, как Google Bard (и, возможно, Google Gemini) и Anthropic. Клод.

Пока OpenAI может продолжать добавлять функции, упрощающие использование ChatGPT, он будет держать людей на крючке и приближаться к своей цели — созданию действительно мультимодального инструмента искусственного интеллекта.