Распознавание фраз — это лишь часть процесса.
Кричать «Окей, Google» через всю комнату, чтобы сменить музыку или выключить свет в комнате, — это, безусловно, приятно. невероятно, но этот, казалось бы, простой процесс основан на сложной сети технологий, лежащих в основе сцены.
Почти у каждого крупного виртуального помощника на рынке есть вызывающая фраза, которую вы используете, чтобы разбудить помощника и поговорить. Но как голосовые помощники узнают, когда вы с ними разговариваете?
Как работает определение фраз?
Как упоминалось выше, у каждого голосового помощника есть «триггерная фраза» или слово пробуждения, которое вы используете, чтобы разбудить помощника и дать дальнейшие команды. Процесс обнаружения этой фразы у всех помощников примерно одинаков, за исключением небольших нюансов. Тем не менее, эти нюансы могут означать разницу между небрежным произнесением команды пробуждения и ее многократным выкрикиванием. только для того, чтобы помощник продолжал спать, что иногда может очень раздражать, особенно если вы использование голосового помощника, чтобы помочь успокоиться.
Как правило, большинство «умных» динамиков имеют небольшую схему, единственной задачей которой является обнаружение команды пробуждения, а затем приведение в действие остального оборудования. Большая часть обработки выполняется в облаке, но определение фраз осуществляется на устройстве по очевидным причинам конфиденциальности. Распознавание фраз на телефонах работает примерно так же.
Специфика в основном не разглашается, но эти системы обнаружения используют машинное обучение и глубокие нейронные сети (ГНС) для обучения моделей ИИ распознаванию вашего голоса и формированию ключа. Затем этот ключ используется для проверки того, когда вы произнесли определенную фразу, а все остальное отправляется в облако для дальнейшей обработки.
Google Ассистент
Телефоны, которые поддерживают обнаружение «ОК, Google», обычно поставляются с системой обнаружения ключевых слов (KWS), которая определяет фразу, а затем исправляет остальную часть вашего запроса в облаке. Поскольку мобильные устройства имеют ограниченную вычислительную мощность, а также ограниченное время автономной работы, эти системы обычно не так хороши, как те, которые вы найдете на колонках Google Nest.
Эта встроенная в устройство система KWS постоянно улавливает звук с микрофонов устройства и инициирует подключение к серверу при обнаружении триггерной фразы. Google также использует контекстное автоматическое распознавание речи (ASR) на стороне сервера, чтобы повысить общую точность своей системы KWS. Подробнее об этом можно прочитать в исследовательский документ Google [PDF].
Сири
Siri работает так же, как Google Assistant, в отношении обнаружения «Привет, Siri». Apple на удивление откровенно рассказала о том, как работает система, которая включает в себя «очень маленький» распознаватель речи, работающий в фоновом режиме и прослушивающий только эти два слова. Этот детектор использует DNN для преобразования акустического паттерна вашего голоса, записанного для каждого экземпляра, в распределение вероятностей по звукам речи, по сути, генерируя показатель достоверности.
Ваш iPhone или Apple Watch делают это, превращая ваш голос в поток сэмплов сигнала со скоростью 16 000 в секунду. Затем он сокращается до последовательности кадров, охватывающих звуковой спектр длительностью около 0,01 секунды. Затем всего 20 таких кадров передаются в модель обнаружения, которая преобразует эти шаблоны в вероятность.
Если система с достаточной уверенностью определяет, что вы сказали «Привет, Siri», Siri просыпается и отправляет остальные сообщения. запроса в облако, где происходит дальнейший анализ, и любое запрошенное вами действие выполненный.
Конечно, добавлены дополнительные меры для обеспечения эффективности памяти и батареи. Именно по этой причине процессор Always On вашего iPhone (AOP) имеет доступ к микрофонам устройства (на iPhone 6S и более поздних версиях), и небольшая часть его вычислительной мощности зарезервирована для работы DNN. Apple подробно изучает всю систему на своем веб-сайте машинного обучения. машинное обучение.apple.
Алекса
Подобно Google Assistant и Siri, Alexa также не размещает большую часть своей вычислительной мощности ни на одном из динамиков Echo, которые вы можете купить. Вместо этого динамики используют то, что Amazon называет автоматическим распознаванием речи (ASR), которое по существу преобразует произнесенные слова в текст, позволяя базовой системе интерпретировать их и действовать соответствующим образом.
ASR формирует основу работы Alexa. Опять же, есть встроенная система, которая прислушивается к словам пробуждения, в данном случае «Alexa», «Amazon», "Эхо" или "Компьютер" и запускает остальную часть системы, когда слово пробуждения, заданное пользователем, обнаружено. Вы можете даже разбудите свое устройство Alexa с помощью «Привет, Дисней» если ты хочешь.
Как и Google Assistant, вы можете обучить базовую модель искусственного интеллекта Alexa, чтобы лучше определять ваш голос. Этот процесс включает в себя создание базового «ключа», с которым сравнивается произносимое слово пробуждения, и при обнаружении совпадения устройство реагирует соответствующим образом.
Всегда ли голосовые помощники слушают?
Как вы, наверное, уже догадались, да, они есть. В противном случае они никак не могли бы обнаружить слова пробуждения. Тем не менее, вам пока не нужно выбрасывать все свои умные колонки из соображений конфиденциальности.
Прослушивание всего, что говорят пользователи, отправка на удаленный сервер и анализ (или сохранение) требует огромных аппаратных и финансовых ресурсов до такой степени, что это не имеет смысла с практической точки зрения. перспектива. Добавьте к этому огромные проблемы с конфиденциальностью, с которыми уже имеют дело такие компании, как Google, Apple и Amazon, и эта идея не имеет смысла.
Это также сильно влияет на производительность телефонов и время автономной работы с функциями обнаружения слов пробуждения, особенно в Google Pixel и iPhone. Если ваш телефон постоянно слушает то, что вы говорите, и отправляет этот звук обратно на удаленный сервер, это разрядит вашу батарею и повлияет на производительность устройства.
У кого самый эффективный поиск фраз и почему?
Нелегко объективно сравнить, какой виртуальный помощник лучше всего определяет фразу, поскольку все они используют несколько разные реализации одной и той же общей концепции. Тем не менее, Google, похоже, имеет более последовательное определение фраз благодаря Google Assistant, по сравнению с Siri и Alexa.
Несмотря на то, что приложения, использующие большие языковые модели (LLM), такие как ChatGPT и Bing Chat, становятся популярными, Google Assistant сохраняет свою позицию одного из самых популярными виртуальными помощниками просто потому, что это можно сделать одним касанием на любом устройстве Android, от смарт-телевизоров до автомобильных стереосистем и, конечно же, смартфонов.
Siri и Alexa должны наверстать упущенное в этом отделе, но что касается определения фраз, они не так уж далеки. Тем не менее, у вас будет больше шансов разбудить Google Assistant на вашем Pixel через всю комнату, чем с Siri на вашем iPhone, хотя вы можете расширьте возможности Siri с помощью режима Super Siri. Поскольку Alexa в основном используется в линейке динамиков Echo от Amazon, здесь у него есть небольшое преимущество, учитывая, что эти динамики предназначены для того, чтобы улавливать голос пользователя.
ИИ столь же жуткий, сколь и удобный
Вызов вашего помощника ИИ только вашим голосом может оказаться очень удобным. Для функции, которая легко интегрируется в нашу жизнь, многое происходит за кулисами, о чем большинство из нас часто не задумывается.
Тем не менее, это удобство также приносит с собой беспокойство вашего устройства, которое всегда слушает то, что вы говорите. Пока что между тем, что слышит ваш виртуальный помощник, и тем, что вы говорите, стоят встроенные в устройство распознаватели речи и пробуждающие слова.