Рекламное объявление

Теперь мы можем поговорить почти со всеми нашими гаджетами, но как именно это работает? Когда вы спрашиваете: «Что это за песня?» или сказать «Позвони маме», чудо современных технологий происходит. И хотя кажется, что он находится на переднем крае, эта идея общения с устройствами уходит в прошлое на десятилетия - почти так же далеко, как реактивные ранцы в научной фантастике!

Сегодня основное внимание, уделяемое голосовым вычислениям, уделяется смартфонам. Apple, Amazon, Microsoft и Google находятся на вершине цепочки, каждый из которых предлагает свой собственный способ общения с электроникой. Вы знаете, кто они: Сири, Алекса, Кортана и безымянное существо «Хорошо, Google». Что поднимает большой вопрос ...

Как устройство воспринимает произнесенные слова и превращает их в команды, которые оно может понять? По сути, все сводится к сопоставлению с образцом и прогнозированию на основе этих образцов. В частности, распознавание голоса является сложной задачей Акустическое моделирование и Языковое моделирование.

instagram viewer

Акустическое моделирование: сигналы и телефоны

форма волны

Акустическое моделирование - это процесс взятия формы речи и ее анализа с использованием статистических моделей. Наиболее распространенным методом для этого является Скрытое Марковское Моделирование, который используется в том, что называется моделирование произношения разбить речь на составные части, называемые телефонами (не путать с реальными телефонными устройствами). Microsoft была ведущим исследователем в этой области на протяжении многих лет.

Скрытое марковское моделирование: вероятностные состояния

Скрытое марковское моделирование - это прогнозирующая математическая модель, в которой текущее состояние определяется путем анализа результатов. Википедия имеет отличный пример использования двух друзей.

Представьте себе двух друзей - Local Friend и Remote Friend - которые живут в разных городах. Местный друг хочет выяснить, какая погода там, где живет удаленный друг, но удаленный друг хочет рассказать только о том, что он делал в тот день: ходить, ходить по магазинам или убирать. Вероятность каждого мероприятия в зависимости от погоды дня.

Скрытое Марковское Моделирование

Притворись, что это единственная доступная информация. С его помощью Local Friend может найти тенденции изменения погоды изо дня в день, и, используя эти тенденции, она может начать делать обоснованные предположения о том, какая сегодня погода будет основана на вчерашней активности ее подруги. (Вы можете увидеть схему системы выше.)

Если вы хотите более сложный пример, проверьте этот пример на Matlab. В распознавании голоса эта модель по существу сравнивает каждую часть формы волны с тем, что предшествует и что следует после, и со словарем сигналов, чтобы выяснить, что говорится.

По сути, если вы производите «ый» звук, он будет сравнивать этот звук с наиболее вероятными звуками, которые обычно идут до и после него. Может быть, это означает проверку на звук «е», звук «на» и так далее. Когда шаблон соответствует правильно, тогда у него есть все ваше слово. Это чрезмерное упрощение, но вы можете видеть Полное объяснение Microsoft здесь.

Языковое моделирование: больше, чем звук

Акустическое моделирование помогает вашему компьютеру понять вас, но как насчет омонимов и региональных вариаций в произношении? Вот где в игру вступает языковое моделирование. Google провел много исследований в этой области, в основном за счет использования N-грамм моделирование.

Когда Google пытается понять вашу речь, он делает это на основе моделей, основанных на огромном банке голосового поиска и транскрипции YouTube. Все эти смешные заголовки видео действительно помогли Google развить свои словари. Также они использовали усопших GOOG-411 собирать информацию о том, как люди говорят.

shutterstock_70757203

Вся эта языковая коллекция создала огромное количество произношений и диалектов, что позволило создать надежный словарь слов и их звучание. Это учитывает совпадения, которые имеют значительно меньшую частоту ошибок, чем грубое сопоставление, основанное на необработанных вероятностях Вы можете прочитать краткую статью описывая их методы здесь.

Хотя Google является лидером в этой области, существуют другие математические модели, в том числе непрерывное пространство модели и позиционные модели языка, которые являются более продвинутыми методами, рожденными в результате исследований в области искусственного интеллекта. Эти методы основаны на воспроизведении рассуждений, которые люди делают, слушая друг друга. Они намного более продвинуты как с точки зрения технологий, стоящих за ними, так и с точки зрения математики и программирования, необходимых для отображения этих моделей.

N-Gram Modeling: вероятность встречается с памятью

N-граммное моделирование работает на основе вероятностей, но использует существующий словарь слов для создания ветвящегося дерева возможностей, которое затем сглаживается ради эффективности. В некотором смысле это означает, что N-граммное моделирование устраняет большую часть неопределенности в вышеупомянутом скрытом марковском моделировании.

Как отмечалось выше, сила этого метода заключается в наличии большого словаря слова и использованиене просто примитивно звуки. Это дает программе возможность определять разницу между гомофонами, такими как «удар» и «свекла». Это контекстно, что означает, что когда вы говорите о результатах прошлой ночи, программа не собирает слов о борще.

Но эти модели на самом деле не лучшие для языка, в основном из-за проблем с вероятностью слов в более длинных фразах. По мере того, как вы добавляете больше слов в предложение, эта модель становится немного хуже, поскольку ваши ранние слова вряд ли загрузят все необходимое для вашей полной мысли.

Тем не менее, его просто и легко реализовать, что делает его отличным выбором для такой компании, как Google, которая любит бросать серверы на вычислительные проблемы. Вы можете сделать дальнейшее чтение на N-грамме Modelieng в Университет Вашингтонаили вы можете посмотреть лекция в Coursera.

Кричать в облаках: приложения и устройства

Любой, кто использовал Siri, знает разочарование по поводу медленного сетевого подключения. Это потому, что ваши команды к Siri отправляются по сети для декодирования Apple. Cortana для Windows Phone также требует правильного функционирования сетевого подключения. В отличие от этого, Amazon Echo - это просто Bluetooth-динамик без интернета.

Почему разница? Потому что Сири и Кортане нужны мощные серверы для декодирования вашей речи. Это можно сделать на вашем телефоне или планшете? Конечно, но вы убьете свою производительность и время автономной работы. Просто имеет смысл перенести обработку на выделенные машины.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Подумайте об этом так: ваша команда - машина, застрявшая в грязи. Вы могли бы, вероятно, вытолкнуть это самостоятельно с достаточным количеством времени и усилий, но это займет часы и опустошит вас. Вместо этого вы вызываете помощь на дороге, и они вытащат вашу машину всего за несколько минут. Недостатком является то, что вам нужно позвонить и ждать их, но это все еще быстрее и менее обременительно.

Настольные модели, такие как Nuance, обычно используют локальные ресурсы из-за более мощного оборудования. В конце концов, по словам Стива Джобса, ваш рабочий стол это грузовик. (Что делает немного глупым, что OS X использует серверы для его обработки.) Поэтому, когда вам нужно обработать язык и голос, он уже достаточно хорошо оборудован, чтобы справиться с ним самостоятельно.

С другой стороны, Android позволяет разработчикам включать автономное распознавание речи в свои приложения. Google любит опережать технологии, и вы можете поспорить, что другие платформы получат эту возможность, поскольку их оборудование станет более мощным. Никому не нравится, когда плохое покрытие или плохой прием лоботомизируют свое устройство.

Начните использовать голосовые команды сейчас

Теперь, когда вы знаете основные понятия, вы должны поиграть с различными устройствами. Попробуйте новый голосовой набор в Google Docs Как голосовой набор текста является новой лучшей функцией Google DocsВ последние годы распознавание голоса улучшилось на дрожжах. Ранее на этой неделе Google наконец-то ввел голосовую печать в Google Docs. Но хорошо ли это? Давайте узнаем! Подробнее . Как будто пакет веб-офиса еще не был достаточно мощным, голосовое управление позволяет полностью диктовать и форматировать документы. Это расширяет возможности мощных технологий, которые они уже разработали для Chrome и Android.

Другие идеи включают настройку вашего Mac использовать голосовые команды Как использовать речевые команды на вашем Mac Подробнее и настройку вашего Amazon Echo с автоматической проверкой Как Amazon Echo может сделать ваш дом умным домомТехнология умного дома еще только начинается, но новый продукт Amazon под названием «Echo» может помочь превратить ее в мейнстрим. Подробнее . Живите в будущем и общайтесь со своими гаджетами, даже если вы просто заказываете больше бумажных полотенец. Если вы любитель смартфонов, у нас также есть учебники для Siri 8 вещей, которые вы, вероятно, не понимали, Сири может сделатьSiri стала одной из определяющих функций iPhone, но для многих она не всегда самая полезная. Хотя отчасти это связано с ограничениями распознавания голоса, странность использования ... Подробнее , Кортана 6 крутых вещей, которые вы можете контролировать с помощью Cortana в Windows 10Кортана может помочь вам без помощи рук в Windows 10. Вы можете позволить ей искать ваши файлы и Интернет, делать расчеты или получать прогноз погоды. Здесь мы рассмотрим некоторые из ее кулер навыков. Подробнее , и Android ОК, Google: 20 полезных вещей, которые вы можете сказать на свой телефон AndroidGoogle Assistant может помочь вам сделать многое на вашем телефоне. Вот целый ряд основных, но полезных команд Google OK, которые нужно попробовать. Подробнее .

Какое ваше любимое использование голосового управления? Дайте нам знать об этом в комментариях.

Кредиты изображений: T-flex через Shutterstock, Теренхонлес через Фонд Викимедиа, Штат Аризона, Дизайн Cienpies через Shutterstock

Майкл не использовал Mac, когда они были обречены, но он может кодировать в Applescript. У него есть степени в области компьютерных наук и английского языка; он некоторое время писал о Mac, iOS и видеоиграх; и он был более десяти лет дневной ИТ-обезьяной, специализирующейся на сценариях и виртуализации.