Распознавание голоса - это здорово, но как оно стало таким хорошим?

Технология распознавания голоса имеет богатую историю развития, которая привела ее к тому, чем она является сегодня. Это суть современной жизни, дающая нам возможность выполнять задачи, просто разговаривая с устройством. Итак, как развивалась эта удивительная технология с годами? Давайте взглянем.

1952: Система Одри

Первый шаг в распознавании голоса был сделан в начале 1950-х годов. Bell Laboratories разработала первую машину, которая могла распознавать человеческий голос, в 1952 году и получила название Система Одри. Имя Одри было своего рода сокращением фразы «Автоматическое распознавание цифр». Хотя это было серьезным нововведением, у него были некоторые серьезные ограничения.

Наиболее заметно то, что Одри могла распознавать только числовые цифры 0–9, без слов. Одри давала обратную связь, когда говорящий произносил число, зажигая 1 из 10 лампочек, каждая из которых соответствует цифре.

Кредит изображения: metamorworks /Shutterstock.com

Хотя он мог понимать числа с точностью 90%, Одри ограничивалась определенным типом голоса. Вот почему единственным человеком, который действительно мог бы его использовать, был Х.К. Дэвис, один из разработчиков. При произнесении числа говорящему необходимо подождать не менее 300 миллисекунд, прежде чем произнести следующее число.

instagram viewer

Он был ограничен не только по функциональности, но и по полезности. Не было особого смысла в машине, которая могла бы понимать только числа. Одним из возможных вариантов использования был набор телефонных номеров, но набирать номера вручную было намного быстрее и проще. Хотя у Одри не было изящной жизни, она по-прежнему остается важной вехой в человеческих достижениях.

Связанный: Как использовать голосовой набор в Microsoft Word

1962: Обувная коробка IBM

Спустя десять лет после Одри IBM попробовала разработать систему распознавания голоса. На Всемирной выставке 1962 года IBM продемонстрировала систему распознавания голоса под названием Showbox. Как и Одри, его основная работа заключалась в понимании цифр 0–9, но он также мог понимать шесть слов: плюс, минус, ложь, всего, промежуточный итог и выкл.

Shoebox была математической машиной, которая решала простые арифметические задачи. Что касается обратной связи, то вместо лампочек Shoebox смог распечатать результаты на бумаге. Это сделало его полезным в качестве калькулятора, хотя говорящему все равно придется делать паузу между каждым числом / словом.

1971: Автоматическая идентификация звонков IBM

После Одри и Shoebox, другие лаборатории по всему миру разработали технологию распознавания голоса. Однако это произошло только в 1970-х годах, когда в 1971 году IBM представила на рынке первое в своем роде изобретение. Это называлось системой автоматической идентификации вызовов. Это была первая система распознавания голоса, которая использовалась в телефонной системе.

Инженеры позвонят и будут подключены к компьютеру в Роли, Северная Каролина. Затем вызывающий абонент произносил одно из 5000 слов в своем словаре и получал в качестве ответа «устный» ответ.

Связанный: Как использовать голосовую диктовку на Mac

1976: Гарпия

В начале 1970-х годов Министерство обороны США заинтересовалось распознаванием голоса. DARPA (Агентство перспективных оборонных исследовательских проектов) разработало программу исследования понимания речи (SUR) в 1971 году. Эта программа предоставила финансирование нескольким компаниям и университетам для содействия исследованиям и разработкам в области распознавания голоса.

В 1976 году благодаря SUR Университет Карнеги-Меллона разработал систему Harpy. Это был большой скачок в технологии распознавания голоса. До этого момента системы могли понимать слова и числа, но Гарпия была уникальна тем, что могла понимать полные предложения.

В его словарном запасе всего около 1011 слов, которые, согласно публикации Б. Лоуэрре и Р. Редди, приравнивается к более чем триллиону различных возможных предложений. В публикации говорится, что Гарпия могла понимать слова с точностью 93,77%.

1980-е были поворотным временем для технологии распознавания голоса, так как это десятилетие, когда голос технология распознавания, так как это было десятилетие, когда мы познакомились со скрытым методом Маркова (ХМ). Основная движущая сила HMM - это вероятность.

Когда система регистрирует фонему (наименьший элемент речи), существует определенная вероятность того, что будет следующей. HMM использует эти вероятности, чтобы определить, какая фонема, скорее всего, появится следующей и сформирует наиболее вероятные слова. Большинство систем распознавания голоса сегодня все еще используют HMM для понимания речи.

1990-е годы: распознавание голоса достигает потребительского рынка

С момента появления технологии распознавания голоса компания искала свое место на потребительском рынке. В 1980-х годах IBM продемонстрировала прототип компьютера, способного преобразовывать речь в текст. Однако только в начале 1990-х люди начали видеть подобные приложения у себя дома.

В 1990 году Dragon Systems представила первую программу для преобразования речи в текст. Он назывался Dragon Dictate и изначально был выпущен для Windows. Эта программа стоимостью 9000 долларов была революционной для распространения технологии распознавания голоса в массы, но с одним недостатком. Используемое программное обеспечение дискретный диктант, это означает, что пользователь должен делать паузу между каждым словом, чтобы программа их уловила.

В 1996 году IBM снова внесла свой вклад в отрасль, выпустив Medspeak. Это также была программа диктовки речи в текст, но она не страдала дискретной диктовкой, как Dragon Dictate. Вместо этого эта программа могла диктовать непрерывную речь, что делало ее более убедительным продуктом.

Связанный: Как использовать Google Assistant с наушниками

2010: Девушка по имени Сири

На протяжении 2000-х годов популярность технологии распознавания голоса резко возросла. Он был реализован в большем количестве программного и аппаратного обеспечения, чем когда-либо прежде, и одним из важных шагов в эволюции распознавания голоса стала Siri, цифровой помощник. В 2010 году компания Siri представила виртуального помощника как приложение для iOS.

В то время Siri представляла собой впечатляющую программу, которая могла диктовать, что говорил говорящий, и давать образованный и остроумный ответ. Эта программа была настолько впечатляющей, что Apple приобрела компанию в том же году и немного изменила Siri, подтолкнув ее к цифровому помощнику, который мы знаем сегодня.

Именно благодаря Apple Siri получила свой культовый голос (голос Сьюзан Бенетт) и множество новых функций. Оно использует обработка естественного языка для управления большинством функций системы.

2010-е: 4 больших цифровых помощника

В настоящее время четыре больших цифровых помощника доминируют в распознавании голоса и дополнительном программном обеспечении.

Siri присутствует почти во всех продуктах Apple: iPhone, iPod, iPad и компьютерах семейства Mac.
Google Ассистент присутствует на большинстве из более чем 3 миллиардов Android-устройств на рынке. Кроме того, пользователи могут использовать команды во многих сервисах Google, как Google Home.
Amazon Alexa у него нет особой платформы, на которой он живет, но он по-прежнему является выдающимся помощником. Его можно загрузить и использовать на устройствах Android и Apple. и даже выбрать ноутбуки Lenovo
Биксби это новейшая запись в списке цифрового помощника. Это домашний цифровой помощник Samsung, который присутствует в телефонах и планшетах компании.

Разговорная история

Распознавание голоса прошло долгий путь со времен Одри. Он добился больших успехов во многих областях; например, согласно Clear Bridge Mobile, медицина извлекла выгоду из голосовых чат-ботов во время пандемии 2020 года. Распознавание голоса - от способности понимать числа до понимания различных вариантов полных предложений - оказалось одной из самых полезных технологий нашего времени.

ДелитьсяТвитнутьЭл. адрес

Как работает распознавание голоса?

Мы постоянно используем распознавание голоса, но как оно работает?

Похожие темы

Объяснение технологии
Siri
Google Ассистент
Алекса
Биксби
Голосовые команды

Об авторе

Артур Браун (Опубликовано 31 статья)

Артур - технический журналист и музыкант, живущий в Америке. Он проработал в индустрии почти десять лет, писал для онлайн-изданий, таких как Android Headlines. Он хорошо разбирается в Android и ChromeOS. Помимо написания информационных статей, он также умеет сообщать технические новости.

Ещё от Arthur Brown

Подписывайтесь на нашу новостную рассылку

Подпишитесь на нашу рассылку технических советов, обзоров, бесплатных электронных книг и эксклюзивных предложений!

Нажмите здесь, чтобы подписаться

About Technology - denizatm.com

Распознавание голоса - это здорово, но как оно стало таким хорошим?

1952: Система Одри

1962: Обувная коробка IBM

1971: Автоматическая идентификация звонков IBM

1976: Гарпия

1990-е годы: распознавание голоса достигает потребительского рынка

2010: Девушка по имени Сири

2010-е: 4 больших цифровых помощника

Разговорная история

Подписывайтесь на нашу новостную рассылку

категории

Recent Post

Как автоматически скрыть верхнюю панель в Ubuntu

Как исправить Microsoft Word, когда он удаляет текст сам по себе

Почему YouTube хочет, чтобы ютуберы признались в использовании искусственного интеллекта в видео