У создателей ChatGPT есть еще один инструмент, призванный снять нагрузку с ваших пальцев.

Те же люди, что и ChatGPT, создали еще один инструмент на основе искусственного интеллекта, который вы можете использовать сегодня для повышения своей производительности. Мы имеем в виду Whisper, решение для преобразования голоса в текст, которое затмило все аналогичные решения, существовавшие до него.

Вы можете использовать Whisper в своих программах или в командной строке. И все же это противоречит самой его цели: печатать без клавиатуры. Если вам нужно печатать, чтобы использовать его, зачем использовать его, чтобы не печатать? К счастью, теперь вы можете использовать Whisper через графический интерфейс рабочего стола. Более того, он также может транскрибировать ваш голос почти в режиме реального времени. Давайте посмотрим, как вы можете печатать голосом с помощью Whisper Desktop.

Что такое шепот OpenAI?

Whisper от OpenAI — это система автоматического распознавания речи (сокращенно ASR), или, проще говоря, решение для преобразования разговорной речи в текст.

instagram viewer

Однако, в отличие от старых систем диктовки и транскрипции, Whisper представляет собой решение с искусственным интеллектом, обученное на более чем 680 000 часов речи на разных языках. Whisper предлагает непревзойденную точность и, что впечатляет, не только многоязычность, но и возможность перевода с одного языка на другой.

Что еще более важно, это бесплатно и доступно с открытым исходным кодом. Благодаря этому многие разработчики внедрили его код в свои собственные проекты или создали приложения, которые полагаются на него, например, Whisper Desktop.

Если вы предпочитаете «ванильную» версию Whisper и универсальность терминала вместо неуклюжих графических интерфейсов, ознакомьтесь с нашей статьей о как превратить ваш голос в текст с помощью OpenAI Whisper для Windows.

Whisper и Whisper Desktop — это одно и то же?

Несмотря на официальное название, Whisper Desktop — это сторонний графический интерфейс для Whisper, созданный для всех, кто предпочитает нажимать кнопки, а не вводить команды.

Whisper Desktop — это автономное решение, которое не зависит от существующей установки Whisper. В качестве бонуса он использует альтернативную, оптимизированную версию Whisper, поэтому он должен работать лучше, чем автономная версия.

Вы находитесь на другом конце спектра и вместо того, чтобы искать более простой способ использования Whisper, чем терминал, вы ищете способы реализовать его в своих собственных решениях? Радуйся, ибо OpenAI открыл доступ к API ChatGPT и Whisper.

Загрузите и установите Whisper Desktop

Хотя Whisper Desktop проще в использовании, чем автономный Whisper, его установка более запутанна, чем многократное нажатие кнопки «Далее» в мастере.

  1. Посещать Официальная страница Whisper Desktop на Github. Посмотрите справа и нажмите на последнюю версию под Релизы.
  2. Под Ресурсы, нажмите WhisperDesktop.zip и загрузите его на свой компьютер.
  3. Распакуйте загруженный архив в папку и откройте его с помощью файлового менеджера. Внутри вы найдете приложение Whisper Desktop. Дважды щелкните по нему, чтобы запустить его.
  4. Вам также потребуется языковая модель Whisper в GCML бинарный формат. Whisper Desktop предоставит вам две ссылки для приобретения одной. Пропустите вторую ссылку для создания собственной модели, так как это более сложный процесс. Нажмите на обнимающее лицо чтобы открыть эту страницу в браузере по умолчанию, откуда вы можете загрузить готовый к использованию файл.
  5. Версия Whisper Desktop, которую мы использовали при написании этой статьи, содержала ссылку на устаревший репозиторий Hugging Face. Если вы столкнулись с той же проблемой, обратите внимание на ссылку на Новое место. Нажмите на нее, чтобы посетить новый репозиторий.
  6. Нажмите на ссылку, которая приведет вас к доступным модели.
  7. В этом списке нажмите либо на ggml-medium.bin или ggml-medium.en.bin, в зависимости от того, хотите ли вы многоязычную или только англоязычную поддержку в Whisper.
  8. Наконец, вы должны были добраться до места назначения. Обратите внимание на строку о том, что этот файл хранится в Git LFS и слишком велик для отображения, но вы все равно можете его загрузить. Нажмите на скачать сделать именно это.
  9. Когда файл загрузится, используйте ваш любимый файловый менеджер (подойдет Проводник), чтобы переместить загруженный файл языковой модели в ту же папку, что и Whisper Desktop.

Расшифровка с помощью Whisper Desktop

Транскрипция с помощью Whisper Desktop проста, но вам все равно может потребоваться один или два клика, чтобы использовать приложение.

Перезапустите Whisper Desktop. Он (все еще) пропускает правильный путь к вашей загруженной языковой модели? Нажать на кнопка с тремя точками справа от поля и вручную выберите файл, который вы скачали с Hugging Face.

Отсюда вы также можете использовать раскрывающееся меню рядом с Реализация модели чтобы выбрать, хотите ли вы запускать Whisper на своем графическом процессоре (графический процессор), как на CPU, так и на GPU (Гибридный), или только на процессоре (Ссылка).

Передовой Кнопка открывает доступ к дополнительным параметрам, влияющим на работу Whisper на вашем оборудовании. Однако, поскольку на кнопке четко указано, что они являются расширенными, мы предлагаем вам настраивать их только в том случае, если вы устраняете неполадки или знаете, что делаете. Установка здесь неверных значений параметров может привести к снижению производительности или сделать приложение непригодным для использования.

Нажмите OK, чтобы перейти к основному интерфейсу приложения.

Если у вас уже есть запись вашего голоса, которую вы хотите превратить в письменный текст, нажмите на Расшифровать файл и выберите его. Тем не менее, мы будем использовать Whisper Desktop для прямой транскрипции этой статьи.

Предлагаемые варианты просты. Вы можете выбрать язык Whisper будет использовать, выберите, если хотите переводить между языками и включить Консоль отладки.

Большинство англоговорящих пользователей могут безопасно пропустить эти параметры и только убедиться, что правильный аудиовход выбран в раскрывающемся меню рядом с Устройство захвата.

Убеждаться Сохранить в текстовый файл и Добавить к этому файлу включены, чтобы Whisper Desktop сохранял вывод в файл, не перезаписывая его содержимое. Использовать кнопка с тремя точками справа от поля пути к файлу, чтобы определить указанный текстовый файл.

Нажмите на Захватывать чтобы начать транскрибировать вашу речь в текст.

Whisper Desktop покажет вам три индикатора, когда он обнаруживает голосовую активность, когда он активно транскрибирует и когда процесс останавливается.

Вы можете продолжать говорить столько, сколько хотите, и вы должны время от времени видеть, как два первых индикатора мигают, пока приложение превращает ваш голос в текст. Нажмите Останавливаться когда сделано.

Выбранный вами текстовый файл должен открыться в вашем текстовом редакторе по умолчанию, содержа в письменной форме все, что вы сказали, пока не нажали Останавливаться.

Следует отметить, что вы также можете сделать обратное тому, что мы видели здесь: преобразовать любой текст в речь. Таким образом, вы можете слушать что угодно, как если бы это был подкаст, вместо того, чтобы утомлять глаза, щурясь на экраны. Для получения дополнительной информации об этом, проверьте нашу статью о некоторые из лучших бесплатных онлайн-инструментов для загрузки преобразования текста в речь в формате MP3-аудио.

Советы по голосовому набору Whisper Desktop

Хотя Whisper Desktop может быть спасением, позволяя вам писать голосом намного быстрее, чем вы печатаете, он далек от совершенства.

Во время нашего тестирования мы обнаружили, что он может иногда заикаться, пропускать некоторые слова, не расшифровывать до тех пор, пока вы не вручную остановить и перезапустить процесс или застрять в цикле и продолжать переписывать одну и ту же фразу неоднократно.

Мы считаем, что это временные сбои, которые будут исправлены, поскольку автономный Whisper не имеет таких проблем.

Помимо этих незначительных неровностей, преобразование вашего голоса в текст с Whisper Desktop должно быть легким. Тем не менее, во время наших тестов мы обнаружили, что он может работать еще лучше, если...

  1. Вместо того, чтобы произносить только два или три слова, а затем делать паузу, Whisper может лучше понять вас, если вы будете говорить дольше. Постарайтесь, по крайней мере, дать ему целое предложение за один раз.
  2. По той же причине избегайте повторного запуска и остановки процесса транскрипции.
  3. Всякий раз, когда вы понимаете, что совершили ошибку, игнорируйте ее и продолжайте идти. Загрузка и выгрузка языковой модели кажется наиболее трудоемкой частью процесса с текущим состоянием Whisper и нашим доступным оборудованием. Таким образом, быстрее продолжить разговор, а затем исправить свои ошибки.
  4. Как и в случае с автономной версией Whisper, лучше всего использовать оптимальную языковую модель для доступного оборудования. Вы можете использовать до середина модель, если ваш графический процессор имеет 8 ГБ видеопамяти. Для меньшего количества видеопамяти выбирайте модели меньшего размера. Только выберите немного более точный, но и гораздо более требовательный большой модель, если вы используете графический процессор с 16 ГБ видеопамяти или более.
  5. Помните, что чем больше языковая модель, тем медленнее процесс транскрипции. Не выбирайте модель большего размера, чем необходимо. Вы, вероятно, обнаружите, что Whisper Desktop уже может «понимать вас» большую часть времени со средними или меньшими моделями, всего с одной или двумя ошибками в абзаце.

Вы все еще печатаете? Используйте свой голос с шепотом

Несмотря на то, что для настройки требуется некоторое время, как вы увидите, когда попробуете, Whisper Desktop работает намного лучше, чем большинство альтернатив, с гораздо более высокой точностью и лучшей скоростью.

После того, как вы начнете использовать ее для набора текста голосом, ваша клавиатура может выглядеть как пережиток давно минувших древних времен.