Такие читатели, как вы, помогают поддерживать MUO. Когда вы совершаете покупку по ссылкам на нашем сайте, мы можем получать партнерскую комиссию. Читать далее.

Whisper от OpenAI — это новое решение на базе искусственного интеллекта, которое может превратить ваш голос в текст. Лучше всего то, что это происходит по нулевой цене.

Однако есть одна загвоздка: ее сложнее установить и использовать, чем обычную утилиту Windows. Особенно, если вы хотите использовать тензорные ядра вашего графического процессора Nvidia, чтобы придать ему хороший импульс.

Но не волнуйтесь. Вот почему мы здесь! Читайте дальше, чтобы узнать, как установить и использовать его, а также, если он у вас есть, чтобы Whisper мог использовать преимущества вашего графического процессора Nvidia.

Что такое шепот OpenAI?

ChatGPT сейчас в моде, и мы уже видели как вы можете использовать ChatGPT от OpenAI. И все же это не единственный интересный проект OpenAI.

Основанная на глубоком обучении и нейронных сетях, Whisper представляет собой систему обработки естественного языка, которая может «понимать» речь и преобразовывать ее в текст. Но это также и самостоятельная вещь, стоящая прямо среди всех подобных решений:

instagram viewer

  • Whisper — это ИИ-решение, «обученное» естественному языку. Таким образом, он лучше понимает «нормальную» человеческую речь, чем старые решения.
  • Whisper не имеет интерфейса и не может записывать звук. Он может принимать только существующие аудиофайлы и выводить текстовые файлы.
  • Поскольку Whisper хорошо «понимает язык», он также обладает суперсилой автоматического перевода за один шаг.
  • Whisper не является онлайн-сервисом и может работать полностью в автономном режиме.
  • Если у вас относительно современный графический процессор Nvidia (GTX970 или новее), Whisper может работать в «режиме аппаратного ускорения» для повышения скорости.
  • Нет необходимости регистрироваться, покупать лицензию или покупать подписку.

Почему графические процессоры AMD не поддерживаются?

Чтобы графические процессоры были полезны не только для графики, они должны действовать как полностью программируемые процессоры. Вот почему Nvidia создала CUDA, официально считающуюся «платформой для параллельных вычислений и моделью программирования». Чтобы узнать больше о CUDA и связанном с ним оборудовании («ядрах CUDA»), прочитайте нашу статью на что такое ядра CUDA и как они улучшают игры на ПК.

CUDA — это запатентованная технология Nvidia, совместимая только с графическими процессорами Nvidia. Ближайшими альтернативами аппаратному обеспечению AMD являются OpenCL и Radeon Compute Platform. Чтобы узнать больше о сравнении решений каждой компании, ознакомьтесь с нашей статьей о Сравнение вычислительных блоков AMD Ядра Nvidia CUDA.

По сравнению с альтернативами CUDA считается более зрелой, производительной и простой в использовании. Таким образом, большинство разработчиков нацелены только на CUDA, что, в свою очередь, означает, что их программное обеспечение использует только преимущества аппаратных функций графических процессоров Nvidia. И это включает в себя Whisper.

Как скачать и установить Whisper

К сожалению, Whisper — это не отдельное приложение, которое вы можете загрузить, установить и запустить. Он зависит от другого программного обеспечения, которое также необходимо установить.

Для Windows, чтобы сделать это руководство простым, мы будем широко использовать Chocolatey для установки большинства необходимых частей программного обеспечения. Ознакомьтесь с нашим руководством по самый быстрый способ установить программное обеспечение Windows для получения дополнительной информации о Chocolatey.

Для Linux и Mac процесс установки (за исключением переменной пути Windows и простых в использовании пакетных файлов, которые мы создадим) должен быть аналогичным.

  1. Для установки и использования Whisper у вас должен быть питон И его PIP Инструмент установлен и добавлен в переменную «Путь» Windows. Чтобы узнать об этом, ознакомьтесь с нашей статьей о как установить Python PIP на Windows, Mac и Linux.
  2. Установить FFMPEG через Chocolatey с помощью этой команды:
    шоколад установить ffmpeg
    Кроме того, установите его версию Python с помощью:
    пункт3 установить python-ffmpeg
  3. Наконец, установите Whisper со своей страницы Github с помощью:
    pip3 установить git+https://github.com/openai/whisper.git

Получение версии Whisper с поддержкой CUDA

Хотя Whisper не использует графические процессоры Nvidia, факел пакет, на который он опирается, предлагает версию с ускорением CUDA. Использование этой версии вместо «простой» может помочь Whisper намного быстрее выполнить транскрипцию с помощью вашего графического процессора Nvidia.

Чтобы Whisper использовал ядра CUDA вашего графического процессора Nvidia:

  1. Если у вас уже установлена ​​«ванильная» версия torch, удалите и очистите ее остатки с помощью:
    пункт3 удалить факел
    Как только это будет сделано, выполните следующие действия:
    точка тайникудалять
  2. Установите версию факела с поддержкой CUDA с помощью:
    пункт3 установить факел torchvision torchaudio --extra-индекс-url https://download.pytorch.org/whl/cu117
  3. Чтобы проверить, может ли Whisper использовать ваш графический процессор Nvidia, используйте:
    шепот --помощь | findstr -я pytorch
    Тебе следует увидеть (по умолчанию: куда) вместо (по умолчанию: процессор).

Что делать, если Torch не устанавливается

Если вы столкнулись с ошибкой «версия не найдена» при установке torch, вам может потребоваться установить более старую версию Python параллельно с текущей.

Используйте эту команду, чтобы сделать это:

шоколад установить питон --version OLDER_VERSION --бок о бок

Замените «OLDER_VERSION» версией, например 3.10.

Затем используйте путь вторичной версии для всех «общих» команд Whisper (например, «c:\Python310\Scripts\pip.exe», а не просто «pip»).

Как записать свой голос

Вы можете использовать любое приложение для записи звука, чтобы превратить свой голос в файл WAV или MP3. Windows включает такое приложение — для получения дополнительной информации см. как использовать приложение для записи голоса в Windows 10.

Для более полнофункционального варианта попробуйте Мужество. Узнайте, как это сделать, с нашим руководством по как использовать Audacity для записи звука на Windows и Mac.

Как начать транскрипцию с помощью Whisper

Хотя у Whisper нет удобного графического интерфейса, его использование чрезвычайно просто.

Допустим, у нас есть файл LatestNote.mp3 который содержит речь на греческом языке, в папке c:\MyAudioFiles, и хотите перевести его на английский язык и транскрибировать в текстовый файл.

  1. Мы начинаем с запуска Командная строка или PowerShell.
  2. Мы «меняем каталог», в котором хранится аудиофайл, с помощью этой команды:
    CD C:\MyAudioFiles
  3. Мы запускаем Whisper в файл с помощью:
    шепот--модельбаза--языкгр--задачапереводитьПоследняя заметка.mp3

После обработки текстовый файл (с именем «LatestNote.mp3.txt») появится в той же папке. Откройте его в текстовом редакторе, например Блокнот для просмотра переведенного текста.

Мы использовали пример перевода, потому что английская транскрипция еще более проста: вам нужно только «потерять» флаги «--language» и «-task». Таким образом, для простой транскрипции приведенная выше команда будет выглядеть так:

шепот--модельбазаПоследняя заметка.mp3

Флаг «модель» необходим, поскольку Whisper использует один из множества вариантов. Давайте расширим их, чтобы помочь вам выбрать лучшее для ваших нужд.

Какую модель выбрать?

Whisper предлагает различные языковые модели. Чем крупнее модель, тем выше ее точность, но тем выше требования к оборудованию. Они есть:

  1. Крошечный.
  2. База.
  3. Маленький.
  4. Середина.
  5. Большой.

Большинство носителей английского языка должно быть в порядке с крошечный или база модели. Для тех, для кого английский язык не является родным, результаты могут быть лучше с более крупными моделями, например маленький и середина.

Однако обратите внимание, что для средних и больших моделей требуется более 8 ГБ видеопамяти (то есть «памяти вашего графического процессора»).

Чтобы выбрать один из них, укажите модель после ключа «--model» в команде:

шепот --model крошечный/маленький/средний/большой [файл]

Например:

шепот--модельмаленькийМоя_Голосовая_Заметка.mp3

Как оптимизировать вашу транскрипцию

Необходимость вводить всю команду Whisper каждый раз, когда вы хотите расшифровать какой-либо звук, может быстро наскучить. Давайте создадим глобально доступный пакетный файл, чтобы упростить процесс.

  1. Бегать проводник Виндоус и посетите свой диск C:.
  2. Создайте папку для своих скриптов и скопируйте ее путь в буфер обмена.
  3. В меню «Пуск» Windows найдите «путь» и выберите Отредактируйте системные переменные среды.
  4. Найди Путь переменная под Пользовательские переменные для YOUR_USERNAME. Дважды щелкните по нему, чтобы отредактировать его. Нажмите на Новыйи вставьте путь к папке со скриптами. Нажмите на ХОРОШО принять изменения.
  5. Вернитесь в папку со сценариями в проводнике Windows. Создайте там новый командный файл с именем «wht.bat». «Внутри» поместите эту команду:
    шепот --model крошечный --language en %1
  6. Создайте еще два пакетных файла, «whs» и «whm».
  7. Поместите это в первый скрипт:
    шепот --model small --language en %1
  8. Поместите это внутрь второго:
    шепот --model средний --language en %1

Поздравляем, теперь у вас есть три скрипта для простого использования крошечных, малых и средних моделей Whisper с вашими аудиофайлами! Чтобы транскрибировать любой аудиофайл в текст:

  1. Найдите файл с Проводник Windows.
  2. Щелкните правой кнопкой мыши на пустом месте и выбрать Открыть в Терминале.
  3. Введите эту команду, заменив «wht» на «whs» или «whm», чтобы использовать малую или среднюю языковую модель:
    чтоВАШ_АУДИО_ФАЙЛ.mp3

Печатайте со скоростью звука с помощью Whisper

Даже самые быстрые машинистки не могут сравниться со скоростью, с которой мы говорим. Однако до недавнего времени разговор вместо набора текста не был оптимальным для создания документов.

Большинство решений для преобразования голоса в текст давали посредственные результаты. Можно найти несколько решений, которые стоит попробовать, но они сложны в использовании или дорогостоящи. К счастью, Whisper все изменил.

После описанных выше шагов вы должны быть готовы расшифровать или перевести свой голос с высокой точностью, используя только одну команду.