Как преобразовать ваш голос в текст с помощью OpenAI Whisper для Windows

Whisper от OpenAI — это новое решение на основе искусственного интеллекта, которое поможет вам уникальным образом преобразовать ваш голос в текст. Лучше всего то, что это происходит бесплатно.

Однако есть относительно незначительная проблема: установка и использование с обычным инструментом Windows намного сложнее. Особенно, если вы хотите использовать ядра Tensor от вашей видеокарты Nvidia, чтобы придать ей хороший импульс. Проверять Лучшие инструменты на основе искусственного интеллекта для бесплатного создания фотоискусства из ваших текстов.

Как преобразовать голос в текст с помощью OpenAI Whisper для Windows - Windows

Однако не стоит отчаиваться. Вот почему мы здесь! Читайте дальше, чтобы узнать, как его установить и использовать, а также, если у вас есть видеокарта Nvidia, мы покажем вам, как Whisper может использовать ее преимущества.

Что такое Whisper от OpenAI?

ChatGPT быстро становится популярным среди пользователей, и мы уже видели, как его можно использовать. ChatGPT от OpenAI. Однако это не единственный интересный проект OpenAI.

Whisper — это система обработки естественного языка, основанная на глубоком обучении и нейронных сетях, которая может «понимать» речь и преобразовывать ее в текст. Но он также имеет несколько пользовательских конфигураций в своей области, превосходя все аналогичные решения благодаря:

  1. Whisper — это решение для искусственного интеллекта, которое «обучается» естественному языку. Итак, понимание «нормальной» человеческой речи лучше, чем старые решения.
  2. Whisper не имеет интерфейса и не может записывать звук. Он может принимать только существующие аудиофайлы и выводить текстовые файлы.
  3. Как бы он ни был хорош в «понимании языка», Whisper также обладает абсолютным превосходством в автоматическом переводе.
  4. Whisper не является онлайн-сервисом и может работать полностью в автономном режиме.
  5. Если у вас есть видеокарта Nvidia (GTX970 или новее), Whisper можно запустить в «режиме аппаратного ускорения», чтобы ускорить его реакцию.
  6. Нет необходимости регистрироваться, покупать лицензию или приобретать подписку.

Почему видеокарта AMD не поддерживается?

Чтобы графические процессоры были полезны не только для вывода графики, они должны функционировать как полностью программируемые процессоры. Вот почему Nvidia создала архитектуру CUDA, которая официально является «параллельной вычислительной платформой и моделью программирования».

CUDA — это запатентованная технология Nvidia, совместимая только с графическими процессорами Nvidia. Его ближайшими альтернативами от AMD являются OpenCL и Radeon Compute Platform.

По сравнению с альтернативами CUDA является более зрелой, высокопроизводительной и простой в использовании. Таким образом, большинство разработчиков нацелены только на CUDA, что, в свою очередь, означает, что их приложения используют только преимущества аппаратных функций графических процессоров Nvidia. Это включает в себя Whisper. Проверять Сравнение видеокарт AMD и NVIDIA в Linux: что лучше использовать?

Как скачать и установить Whisper

К сожалению, Whisper — это не отдельное приложение, которое можно скачать, установить и запустить как обычно. Это также зависит от других зависимостей, которые необходимо установить.

Для Windows, чтобы сделать это руководство простым, мы будем использовать широко популярный Chocolatey для установки большинства частей необходимых приложений. Смотрите наше руководство о Самый быстрый способ установить приложения для Windows Для получения дополнительной информации о Chocolatey.

Как для Linux, так и для Mac процесс установки (за исключением переменной пути Windows и удобных пакетных файлов, которые мы создадим) должен быть одинаковым.

  • Чтобы установить и использовать Whisper, необходимо установить Python и его инструмент PIP и добавить их в переменную «Путь» Windows. Подробнее об этом читайте в нашей статье Как установить Python PIP в Windows و Mac и Linux.
  • установить FFMPEG Через Chocolatey с помощью этой команды:
choco install ffmpeg

Как преобразовать голос в текст с помощью OpenAI Whisper для Windows - Windows

  • Кроме того, установите его версию Python с помощью:
pip3 install python-ffmpeg
  • Наконец, установите Whisper со своей страницы Github с помощью:
pip3 install git+https://github.com/openai/whisper.git

Получите версию Whisper с поддержкой CUDA

Хотя Whisper в основном не использует графические процессоры Nvidia, пакет Torch, на котором он основан, предлагает версию с ускорением CUDA. Использование его вместо «обычной» версии Whisper может ускорить транскрипцию с помощью графической карты Nvidia.

Для Whisper, использующего CUDA от Nvidia:

  • Если у вас уже установлена ​​«ванильная» версия Torch, удалите ее и избавьтесь от оставшихся файлов, используя:
pip3 uninstall torch
  • После этого выполните следующую команду:
pip cache purge
  • Установите версию Torch с поддержкой CUDA с помощью команды:
pip3 install torch torchvision torchaudio — extra-index-url https://download.pytorch.org/whl/cu117

Как преобразовать голос в текст с помощью OpenAI Whisper для Windows - Windows

  • Чтобы проверить, может ли Whisper использовать графический процессор Nvidia:
whisper — help | findstr -i pytorch

Вы должны увидеть (по умолчанию: cuda) вместо (по умолчанию: процессор). Проверять Веские причины, по которым ChatGPT не берет вас на работу по написанию контента.

Что делать, если Torch не устанавливается

Если при установке Torch вы столкнулись с ошибкой «Версия не найдена», вам может потребоваться установить более старую версию Python параллельно с вашей текущей версией.

Используйте эту команду, чтобы сделать это:

choco install python — version OLDER_VERSION — side-by-side

Замените «OLDER_VERSION» версией, например, 3.10.

Как преобразовать голос в текст с помощью OpenAI Whisper для Windows - Windows

Затем используйте путь дополнительной версии для всех «глобальных» команд Whisper (например, «c:\Python310\Scripts\pip.exeвместо просто «пип»).

Как записать свой голос

Вы можете использовать любое приложение для записи звука, чтобы преобразовать свой голос в файл WAV или MP3. В Windows есть такое приложение — дополнительные сведения о нем см. в разделе Как им пользоваться. Приложение для записи голоса в Windows 10.

Для полнофункционального варианта попробуйте Audacity. Узнайте, как это сделать, из нашего руководства по Как использовать Аудасити Для записи звука на Windows и Mac.

Как преобразовать голос в текст с помощью OpenAI Whisper для Windows - Windows

Как начать писать с Whisper

Хотя Whisper не имеет простого графического пользовательского интерфейса, его использование очень удобно.

Допустим, у нас есть файл LatestNote.mp3 с греческой речью в папке c:\MyAudioFiles, и мы хотим перевести его на английский язык и скопировать в текстовый файл.

cd C:\MyAudioFiles
  • Запускаем Whisper в файле с:
whisper — model base — language gr — task translate LatestNote.mp3

Как преобразовать голос в текст с помощью OpenAI Whisper для Windows - Windows

После обработки текстовый файл (с именем «LatestNote.mp3.txt») появится в той же папке. Откройте его в текстовом редакторе, например Блокноте, чтобы просмотреть переведенный текст.

Мы использовали пример перевода, потому что английская транскрипция более понятна: просто используйте теги «lose», «-language» и «-task». Таким образом, для простой фонетической транскрипции приведенная выше команда будет выглядеть так:

whisper — model base LatestNote.mp3

Тег «модель» необходим, поскольку Whisper использует один из вариантов. Позвольте нам расширить его, чтобы помочь вам выбрать лучший для ваших нужд. Проверять Что за функция озвучивания? Какова его роль и как вы в нем работаете?

Какую модель выбрать?

Whisper предлагает различные языковые модели. Чем крупнее модель, тем выше ее точность, но и выше требования к оборудованию. Который:

  • Крошечный.
  • База.
  • Маленький.
  • Medium.
  • Большой.

Миниатюрные или базовые формы подойдут большинству носителей английского языка. Для тех, для кого английский язык не является родным, результаты могут быть лучше с более крупными моделями, такими как Medium и Large.

Обратите внимание, однако, что модели Medium и Large требуют более 8 ГБ видеопамяти (т. е. «память вашего графического процессора").

Как преобразовать голос в текст с помощью OpenAI Whisper для Windows - Windows

Чтобы выбрать один из них, укажите модель после ключа «— model» в команде:

whisper — model tiny/small/medium/large [file]

Например:

whisper — model small My_Voice_Note.mp3

Как упростить транскрипцию

Необходимость вводить всю команду Whisper каждый раз, когда вы хотите расшифровать какой-либо звук, может быстро стать утомительной. Давайте создадим глобально доступный пакетный файл, чтобы упростить процесс.

  • Запустите проводник Windows и посетите диск C:.
  • Создайте папку для скриптов и скопируйте ее путь в буфер обмена.
  • В меню «Пуск» Windows найдите и выберите «Путь». Изменить системные переменные среды.

Как преобразовать голос в текст с помощью OpenAI Whisper для Windows - Windows

  • Ищу Смена пути в пользовательских переменных для YOUR_USERNAME. Дважды щелкните по нему, чтобы изменить его. Нажмите Новое и вставьте путь к папке со скриптами. Нажмите OK, чтобы принять изменения.

Как преобразовать голос в текст с помощью OpenAI Whisper для Windows - Windows

  • Вернитесь в папку сценариев в проводнике Windows. Создайте там новый пакетный файл с именем «wht.bat». «Внутри него» добавьте эту команду:
whisper — model tiny — language en %1

Как преобразовать голос в текст с помощью OpenAI Whisper для Windows - Windows

  • Создайте два пакетных файла, «whs» и «whm».
  • Добавьте эту команду в первый файл:
whisper — model small — language en %1
  • Добавьте эту команду во второй файл:
whisper — model medium — language en %1

Поздравляем, теперь у вас есть три файла, чтобы легко использовать шаблоны Whisper Small, Medium и Basic со своими аудиофайлами! Чтобы преобразовать любой аудиофайл в текст:

  • Найдите файл с помощью проводника Windows.
  • Щелкните правой кнопкой мыши пустое место и выберите «Открыть в терминале».
  • Введите эту команду, заменив «wht» на «whs» или «whm», чтобы использовать маленькие или средние языковые формы:
wht YOUR_AUDIO_FILE.mp3

Быстро записывайте аудиоконтент с помощью Whisper

Даже самые быстрые машинистки не могут сравниться со скоростью, с которой мы говорим. Однако до недавнего времени устная речь, а не письменная речь не была оптимальной для создания документов.

Большинство решений для преобразования аудио в текст дали посредственные результаты. Вы могли найти некоторые решения, которые стоило попробовать, но они были либо слишком сложны в использовании, либо слишком дороги. К счастью, Whisper все изменил.

После описанных выше шагов вы должны быть готовы транскрибировать или переводить свой голос в высоком разрешении с помощью всего одной команды. Вы можете просмотреть сейчас Лучшие приложения для преобразования голоса в текст для заметок, встреч и лекций.

Перейти к верхней кнопке