Como converter sua voz em texto com o Whisper da OpenAI para Windows

O Whisper da OpenAI é uma nova solução baseada em IA que pode ajudá-lo a converter sua voz em texto de uma maneira única. O melhor de tudo é que não tem nenhum custo.

No entanto, há um problema relativamente menor: a instalação e o uso são muito mais difíceis com uma ferramenta normal do Windows. Especialmente se você quiser usar os núcleos Tensor da sua placa de vídeo Nvidia para dar um bom impulso. Verificar As melhores ferramentas baseadas em IA para criar arte fotográfica a partir de sua escrita gratuitamente.

Como converter sua voz em texto com o Whisper da OpenAI para Windows - Windows

Você não deve se desesperar, no entanto. É por isso que estamos aqui! Continue lendo para saber como instalá-lo e usá-lo, mas também, se você possui uma placa de vídeo Nvidia, mostraremos como o Whisper pode tirar proveito disso.

O que é o Whisper da OpenAI?

O ChatGPT está se popularizando rapidamente entre os usuários e já vimos como você pode usá-lo ChatGPT da OpenAI. No entanto, não é o único projeto interessante da OpenAI.

Alimentado por aprendizado profundo e redes neurais, o Whisper é um sistema de processamento de linguagem natural que pode "entender" a fala e convertê-la em texto. Mas também apresenta várias configurações personalizadas em seu campo, superando todas as soluções similares graças a:

O Whisper é uma solução de inteligência artificial “treinada” em linguagem natural. Portanto, entender a fala humana "normal" é melhor do que as soluções antigas.
O Whisper não vem com interface, nem grava áudio. Ele só pode levar arquivos de áudio existentes e arquivos de texto de saída.
Tão bom quanto “entender o idioma”, o Whisper também é o melhor em tradução automática.
O Whisper não é um serviço online e pode funcionar totalmente offline.
Se você tiver uma placa gráfica Nvidia (GTX970 ou posterior), o Whisper pode ser executado no "modo acelerado por hardware" para acelerar sua resposta.
Não há necessidade de se registrar, comprar uma licença ou comprar uma assinatura.

Por que a placa de vídeo AMD não é suportada?

Para que as GPUs sejam úteis para mais do que apenas saída gráfica, elas devem funcionar como processadores totalmente programáveis. É por isso que a Nvidia criou a arquitetura CUDA, que é oficialmente uma "plataforma de computação paralela e modelo de programação".

CUDA é uma tecnologia proprietária da Nvidia, compatível apenas com GPUs Nvidia. Suas alternativas mais próximas da AMD são OpenCL e Radeon Compute Platform.

Comparado com as alternativas, o CUDA é mais maduro, de alto desempenho e mais fácil de usar. Assim, a maioria dos desenvolvedores visa apenas o CUDA, o que, por sua vez, significa que seus aplicativos aproveitam apenas os recursos de hardware das GPUs da Nvidia. Isso inclui Sussurro. Verificar Comparação das placas de vídeo AMD e NVIDIA no Linux: qual você deve usar?

Como baixar e instalar o Whisper

Infelizmente, o Whisper não é um aplicativo independente que você pode baixar, instalar e executar normalmente. Depende de outras dependências que precisam ser instaladas também.

Para Windows, para simplificar este guia, usaremos o amplamente popular Chocolatey para instalar a maioria dos aplicativos necessários. Veja nosso guia sobre A maneira mais rápida de instalar aplicativos do Windows Para mais informações sobre Chocolatey.

Para Linux e Mac, o processo de instalação (exceto para a variável de caminho do Windows e arquivos de lote úteis que criaremos) deve ser semelhante.

Para instalar e usar o Whisper, o Python e sua ferramenta PIP devem ser instalados e adicionados à variável "Path" do Windows. Para obter informações sobre isso, consulte nosso artigo sobre Como instalar o Python PIP no Windows و Mac e Linux.
Instalar FFMPEG Através do Chocolatey usando este comando:

choco install ffmpeg

Como converter sua voz em texto com o Whisper da OpenAI para Windows - Windows

Além disso, instale sua versão Python com:

pip3 install python-ffmpeg

Por fim, instale o Whisper em sua página do Github com:

pip3 install git+https://github.com/openai/whisper.git

Obtenha uma versão habilitada para CUDA do Whisper

Embora o Whisper não use principalmente GPUs Nvidia, o pacote Torch no qual se baseia oferece uma versão acelerada por CUDA. Usá-lo no lugar da versão "regular" do Whisper pode ajudar as transcrições a serem concluídas mais rapidamente com a ajuda de uma placa de vídeo Nvidia.

Para Whisper, que usa CUDA da Nvidia:

Se você já tem a versão "vanilla" do Torch instalada, desinstale-a e elimine os arquivos restantes usando:

pip3 uninstall torch

Uma vez feito, siga-o com o seguinte comando:

pip cache purge

Instale a versão habilitada para CUDA do Torch com o comando:

pip3 install torch torchvision torchaudio — extra-index-url https://download.pytorch.org/whl/cu117

Como converter sua voz em texto com o Whisper da OpenAI para Windows - Windows

Para verificar se o Whisper pode usar GPU Nvidia:

whisper — help | findstr -i pytorch

Você deve ver (padrão: cuda) em vez de (padrão: cpu). Verificar Reforçando os motivos pelos quais o ChatGPT não aceita seu trabalho de redação de conteúdo.

O que fazer se o Torch não for instalado

Se você encontrar um erro “Nenhuma versão encontrada” durante a instalação do Torch, talvez seja necessário instalar uma versão mais antiga do Python paralela à sua versão atual.

Use este comando para fazer isso:

choco install python — version OLDER_VERSION — side-by-side

Substitua “OLDER_VERSION” por uma versão como 3.10.

Como converter sua voz em texto com o Whisper da OpenAI para Windows - Windows

Em seguida, use o caminho da versão secundária para todos os comandos Whisper "globais" (por exemplo, "c:\Python310\Scripts\pip.exeem vez de apenas “pip”).

Como gravar sua voz

Você pode usar qualquer aplicativo de gravação de áudio para converter sua voz em um arquivo WAV ou MP3. O Windows inclui esse aplicativo — para obter mais informações sobre ele, consulte Como usá-lo Aplicativo gravador de voz no Windows 10.

Para uma opção completa, experimente o Audacity. Aprenda como fazer isso com nosso guia sobre Como usar o Audacity Para gravar áudio no Windows e Mac.

Como converter sua voz em texto com o Whisper da OpenAI para Windows - Windows

Como começar a escrever com Whisper

Embora o Whisper não venha com uma interface gráfica de usuário simples, seu uso é muito suave.

Digamos que temos um arquivo LatestNote.mp3 de fala grega, na pasta c:\MyAudioFiles, e queremos traduzi-lo para o inglês e copiá-lo para um arquivo de texto.

começamos a correr Prompt de Comando ou PowerShell.
Nós “mudamos o diretório” onde o arquivo de áudio está armazenado com este comando:

cd C:\MyAudioFiles

Executamos o Whisper no arquivo com:

whisper — model base — language gr — task translate LatestNote.mp3

Como converter sua voz em texto com o Whisper da OpenAI para Windows - Windows

Depois de processado, o arquivo de texto (denominado “LatestNote.mp3.txt”) aparecerá na mesma pasta. Abra-o em um editor de texto como o Bloco de Notas para visualizar o texto traduzido.

Usamos uma tradução de exemplo porque a transcrição em inglês é mais clara: basta usar as tags “lose”, “–language” e “-task”. Assim, para uma transcrição fonética simples, o comando acima seria:

whisper — model base LatestNote.mp3

A tag “model” é necessária porque o Whisper usa uma das diferentes opções. Vamos expandi-lo para ajudá-lo a escolher o melhor para suas necessidades. Verificar O que é a função de narração? Qual é o seu papel e como você trabalha nele?

Qual modelo escolher?

O Whisper oferece diferentes modelos de linguagem. Quanto maior o modelo, maior sua precisão, mas também maiores seus requisitos de hardware. Qual é:

Minúsculo.
Base.
Pequeno.
Médio.
Ampla.

Os formulários Tiny ou Base devem ser adequados para a maioria dos falantes de inglês. Os falantes de inglês não nativos podem obter melhores resultados com os modelos maiores, como o Médio e o Grande.

Observe, no entanto, que os modelos Médio e Grande requerem mais de 8 GB de VRAM (ou seja, “a memória da sua GPU").

Como converter sua voz em texto com o Whisper da OpenAI para Windows - Windows

Para selecionar um deles, especifique o modelo após a tecla “—model” no comando:

whisper — model tiny/small/medium/large [file]

Por exemplo:

whisper — model small My_Voice_Note.mp3

Como simplificar a transcrição

Ter que digitar todo o comando Whisper toda vez que você deseja transcrever algum áudio pode se tornar entediante rapidamente. Vamos criar um arquivo em lote acessível globalmente para simplificar o processo.

Inicie o Windows Explorer e visite a unidade C:.
Crie uma pasta para scripts e copie seu caminho para a área de transferência.
No menu Iniciar do Windows, procure e selecione Caminho Modifique as variáveis de ambiente do sistema.

Como converter sua voz em texto com o Whisper da OpenAI para Windows - Windows

Olhe para Trocador de caminho nas variáveis de usuário para YOUR_USERNAME. Clique duas vezes nele para modificá-lo. Clique جديد e cole o caminho para a pasta de scripts. Clique em OK para aceitar as alterações.

Como converter sua voz em texto com o Whisper da OpenAI para Windows - Windows

Volte para a pasta de scripts no Windows Explorer. Crie um novo arquivo em lote chamado “wht.bat”. "Dentro dele", adicione este comando:

whisper — model tiny — language en %1

Como converter sua voz em texto com o Whisper da OpenAI para Windows - Windows

Crie dois arquivos em lote, “whs” e “whm”.
Adicione este comando dentro do primeiro arquivo:

whisper — model small — language en %1

Adicione este comando dentro do segundo arquivo:

whisper — model medium — language en %1

Parabéns, agora você tem três arquivos para usar facilmente os modelos Whisper Small, Medium e Basic com seus arquivos de áudio! Para converter qualquer arquivo de áudio em texto:

Localize o arquivo usando o Windows File Explorer.
Clique com o botão direito do mouse em um espaço vazio e escolha Abrir no Terminal.
Digite este comando, substituindo “wht” por “whs” ou “whm” para usar formas de linguagem pequenas ou médias:

wht YOUR_AUDIO_FILE.mp3

Escreva conteúdo de áudio rapidamente com o Whisper

Mesmo os digitadores mais rápidos não conseguem igualar a velocidade com que falamos. No entanto, até recentemente, falar em vez de escrever não era o ideal para a criação de documentos.

A maioria das soluções de áudio para texto produziu resultados medíocres. Você poderia encontrar algumas soluções que valiam a pena tentar, mas eram muito complicadas de usar ou muito caras. Felizmente, Whisper mudou tudo isso.

Após os passos acima, você deve estar pronto para transcrever ou traduzir sua voz em alta definição, com apenas um comando. Você pode ver agora Melhores aplicativos de áudio para texto para fazer anotações, reuniões e palestras.

O que é o Whisper da OpenAI?

Por que a placa de vídeo AMD não é suportada?

Como baixar e instalar o Whisper

Obtenha uma versão habilitada para CUDA do Whisper

O que fazer se o Torch não for instalado

Como gravar sua voz

Como começar a escrever com Whisper

Qual modelo escolher?

Como simplificar a transcrição

Escreva conteúdo de áudio rapidamente com o Whisper

Comparação entre Samsung Galaxy S23 Ultra e iPhone 14 Pro Max: Qual é melhor?

O que é o golpe "olha quem acabou de morrer"? Aqui está a maneira certa de lidar com isso

Artigos relacionados