Cómo convertir tu voz a texto con Whisper de OpenAI para Windows

Whisper de OpenAI es una nueva solución impulsada por IA que puede ayudarlo a convertir su voz en texto de una manera única. Lo mejor de todo es que no tiene ningún costo.

Sin embargo, hay un problema relativamente menor: la instalación y el uso son mucho más difíciles con una herramienta normal de Windows. Especialmente si desea utilizar los núcleos Tensor de su tarjeta gráfica Nvidia para darle un buen impulso. Verificar Las mejores herramientas basadas en IA para crear arte fotográfico a partir de su escritura de forma gratuita.

Cómo convertir su voz a texto con Whisper de OpenAI para Windows - Windows

Sin embargo, no debes desesperarte. ¡Por eso estamos aquí! Siga leyendo para saber cómo instalarlo y usarlo, pero también, si tiene una tarjeta gráfica Nvidia, le mostraremos cómo Whisper puede aprovecharla.

¿Qué es Whisper de OpenAI?

ChatGPT se está volviendo popular rápidamente entre los usuarios, y ya hemos visto cómo puede usarlo ChatGPT por OpenAI. Sin embargo, no es el único proyecto interesante de OpenAI.

Con tecnología de aprendizaje profundo y redes neuronales, Whisper es un sistema de procesamiento de lenguaje natural que puede "entender" el habla y convertirla en texto. Pero también cuenta con varias configuraciones personalizadas en su campo, superando a todas las soluciones similares gracias a:

  1. Whisper es una solución de inteligencia artificial que está “entrenada” en lenguaje natural. Por lo tanto, comprender el habla humana "normal" es mejor que las soluciones anteriores.
  2. Whisper no viene con una interfaz, ni puede grabar audio. Solo puede tomar archivos de audio existentes y archivos de texto de salida.
  3. Tan bueno como es en "comprender el idioma", Whisper también tiene lo mejor en traducción automática.
  4. Whisper no es un servicio en línea y puede funcionar completamente fuera de línea.
  5. Si tiene una tarjeta gráfica Nvidia (GTX970 o posterior), Whisper se puede ejecutar en "modo acelerado por hardware" para acelerar su respuesta.
  6. No hay ningún requisito para registrarse, comprar una licencia o comprar una suscripción.

¿Por qué no se admite la tarjeta gráfica AMD?

Para que las GPU sean útiles para algo más que la salida de gráficos, deben funcionar como procesadores completamente programables. Es por eso que Nvidia creó la arquitectura CUDA, que es oficialmente una "plataforma de computación paralela y modelo de programación".

CUDA es una tecnología patentada de Nvidia, compatible solo con las GPU de Nvidia. Sus alternativas más cercanas de AMD son OpenCL y Radeon Compute Platform.

En comparación con las alternativas, CUDA es más maduro, de alto rendimiento y más fácil de usar. Por lo tanto, la mayoría de los desarrolladores solo se enfocan en CUDA, lo que a su vez significa que sus aplicaciones solo aprovechan las funciones de hardware en las GPU de Nvidia. Esto incluye Susurro. Verificar Comparación de tarjetas gráficas AMD vs NVIDIA en Linux: ¿Cuál debería usar?

Cómo descargar e instalar Whisper

Desafortunadamente, Whisper no es una aplicación independiente que pueda descargar, instalar y ejecutar normalmente. Depende de otras dependencias que también deben instalarse.

Para Windows, para simplificar esta guía, utilizaremos el popular Chocolatey para instalar la mayoría de las aplicaciones necesarias. Consulte nuestra guía sobre La forma más rápida de instalar aplicaciones de Windows Para más información sobre Chocolatey.

Tanto para Linux como para Mac, el proceso de instalación (a excepción de la variable de ruta de Windows y los prácticos archivos por lotes que crearemos) debería ser similar.

  • Para instalar y usar Whisper, Python y su herramienta PIP deben estar instalados y agregados a la variable "Ruta" de Windows. Para obtener información al respecto, consulte nuestro artículo sobre Cómo instalar Python PIP en Windows و mac y linux.
  • Instalar en pc FFMPEG A través de Chocolatey usando este comando:
choco install ffmpeg

Cómo convertir su voz a texto con Whisper de OpenAI para Windows - Windows

  • Además, instale su versión de Python con:
pip3 install python-ffmpeg
  • Finalmente, instala Whisper desde su página de Github con:
pip3 install git+https://github.com/openai/whisper.git

Obtenga una versión habilitada para CUDA de Whisper

Aunque Whisper no utiliza principalmente GPU Nvidia, el paquete Torch en el que se basa ofrece una versión acelerada por CUDA. Usarlo en lugar de la versión "normal" de Whisper puede ayudar a que las transcripciones se completen más rápido con la ayuda de una tarjeta gráfica Nvidia.

Para Whisper, que usa CUDA de Nvidia:

  • Si ya tiene instalada la versión "vainilla" de Torch, desinstálela y elimine los archivos sobrantes usando:
pip3 uninstall torch
  • Una vez hecho esto, síguelo con el siguiente comando:
pip cache purge
  • Instale la versión habilitada para CUDA de Torch con el comando:
pip3 install torch torchvision torchaudio — extra-index-url https://download.pytorch.org/whl/cu117

Cómo convertir su voz a texto con Whisper de OpenAI para Windows - Windows

  • Para verificar si Whisper puede usar GPU Nvidia:
whisper — help | findstr -i pytorch

Debería ver (predeterminado: cuda) en lugar de (predeterminado: cpu). Verificar Razones de refuerzo por las que ChatGPT no acepta su trabajo de redacción de contenido.

Qué hacer si Torch no se instala

Si encuentra un error de "No se encontró la versión" al instalar Torch, es posible que deba instalar una versión anterior de Python paralela a su versión actual.

Use este comando para hacerlo:

choco install python — version OLDER_VERSION — side-by-side

Reemplace "OLDER_VERSION" con una versión como 3.10.

Cómo convertir su voz a texto con Whisper de OpenAI para Windows - Windows

A continuación, use la ruta de la versión secundaria para todos los comandos de Whisper "globales" (p. ej., "c:\Python310\Scripts\pip.exeen lugar de solo "pip").

Cómo grabar tu voz

Puede usar cualquier aplicación de grabación de audio para convertir su voz a un archivo WAV o MP3. Windows incluye una aplicación de este tipo; para obtener más información al respecto, consulte Cómo usarla. Aplicación de grabadora de voz en Windows 10.

Para una opción con todas las funciones, pruebe Audacity. Aprende a hacer esto con nuestra guía sobre Cómo usar Audacia Para grabar audio en Windows y Mac.

Cómo convertir su voz a texto con Whisper de OpenAI para Windows - Windows

Cómo empezar a escribir con Whisper

Aunque Whisper no viene con una GUI simple, su uso es muy fluido.

Digamos que tenemos un archivo de voz griega LatestNote.mp3, en la carpeta c:\MyAudioFiles, y queremos traducirlo al inglés y copiarlo en un archivo de texto.

cd C:\MyAudioFiles
  • Ejecutamos Whisper en el archivo con:
whisper — model base — language gr — task translate LatestNote.mp3

Cómo convertir su voz a texto con Whisper de OpenAI para Windows - Windows

Una vez procesado, el archivo de texto (llamado "LatestNote.mp3.txt") aparecerá en la misma carpeta. Ábralo en un editor de texto como el Bloc de notas para ver el texto traducido.

Usamos una traducción de ejemplo porque la transcripción en inglés es más clara: solo use las etiquetas "perder", "-idioma" y "-tarea". Así, para una transcripción fonética simple, el comando anterior sería:

whisper — model base LatestNote.mp3

Se requiere la etiqueta "modelo" porque Whisper usa una de las diferentes opciones. Permítanos ampliarlo para ayudarlo a elegir el mejor para sus necesidades. Verificar ¿Qué es la función de voz en off? ¿Cuál es su papel y cómo se trabaja en él?

¿Qué modelo elegir?

Whisper ofrece diferentes modelos de lenguaje. Cuanto más grande sea el modelo, mayor será su precisión, pero también mayores serán sus requisitos de hardware. Cual es:

  • Minúsculo.
  • Establecido.
  • Pequeña.
  • Medio.
  • Grande.

Los formularios Tiny o Base deberían estar bien para la mayoría de los angloparlantes. Los hablantes no nativos de inglés pueden obtener mejores resultados con los modelos más grandes, como el Mediano y el Grande.

Tenga en cuenta, sin embargo, que los modelos Mediano y Grande requieren más de 8 GB de VRAM (es decir, “la memoria de tu GPU").

Cómo convertir su voz a texto con Whisper de OpenAI para Windows - Windows

Para seleccionar uno de ellos, especifique el modelo después de la tecla " — modelo" en el comando:

whisper — model tiny/small/medium/large [file]

por ejemplo:

whisper — model small My_Voice_Note.mp3

Cómo simplificar la transcripción

Tener que escribir todo el comando Whisper cada vez que desea transcribir un audio puede volverse tedioso rápidamente. Vamos a crear un archivo por lotes accesible globalmente para simplificar el proceso.

  • Inicie el Explorador de Windows y visite la unidad C:.
  • Cree una carpeta para scripts y copie su ruta al portapapeles.
  • En el menú Inicio de Windows, busque y seleccione Ruta Modificar las variables de entorno del sistema.

Cómo convertir su voz a texto con Whisper de OpenAI para Windows - Windows

  • Buscar cambiador de ruta dentro de las variables de usuario para YOUR_USERNAME. Haz doble clic sobre él para modificarlo. Hacer clic جديد y pegue la ruta a su carpeta de scripts. Haga clic en Aceptar para aceptar los cambios.

Cómo convertir su voz a texto con Whisper de OpenAI para Windows - Windows

  • Vuelva a la carpeta de scripts en el Explorador de Windows. Cree un nuevo archivo por lotes allí llamado "wht.bat". "Dentro de él", añade este comando:
whisper — model tiny — language en %1

Cómo convertir su voz a texto con Whisper de OpenAI para Windows - Windows

  • Cree dos archivos por lotes, "whs" y "whm".
  • Agregue este comando dentro del primer archivo:
whisper — model small — language en %1
  • Agregue este comando dentro del segundo archivo:
whisper — model medium — language en %1

¡Felicitaciones, ahora tiene tres archivos para usar fácilmente las plantillas Whisper Small, Medium y Basic con sus archivos de audio! Para convertir cualquier archivo de audio a texto:

  • Localice el archivo con el Explorador de archivos de Windows.
  • Haz clic derecho en un espacio vacío y elige Abrir en Terminal.
  • Escriba este comando, reemplazando "wht" con "whs" o "whm" para usar formas de lenguaje pequeñas o medianas:
wht YOUR_AUDIO_FILE.mp3

Escriba rápidamente contenido de audio con Whisper

Incluso los mecanógrafos más rápidos no pueden igualar la velocidad a la que hablamos. Sin embargo, hasta hace poco tiempo, hablar en lugar de escribir no era óptimo para crear documentos.

La mayoría de las soluciones de audio a texto han producido resultados mediocres. Podría encontrar algunas soluciones que valía la pena probar, pero que eran demasiado complicadas de usar o demasiado caras. Afortunadamente, Whisper ha cambiado todo eso.

Después de los pasos anteriores, debería estar listo para transcribir o traducir su voz en alta definición, con solo un comando. Puedes ver ahora Las mejores aplicaciones de voz a texto para tomar notas, reuniones y conferencias.

Ir al botón superior