Comment convertir votre voix en texte avec Whisper pour Windows d'OpenAI

Whisper d'OpenAI est une nouvelle solution basée sur l'IA qui peut vous aider à convertir votre voix en texte d'une manière unique. Mieux encore, cela ne coûte rien.

Cependant, il y a un problème relativement mineur : l'installation et l'utilisation sont beaucoup plus difficiles avec un outil Windows normal. Surtout si vous souhaitez utiliser les cœurs Tensor de votre carte graphique Nvidia pour lui donner un bon coup de pouce. Vérifier Les meilleurs outils basés sur l'IA pour créer gratuitement de l'art photo à partir de votre écriture.

Comment convertir votre voix en texte avec Whisper d'OpenAI pour Windows - Windows

كيفية تحويل صوتك إلى نص باستخدام Whisper من OpenAI لـ Windows - الويندوز

Vous ne devriez pas désespérer, cependant. C'est pourquoi nous sommes ici ! Lisez la suite pour savoir comment l'installer et l'utiliser, mais aussi, si vous possédez une carte graphique Nvidia, nous vous montrerons comment Whisper peut en tirer parti.

Qu'est-ce que Whisper d'OpenAI ?

ChatGPT devient rapidement populaire parmi les utilisateurs, et nous avons déjà vu comment vous pouvez l'utiliser ChatGPT par OpenAI. Cependant, ce n'est pas le seul projet intéressant d'OpenAI.

Propulsé par l'apprentissage en profondeur et les réseaux de neurones, Whisper est un système de traitement du langage naturel capable de "comprendre" la parole et de la convertir en texte. Mais il propose également plusieurs configurations personnalisées dans son domaine, surpassant toutes les solutions similaires grâce à :

Whisper est une solution d'intelligence artificielle "formée" en langage naturel. Ainsi, comprendre le discours humain "normal" est meilleur que les anciennes solutions.
Whisper n'a pas d'interface et ne peut pas enregistrer d'audio. Il ne peut prendre que des fichiers audio existants et produire des fichiers texte.
Aussi bon qu'il soit pour «comprendre la langue», Whisper a également le meilleur absolu en matière de traduction automatique.
Whisper n'est pas un service en ligne et peut fonctionner complètement hors ligne.
Si vous avez une carte graphique Nvidia (GTX970 ou ultérieure), Whisper peut être exécuté en "mode matériel accéléré" pour accélérer sa réponse.
Il n'est pas nécessaire de s'enregistrer, d'acheter une licence ou d'acheter un abonnement.

Pourquoi la carte graphique AMD n'est-elle pas prise en charge ?

Pour que les GPU soient utiles pour plus que la simple sortie graphique, ils doivent fonctionner comme des processeurs entièrement programmables. C'est pourquoi Nvidia a créé l'architecture CUDA, qui est officiellement une "plate-forme informatique parallèle et un modèle de programmation".

CUDA est une technologie propriétaire Nvidia, compatible uniquement avec les GPU Nvidia. Ses alternatives les plus proches d'AMD sont OpenCL et Radeon Compute Platform.

Comparé aux alternatives, CUDA est plus mature, plus performant et plus facile à utiliser. Ainsi, la plupart des développeurs ne ciblent que CUDA, ce qui signifie que leurs applications ne profitent que des fonctionnalités matérielles des GPU Nvidia. Cela inclut Murmure. Vérifier Comparaison des cartes graphiques AMD et NVIDIA sous Linux: que devez-vous utiliser?

Comment télécharger et installer Whisper

Malheureusement, Whisper n'est pas une application autonome que vous pouvez télécharger, installer et exécuter normalement. Cela dépend des autres dépendances qui doivent également être installées.

Pour Windows, pour garder ce guide simple, nous utiliserons le très populaire Chocolatey pour installer la plupart des parties des applications nécessaires. Consultez notre guide sur Le moyen le plus rapide d'installer des applications Windows Pour plus d'informations sur Chocolatey.

Pour Linux et Mac, le processus d'installation (à l'exception de la variable de chemin Windows et des fichiers batch pratiques que nous allons créer) devrait être similaire.

Pour installer et utiliser Whisper, Python et son outil PIP doivent être installés et ajoutés à la variable "Path" de Windows. Pour plus d'informations à ce sujet, consultez notre article sur Comment installer Python PIP sur Windows et Mac et Linux.
Installer FFMPEG Via Chocolatey en utilisant cette commande :

choco install ffmpeg

Comment convertir votre voix en texte avec Whisper d'OpenAI pour Windows - Windows

Aussi, installez sa version Python avec :

pip3 install python-ffmpeg

Enfin, installez Whisper depuis sa page Github avec :

pip3 install git+https://github.com/openai/whisper.git

Obtenez une version de Whisper compatible CUDA

Bien que Whisper n'utilise pas principalement les GPU Nvidia, le package Torch sur lequel il est basé propose une version accélérée par CUDA. L'utiliser à la place de la version "normale" de Whisper peut aider les transcriptions à se terminer plus rapidement à l'aide d'une carte graphique Nvidia.

Pour Whisper, qui utilise CUDA de Nvidia :

Si vous avez déjà installé la version "vanille" de Torch, désinstallez-la et débarrassez-vous des fichiers restants en utilisant :

pip3 uninstall torch

Une fois cela fait, suivez-le avec la commande suivante :

pip cache purge

Installez la version compatible CUDA de Torch avec la commande :

pip3 install torch torchvision torchaudio — extra-index-url https://download.pytorch.org/whl/cu117

Comment convertir votre voix en texte avec Whisper d'OpenAI pour Windows - Windows

Pour vérifier si Whisper peut utiliser le GPU Nvidia :

whisper — help | findstr -i pytorch

Vous devriez voir (par défaut : cuda) au lieu de (par défaut : cpu). Vérifier Renforcer les raisons pour lesquelles ChatGPT ne prend pas votre travail de rédaction de contenu.

Que faire si Torch ne s'installe pas

Si vous rencontrez une erreur "Aucune version trouvée" lors de l'installation de Torch, vous devrez peut-être installer une ancienne version de Python parallèlement à votre version actuelle.

Utilisez cette commande pour le faire :

choco install python — version OLDER_VERSION — side-by-side

Remplacez "OLDER_VERSION" par une version comme 3.10.

Comment convertir votre voix en texte avec Whisper d'OpenAI pour Windows - Windows

Ensuite, utilisez le chemin de la version mineure pour toutes les commandes Whisper "globales" (par exemple, "c:\Python310\Scripts\pip.exeau lieu de simplement « pip »).

Comment enregistrer votre voix

Vous pouvez utiliser n'importe quelle application d'enregistrement audio pour convertir votre voix en un fichier WAV ou MP3. Windows inclut une telle application - pour plus d'informations à ce sujet, voir Comment l'utiliser Application d'enregistrement vocal sur Windows 10.

Pour une option complète, essayez Audacity. Apprenez à le faire avec notre guide sur Comment utiliser Audacity Pour enregistrer de l'audio sur Windows et Mac.

Comment convertir votre voix en texte avec Whisper d'OpenAI pour Windows - Windows

Comment commencer à écrire avec Whisper

Bien que Whisper ne soit pas livré avec une interface utilisateur graphique simple, son utilisation est très fluide.

Disons que nous avons un fichier LatestNote.mp3 de discours grec, dans le dossier c:\MyAudioFiles, et que nous voulons le traduire en anglais et le copier dans un fichier texte.

Nous commençons à courir Invite de commandes ou PowerShell.
Nous "changeons de répertoire" où le fichier audio est stocké avec cette commande :

cd C:\MyAudioFiles

Nous exécutons Whisper dans le fichier avec :

whisper — model base — language gr — task translate LatestNote.mp3

Comment convertir votre voix en texte avec Whisper d'OpenAI pour Windows - Windows

Une fois traité, le fichier texte (nommé "LatestNote.mp3.txt") apparaîtra dans le même dossier. Ouvrez-le dans un éditeur de texte tel que le Bloc-notes pour afficher le texte traduit.

Nous avons utilisé un exemple de traduction car la transcription en anglais est plus claire : utilisez simplement les balises "lose", "-language" et "-task". Ainsi, pour une transcription phonétique simple, la commande ci-dessus serait :

whisper — model base LatestNote.mp3

La balise "model" est obligatoire car Whisper utilise l'une des différentes options. Laissez-nous le développer pour vous aider à choisir celui qui répond le mieux à vos besoins. Vérifier Qu'est-ce que la fonction voix off ? Quel est son rôle et comment y travaillez-vous ?

Quel modèle choisir ?

Whisper propose différents modèles de langage. Plus le modèle est grand, plus sa précision est élevée, mais aussi plus ses exigences matérielles sont élevées. Lequel est:

Minuscule.
Base.
Petit
Medium.
Grand.

Les formes minuscules ou de base devraient convenir à la plupart des anglophones. Les anglophones non natifs peuvent voir de meilleurs résultats avec les modèles plus grands, tels que le Medium et le Large.

Notez cependant que les modèles Medium et Large nécessitent plus de 8 Go de VRAM (c'est-à-dire "la mémoire de votre GPU»).

Comment convertir votre voix en texte avec Whisper d'OpenAI pour Windows - Windows

Pour en sélectionner un, précisez le modèle après la touche « — modèle » dans la commande :

whisper — model tiny/small/medium/large [file]

Par exemple:

whisper — model small My_Voice_Note.mp3

Comment simplifier la transcription

Le fait de devoir taper l'intégralité de la commande Whisper chaque fois que vous souhaitez transcrire de l'audio peut rapidement devenir fastidieux. Créons un fichier batch accessible globalement pour simplifier le processus.

Lancez l'Explorateur Windows et visitez le lecteur C:.
Créez un dossier pour les scripts et copiez son chemin dans le presse-papiers.
Dans le menu Démarrer de Windows, recherchez et sélectionnez Chemin Modifier les variables d'environnement système.

Comment convertir votre voix en texte avec Whisper d'OpenAI pour Windows - Windows

je cherche Changeur de chemin dans les variables utilisateur pour YOUR_USERNAME. Double-cliquez dessus pour le modifier. Cliquez sur Nouveau , et collez le chemin d'accès à votre dossier de scripts. Cliquez sur OK pour accepter les modifications.

Comment convertir votre voix en texte avec Whisper d'OpenAI pour Windows - Windows

Revenez au dossier des scripts dans l'Explorateur Windows. Créez-y un nouveau fichier batch nommé "wht.bat". "A l'intérieur", ajoutez cette commande :

whisper — model tiny — language en %1

Comment convertir votre voix en texte avec Whisper d'OpenAI pour Windows - Windows

Créez deux fichiers batch, "whs" et "whm".
Ajoutez cette commande dans le premier fichier :

whisper — model small — language en %1

Ajoutez cette commande dans le deuxième fichier :

whisper — model medium — language en %1

Félicitations, vous disposez maintenant de trois fichiers pour utiliser facilement les modèles Whisper Small, Medium et Basic avec vos fichiers audio ! Pour convertir n'importe quel fichier audio en texte :

Localisez le fichier à l'aide de l'Explorateur de fichiers Windows.
Cliquez avec le bouton droit sur un espace vide et choisissez Ouvrir dans le terminal.
Tapez cette commande, en remplaçant « wht » par « whs » ou « whm » pour utiliser des formes de langage petites ou moyennes :

wht YOUR_AUDIO_FILE.mp3

Écrivez rapidement du contenu audio avec Whisper

Même les dactylographes les plus rapides ne peuvent pas égaler la vitesse à laquelle nous parlons. Cependant, jusqu'à récemment, parler plutôt qu'écrire n'était pas optimal pour créer des documents.

La plupart des solutions audio-texte ont produit des résultats médiocres. Vous pourriez trouver des solutions qui valaient la peine d'être essayées, mais qui étaient soit trop compliquées à utiliser, soit trop chères. Heureusement, Whisper a changé tout cela.

Après les étapes ci-dessus, vous devriez être prêt à transcrire ou traduire votre voix en haute définition, avec une seule commande. Vous pouvez voir maintenant Meilleures applications de conversion de voix en texte pour des notes, des réunions et des conférences.

source

Qu'est-ce que Whisper d'OpenAI ?

Pourquoi la carte graphique AMD n'est-elle pas prise en charge ?

Comment télécharger et installer Whisper

Obtenez une version de Whisper compatible CUDA

Que faire si Torch ne s'installe pas

Comment enregistrer votre voix

Comment commencer à écrire avec Whisper

Quel modèle choisir ?

Comment simplifier la transcription

Écrivez rapidement du contenu audio avec Whisper

Comparaison entre le Samsung Galaxy S23 Ultra et l'iPhone 14 Pro Max : quel est le meilleur ?

Qu'est-ce que l'arnaque "regarde qui vient de mourir" ? Voici la bonne façon d'y faire face

Articles connexes