configuration pour transcrire des fichiers audio wav avec Vosk
Go to file
2021-02-18 15:46:55 +01:00
.idea change conversion and readme 2021-02-18 15:46:55 +01:00
input change conversion and readme 2021-02-18 15:46:55 +01:00
output init transcription repo with install instructions 2021-02-18 10:16:30 +01:00
.gitignore change conversion and readme 2021-02-18 15:46:55 +01:00
conversion_simple_fr.py init transcription repo with install instructions 2021-02-18 10:16:30 +01:00
convert_from_wav.sh change conversion and readme 2021-02-18 15:46:55 +01:00
install.sh init transcription repo with install instructions 2021-02-18 10:16:30 +01:00
LICENSE.md init transcription repo with install instructions 2021-02-18 10:16:30 +01:00
Makefile change conversion and readme 2021-02-18 15:46:55 +01:00
ogg_to_wav.sh change conversion and readme 2021-02-18 15:46:55 +01:00
README.md change conversion and readme 2021-02-18 15:46:55 +01:00

Transcription avec Vosk, par Tykayn

configuration pour transcrire des fichiers audio wav avec Vosk

mode d'emploi

installation

Prérequis

  • python3
  • pip
  • git

cloner ce dépot dans un dossier de travail

git clone https://forge.chapril.org/tykayn/transcription.git && cd transcription
  • installer vosk via le MakeFile, nécessite python3 pip. une fois dans votre dossier de transcription fraîchement cloné, faites la commande:
make
  • mettre un fichier audio dans le dossier "input"
  • le convertir en wav mono (avec audacity par exemple)
  • lancer la transcription du wav mono. Une démo est disponible, extraite de l'émission Libre à vous!
make convert file=input/demo.wav

n'oubliez pas l'argument file=

  • la sortie texte de la transcription se trouve dans output output/converted_out_without_nulls.txt et devrait être affichée à la fin de l'exécution du script.

Précisions

  • vosk est capable de fournir d'autres informations comme la seconde de début et de fin de la phrase détectée. Cela pourrait être utile pour produire des fichiers de sous titre.
  • les locuteurs ne sont pas détectés, toutes les phrases sont dites sans cette précision.
  • si deux personnes parlent rapidement l'une après l'autre, vosk considèrera qu'il s'agit d'une seule phrase.
  • les transcriptions peuvent être faites pour plusieurs langues, il faudra modifier le fichier "conversion_simple_fr.py" si on veut autre chose que du Français.

évolutions possibles

  • convertir un fichier mp3 vers WAV mono avec ffmpeg.
  • nettoyer l'écho et normaliser le fichier audio.
  • permettre le traitement en masse de plusieurs fichiers de podcast et leur donner un output nommé comme le fichier d'entrée afin de les distinguer.

liens