configuration pour transcrire des fichiers audio wav avec Vosk

Go to file

Tykayn 27765e243d add doc for other models		2022-04-12 10:45:53 +02:00
.idea	check file exists	2021-08-18 16:26:49 +02:00
input	check file exists	2021-08-18 16:26:49 +02:00
models	check file exists	2021-08-18 16:26:49 +02:00
output	check file exists	2021-08-18 16:26:49 +02:00
website	check file exists	2021-08-18 16:26:49 +02:00
.gitignore	Merge branch 'master' of https://forge.chapril.org/tykayn/transcription	2022-04-12 09:25:54 +02:00
clean.sh	check file exists	2021-08-18 16:26:49 +02:00
conversion_simple_en.py	check file exists	2021-08-18 16:26:49 +02:00
conversion_simple_fr.py	check file exists	2021-08-18 16:26:49 +02:00
extract_srt_en.py	check file exists	2021-08-18 16:26:49 +02:00
extract_srt.py	add doc for other models	2022-04-12 10:45:53 +02:00
inputs_to_wav.sh	check file exists	2021-08-18 16:26:49 +02:00
install.sh	add doc for other models	2022-04-12 10:45:53 +02:00
LICENSE.md	check file exists	2021-08-18 16:26:49 +02:00
log_ydl.txt	check file exists	2021-08-18 16:26:49 +02:00
Makefile	check file exists	2021-08-18 16:26:49 +02:00
README.md	add doc for other models	2022-04-12 10:45:53 +02:00
transcript.sh	préciser le temps pris par la conversion en sous titre	2022-04-12 10:17:44 +02:00
wav_to_wav_mono.sh	check file exists	2021-08-18 16:26:49 +02:00
webm_to_wav.sh	check file exists	2021-08-18 16:26:49 +02:00

Transcription avec Vosk, par Tykayn

configuration pour transcrire des fichiers audio wav avec Vosk

Mode d'emploi

pour les installer avec aptitude

sudo apt install jq python3-pip git ffmpeg

git clone https://forge.chapril.org/tykayn/transcription.git && cd transcription

installer vosk via le MakeFile, vérifiez les prérequis ci-dessus. une fois dans votre dossier de transcription fraîchement cloné, faites la commande:

make

  make wav

lancer la transcription du wav mono. Une démo est disponible, extraite de l'émission Libre à vous!

make convert file=input/demo.wav

n'oubliez pas l'argument file=

la sortie texte de la transcription se trouve dans output output/demo/4_phrases.txt et devrait être affichée à la fin de l'exécution du script. Chaque fichier transcrit a un sous-dossier de son nom dans le dossier output. Ainsi, pour la démo qui se trouve dans input/demo.wav, les fichiers de transcription sont dans output/demo/

vosk est capable de fournir d'autres informations comme la seconde de début et de fin de la phrase détectée. Cela pourrait être utile pour produire des fichiers de sous titre. Cela a été ajouté dans un script perl grâce à @r_a@framapiaf.org
les locuteurs ne sont pas détectés, toutes les phrases sont dites sans cette précision.
si deux personnes parlent rapidement l'une après l'autre, vosk considèrera qu'il s'agit d'une seule phrase.
les transcriptions peuvent être faites pour plusieurs langues, il faudra modifier le fichier "conversion_simple_fr.py" si on veut autre chose que du Français.

convertir un fichier mp3 vers WAV mono avec ffmpeg.
nettoyer l'écho et normaliser le fichier audio.
permettre le traitement en masse de plusieurs fichiers de podcast et leur donner un output nommé comme le fichier d'entrée afin de les distinguer.

Other models Other places where you can check for models which might be compatible: