From 0afc6ffdcdda8b21ee6c8820c9376206edb28ec2 Mon Sep 17 00:00:00 2001 From: Tykayn Date: Thu, 18 Feb 2021 12:20:27 +0100 Subject: [PATCH] adapt readme --- Makefile | 8 +++++--- README.md | 44 +++++++++++++++++++++++++++++++++++++++----- 2 files changed, 44 insertions(+), 8 deletions(-) diff --git a/Makefile b/Makefile index c35c4f7..b5c11e8 100644 --- a/Makefile +++ b/Makefile @@ -1,3 +1,5 @@ -default: bash install.sh -install: bash install.sh -convert: bash convert_from_wav.sh +default: install +install: + bash install.sh +convert: + bash convert_from_wav.sh $1 diff --git a/README.md b/README.md index 4e695ac..275bced 100644 --- a/README.md +++ b/README.md @@ -1,11 +1,45 @@ -# transcription avec Vosk +# Transcription avec Vosk, par Tykayn configuration pour transcrire des fichiers audio wav avec Vosk ## mode d'emploi -* installer vosk, nécessite python3 pip. faites la commande: ** make install ** +### installation +#### Prérequis +* python3 +* pip +* git + +#### cloner ce dépot dans un dossier de travail +```bash +git clone ssh://gitea@forge.chapril.org:222/tykayn/transcription.git && cd transcription +``` + +* installer vosk via le MakeFile, nécessite python3 pip. faites la commande: +``` +make +``` * mettre un fichier audio dans le dossier "input" -* le convertir en wav mono -* lancer la transcription du wav mono -* la sortie texte de la transcription se trouve dans output +* le convertir en wav mono (avec audacity par exemple) +* lancer la transcription du wav mono. Une démo est disponible, extraite de l'émission Libre à vous! +``` +make convert input/demo.wav +``` +* la sortie texte de la transcription se trouve dans output `output/converted_out_without_nulls.txt` et devrait être affichée à la fin de l'exécution du script. + +# Précisions +* vosk est capable de fournir d'autres informations comme la seconde de début et de fin de la phrase détectée. Cela pourrait être utile pour produire des fichiers de sous titre. +* les locuteurs ne sont pas détectés, toutes les phrases sont dites sans cette précision. +* si deux personnes parlent rapidement l'une après l'autre, vosk considèrera qu'il s'agit d'une seule phrase. +* les transcriptions peuvent être faites pour plusieurs langues, il faudra modifier le fichier "conversion_simple_fr.py" si on veut autre chose que du Français. + +# évolutions possibles +- convertir un fichier mp3 vers WAV mono avec ffmpeg. +- nettoyer l'écho et normaliser le fichier audio. +- permettre le traitement en masse de plusieurs fichiers de podcast et leur donner un output nommé comme le fichier d'entrée afin de les distinguer. + +# liens +https://listes.april.org/wws/arc/transcriptions/2021-02/msg00016.html +https://alphacephei.com/vosk/install +https://www.cipherbliss.com/ +https://mastodon.cipherbliss.com/@tykayn