symeon/transcription

Fork 0

forked from tykayn/transcription

Go to file

Tykayn 334cb218c2 add converters from mp3

2021-02-19 10:27:46 +01:00

.idea

change conversion and readme

2021-02-18 15:46:55 +01:00

input

change conversion and readme

2021-02-18 15:46:55 +01:00

models

add converters from mp3

2021-02-19 10:27:46 +01:00

output

init transcription repo with install instructions

2021-02-18 10:16:30 +01:00

.gitignore

add converters from mp3

2021-02-19 10:27:46 +01:00

clean.sh

add converters from mp3

2021-02-19 10:27:46 +01:00

conversion_simple_fr.py

init transcription repo with install instructions

2021-02-18 10:16:30 +01:00

convert_from_wav.sh

add converters from mp3

2021-02-19 10:27:46 +01:00

install.sh

update install script

2021-02-19 10:13:43 +01:00

LICENSE.md

init transcription repo with install instructions

2021-02-18 10:16:30 +01:00

Makefile

add converters from mp3

2021-02-19 10:27:46 +01:00

mp3_to_wav.sh

add converters from mp3

2021-02-19 10:27:46 +01:00

ogg_to_wav.sh

change conversion and readme

2021-02-18 15:46:55 +01:00

README.md

add converters from mp3

2021-02-19 10:27:46 +01:00

README.md

Transcription avec Vosk, par Tykayn

configuration pour transcrire des fichiers audio wav avec Vosk

mode d'emploi

installation

Prérequis

python3 (pour l'école serpentard)
pip (gestionnaire de paquets python)
git (gestion de version)
jq (pour le nettoyage de fichier json)
ffmpeg (pour la conversion vers wav) pour les installer avec aptitude

sudo apt install jq python3-pip git ffmpeg

cloner ce dépot dans un dossier de travail

git clone https://forge.chapril.org/tykayn/transcription.git && cd transcription

installer vosk via le MakeFile, nécessite python3 pip. une fois dans votre dossier de transcription fraîchement cloné, faites la commande:

make

mettre un fichier audio dans le dossier "input"
le convertir en wav mono (avec audacity par exemple)
lancer la transcription du wav mono. Une démo est disponible, extraite de l'émission Libre à vous!

make convert file=input/demo.wav

n'oubliez pas l'argument file=

la sortie texte de la transcription se trouve dans output output/converted_out_without_nulls.txt et devrait être affichée à la fin de l'exécution du script.

Précisions

vosk est capable de fournir d'autres informations comme la seconde de début et de fin de la phrase détectée. Cela pourrait être utile pour produire des fichiers de sous titre.
les locuteurs ne sont pas détectés, toutes les phrases sont dites sans cette précision.
si deux personnes parlent rapidement l'une après l'autre, vosk considèrera qu'il s'agit d'une seule phrase.
les transcriptions peuvent être faites pour plusieurs langues, il faudra modifier le fichier "conversion_simple_fr.py" si on veut autre chose que du Français.

évolutions possibles

convertir un fichier mp3 vers WAV mono avec ffmpeg.
nettoyer l'écho et normaliser le fichier audio.
permettre le traitement en masse de plusieurs fichiers de podcast et leur donner un output nommé comme le fichier d'entrée afin de les distinguer.

liens

podcast libre à vous
transcriptions libre à lire
message parlant de transcription dans la liste de diffusion de l'april
site officiel de Vosk : installation , modèles de langue
site cipherbliss.com
@tykayn sur Mastodon.