transcription/README.md

# Transcription avec Vosk, par Tykayn

configuration pour transcrire des fichiers audio wav avec Vosk

## mode d'emploi

### installation
#### Prérequis
* python3 (pour l'école serpentard)
* pip (gestionnaire de paquets python)
* git (gestion de version)
* jq (pour le nettoyage de fichier json)
* ffmpeg (pour la conversion vers wav)
pour les installer avec aptitude
```
sudo apt install jq python3-pip git ffmpeg
```

#### cloner ce dépot dans un dossier de travail
```bash
git clone https://forge.chapril.org/tykayn/transcription.git && cd transcription
```

* installer vosk via le MakeFile, nécessite python3 pip. une fois dans votre dossier de transcription fraîchement cloné, faites la commande:
```
make
```
* mettre un fichier audio dans le dossier "input"
* le convertir en wav mono (avec audacity par exemple)
* lancer la transcription du wav mono. Une démo est disponible, extraite de l'émission Libre à vous!
```
make convert file=input/demo.wav
```
n'oubliez pas l'argument `file=`


* la sortie texte de la transcription se trouve dans output `output/converted_out_without_nulls.txt` et devrait être affichée à la fin de l'exécution du script.
 
# Précisions
* vosk est capable de fournir d'autres informations comme la seconde de début et de fin de la phrase détectée. Cela pourrait être utile pour produire des fichiers de sous titre.
* les locuteurs ne sont pas détectés, toutes les phrases sont dites sans cette précision.
* si deux personnes parlent rapidement l'une après l'autre, vosk considèrera qu'il s'agit d'une seule phrase.
* les transcriptions peuvent être faites pour plusieurs langues, il faudra modifier le fichier "conversion_simple_fr.py" si on veut autre chose que du Français.

# évolutions possibles
- convertir un fichier mp3 vers WAV mono avec ffmpeg.
- nettoyer l'écho et normaliser le fichier audio.
- permettre le traitement en masse de plusieurs fichiers de podcast et leur donner un output nommé comme le fichier d'entrée afin de les distinguer.

# liens
* [podcast libre à vous](https://cause-commune.fm/podcastfilter/libre-a-vous/)
* [transcriptions libre à lire](https://www.librealire.org)
* [message parlant de transcription dans la liste de diffusion de l'april](https://listes.april.org/wws/arc/transcriptions/2021-02/msg00016.html)
* site officiel de [Vosk : installation](https://alphacephei.com/vosk/install) , [modèles de langue](https://alphacephei.com/vosk/models)
* [site cipherbliss.com](https://www.cipherbliss.com/)
* [@tykayn](https://mastodon.cipherbliss.com/@tykayn) sur Mastodon.
adapt readme 2021-02-18 12:20:27 +01:00			`# Transcription avec Vosk, par Tykayn`
init transcription repo with install instructions 2021-02-18 10:16:30 +01:00
			`configuration pour transcrire des fichiers audio wav avec Vosk`

			`## mode d'emploi`

adapt readme 2021-02-18 12:20:27 +01:00			`### installation`
			`#### Prérequis`
add converters from mp3 2021-02-19 10:27:46 +01:00			`* python3 (pour l'école serpentard)`
			`* pip (gestionnaire de paquets python)`
			`* git (gestion de version)`
			`* jq (pour le nettoyage de fichier json)`
			`* ffmpeg (pour la conversion vers wav)`
add jq 2021-02-18 18:26:26 +01:00			`pour les installer avec aptitude`
			```
add converters from mp3 2021-02-19 10:27:46 +01:00			`sudo apt install jq python3-pip git ffmpeg`
add jq 2021-02-18 18:26:26 +01:00			```
adapt readme 2021-02-18 12:20:27 +01:00
			`#### cloner ce dépot dans un dossier de travail`
			```bash
change git clone to https 2021-02-18 13:28:17 +01:00			`git clone https://forge.chapril.org/tykayn/transcription.git && cd transcription`
adapt readme 2021-02-18 12:20:27 +01:00			```

change conversion and readme 2021-02-18 15:46:55 +01:00			`* installer vosk via le MakeFile, nécessite python3 pip. une fois dans votre dossier de transcription fraîchement cloné, faites la commande:`
adapt readme 2021-02-18 12:20:27 +01:00			```
			`make`
			```
init transcription repo with install instructions 2021-02-18 10:16:30 +01:00			`* mettre un fichier audio dans le dossier "input"`
adapt readme 2021-02-18 12:20:27 +01:00			`* le convertir en wav mono (avec audacity par exemple)`
			`* lancer la transcription du wav mono. Une démo est disponible, extraite de l'émission Libre à vous!`
			```
change conversion and readme 2021-02-18 15:46:55 +01:00			`make convert file=input/demo.wav`
adapt readme 2021-02-18 12:20:27 +01:00			```
change conversion and readme 2021-02-18 15:46:55 +01:00			n'oubliez pas l'argument `file=`


adapt readme 2021-02-18 12:20:27 +01:00			* la sortie texte de la transcription se trouve dans output `output/converted_out_without_nulls.txt` et devrait être affichée à la fin de l'exécution du script.

			`# Précisions`
			`* vosk est capable de fournir d'autres informations comme la seconde de début et de fin de la phrase détectée. Cela pourrait être utile pour produire des fichiers de sous titre.`
			`* les locuteurs ne sont pas détectés, toutes les phrases sont dites sans cette précision.`
			`* si deux personnes parlent rapidement l'une après l'autre, vosk considèrera qu'il s'agit d'une seule phrase.`
			`* les transcriptions peuvent être faites pour plusieurs langues, il faudra modifier le fichier "conversion_simple_fr.py" si on veut autre chose que du Français.`

			`# évolutions possibles`
			`- convertir un fichier mp3 vers WAV mono avec ffmpeg.`
			`- nettoyer l'écho et normaliser le fichier audio.`
			`- permettre le traitement en masse de plusieurs fichiers de podcast et leur donner un output nommé comme le fichier d'entrée afin de les distinguer.`

			`# liens`
links update 2021-02-18 13:42:02 +01:00			`* [podcast libre à vous](https://cause-commune.fm/podcastfilter/libre-a-vous/)`
			`* [transcriptions libre à lire](https://www.librealire.org)`
			`* [message parlant de transcription dans la liste de diffusion de l'april](https://listes.april.org/wws/arc/transcriptions/2021-02/msg00016.html)`
			`* site officiel de [Vosk : installation](https://alphacephei.com/vosk/install) , [modèles de langue](https://alphacephei.com/vosk/models)`
			`* [site cipherbliss.com](https://www.cipherbliss.com/)`
			`* [@tykayn](https://mastodon.cipherbliss.com/@tykayn) sur Mastodon.`