configuration pour transcrire des fichiers audio wav avec Vosk
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

60 lines
3.1 KiB

4 months ago
4 months ago
4 months ago
4 months ago
4 months ago
4 months ago
4 months ago
4 months ago
4 months ago
4 months ago
4 months ago
4 months ago
4 months ago
  1. # Transcription avec Vosk, par Tykayn
  2. configuration pour transcrire des fichiers audio wav avec Vosk
  3. ## mode d'emploi
  4. ### installation
  5. #### Prérequis
  6. * python3 (pour l'école serpentard)
  7. * pip (gestionnaire de paquets python)
  8. * git (gestion de version)
  9. * jq (pour le nettoyage de fichier json)
  10. * ffmpeg (pour la conversion vers wav)
  11. pour les installer avec aptitude
  12. ```
  13. sudo apt install jq python3-pip git ffmpeg
  14. ```
  15. #### cloner ce dépot dans un dossier de travail
  16. ```bash
  17. git clone https://forge.chapril.org/tykayn/transcription.git && cd transcription
  18. ```
  19. * installer vosk via le MakeFile, vérifiez les prérequis ci-dessus. une fois dans votre dossier de transcription fraîchement cloné, faites la commande:
  20. ```
  21. make
  22. ```
  23. * mettre un fichier audio dans le dossier "input"
  24. * le convertir en wav mono (avec audacity par exemple)
  25. * lancer la transcription du wav mono. Une démo est disponible, extraite de l'émission Libre à vous!
  26. ```
  27. make convert file=input/demo.wav
  28. ```
  29. n'oubliez pas l'argument `file=`
  30. * la sortie texte de la transcription se trouve dans output `output/demo/4_phrases.txt` et devrait être affichée à la fin de l'exécution du script.
  31. Chaque fichier transcrit a un sous-dossier de son nom dans le dossier output. Ainsi, pour la démo qui se trouve dans `input/demo.wav`, les fichiers de transcription sont dans `output/demo/`
  32. # Précisions
  33. * vosk est capable de fournir d'autres informations comme la seconde de début et de fin de la phrase détectée. Cela pourrait être utile pour produire des fichiers de sous titre. Cela a été ajouté dans un script perl grâce à @r_a@framapiaf.org
  34. * les locuteurs ne sont pas détectés, toutes les phrases sont dites sans cette précision.
  35. * si deux personnes parlent rapidement l'une après l'autre, vosk considèrera qu'il s'agit d'une seule phrase.
  36. * les transcriptions peuvent être faites pour plusieurs langues, il faudra modifier le fichier "conversion_simple_fr.py" si on veut autre chose que du Français.
  37. # évolutions possibles
  38. - convertir un fichier mp3 vers WAV mono avec ffmpeg.
  39. - nettoyer l'écho et normaliser le fichier audio.
  40. - permettre le traitement en masse de plusieurs fichiers de podcast et leur donner un output nommé comme le fichier d'entrée afin de les distinguer.
  41. # liens
  42. * [podcast libre à vous](https://cause-commune.fm/podcastfilter/libre-a-vous/)
  43. * [transcriptions libre à lire](https://www.librealire.org)
  44. * [message parlant de transcription dans la liste de diffusion de l'april](https://listes.april.org/wws/arc/transcriptions/2021-02/msg00016.html)
  45. * site officiel de [Vosk : installation](https://alphacephei.com/vosk/install) , [modèles de langue](https://alphacephei.com/vosk/models)
  46. * sur Telegram
  47. * groupe de [discussion sur vosk](https://t.me/speech_recognition) (veille bibliographique sur la [reconnaissance automatique de la parole](https://fr.wikipedia.org/wiki/Reconnaissance_automatique_de_la_parole))
  48. * groupe d'[aide de vosk](https://t.me/speech_recognition_help)
  49. * [site cipherbliss.com](https://www.cipherbliss.com/)
  50. * [@tykayn](https://mastodon.cipherbliss.com/@tykayn) sur Mastodon.