framalibre-scraping/README.md

25 lines
1.6 KiB
Markdown
Raw Permalink Normal View History

2022-07-11 11:29:09 +02:00
# Data scraping
## du catalogue des chatons.org
node chatons.js
et hop, on obtient un export des caractéristiques des chatons
## de framalibre
configurer main.js pour définir l'ID maximale
# Utilisation
Installer les paquets npm
et lancer la commande
node main.js
_________________
# documentation:
## Pseudo API
https://framalibre.org/content/pseudo-api
Vous pouvez accéder aux sortie JSON des catégories, termes, et contenus de l'annuaire Framalibre
Liste des vocabulaires de l'annuaire : https://framalibre.org/vocabularies/json (on repère par exemple le vocabulaire "annuaires")
Liste des catégories du vocabulaire "annuaires" : https://framalibre.org/category/annuaires/json (on repère par exemple la catégorie "CMS", dont l'identifiant est "308")
Termes d'une catégorie : https://framalibre.org/taxonomy/term/308/json permet de lister tous les CMS de Framalibre, dont "Jami", avec l'identifiant "1075"
Sortie JSON d'un contenu : https://framalibre.org/content/1075/json pour afficher le JSON de la fiche "Jami", ou https://framalibre.org/content/284/json pour le livre "Guide d'autodéfense numérique". (bon, *tous* les champs sont volontairement affichés, c'est donc un peu sale car une fiche logicielle affiche par exemple "ISBN". Si les résultats sont vides, ils peuvent être masqués, mais ça permettait de montrer le schéma de données, lui même non définitif).
Il ne s'agit évidemment que d'une API d'affichage (elle ne permet pas de rentrer une info dans Framalibre, juste de les afficher dans un format lisible par une machine).