orgmode-to-gemini-blog/sources/cipherbliss_blog/lang_fr/20230410T175732__supprimer-les-doublons-avec-un-baobab-et-czkawka.org

135 lines
5.7 KiB
Org Mode
Raw Normal View History

2024-11-19 13:49:39 +01:00
:PROPERTIES:
:ID: e6f94946-97bf-483b-be7e-1033ea079457
:END:
#+title: supprimer-les-doublons-avec-un-baobab-et-czkawka
#+post_ID: 1754
#+post_slug: supprimer-les-doublons-avec-un-baobab-et-czkawka
#+post_url: https://www.ciperbliss.com/2023/supprimer-les-doublons-avec-un-baobab-et-czkawka
#+post_title: Supprimer les doublons avec un Baobab et Czkawka
#+post_tags: backup, nettoyage, pim, archives
#+post_type: post
#+post_mime_types:
#+post_guid: undefined
#+post_status: publish
#+post_date_published: <2023-04-10T17:57:32>
#+post_date_modified: <2023-04-10T17:57:32>
#+post_index_page_roam_id: fa7f2a8c-2b94-4e42-bb4c-25c026ed7ff9
#+retrieved_from_db_at: <2024-11-18 16:25:08>
* Supprimer les doublons avec un Baobab et Czkawka
:PROPERTIES:
:CUSTOM_ID: supprimer-les-doublons-avec-un-baobab-et-czkawka
:END:
Près d'un tiers de mes archives sont des doublons.
2024-11-19 23:50:42 +01:00
2024-11-19 13:49:39 +01:00
Mais ça c'était avant.
2024-11-19 23:50:42 +01:00
2024-11-19 13:49:39 +01:00
Pour savoir quel dossier prend plein de place, il existe des outils
comme *Ncdu* en ligne de commande si vous n'avez pas d'environnement de
bureau, ou *Baobab*, aka l'analyste d'utilisation de disque installé de
base sur Debian / Ubuntu. cela vous permettra de cibler les dossiers les
plus gros.
2024-11-19 23:50:42 +01:00
2024-11-19 13:49:39 +01:00
Spoiler: ce sont les vidéos et les photos qui
prennent le max de place chez la plupart des gens.
2024-11-19 23:50:42 +01:00
[[https://www.cipherbliss.com/wp-content/uploads/2023/04/Baobab_1.png][https://www.cipherbliss.com/wp-content/uploads/2023/04/Baobab_1.png]]
2024-11-19 13:49:39 +01:00
Vous pouvez cibler un dossier en particulier et voir
ce qui remplit votre disque. C'est une très bonne première approche. On
a juste à naviguer dans le graphe, ou dans les noms de dossiers, pour
voir sur quoi on doit concentrer nos efforts. On peut ouvrir les
dossiers dans notre explorateur de fichier pour aller voir en détail,
mais on peut aussi mettre à la poubelle des dossiers entiers depuis
Baobab.Il ne faudra pas oublier de vider votre
corbeille ensuite pour vraiment bénéficier de l'espace
libéré.
2024-11-19 23:50:42 +01:00
2024-11-19 13:49:39 +01:00
** Repérer les doublons avec Czkawka
:PROPERTIES:
:CUSTOM_ID: repérer-les-doublons-avec-czkawka
:END:
2024-11-19 23:50:42 +01:00
[[https://www.cipherbliss.com/wp-content/uploads/2023/04/czkawka_screenshot.png][https://www.cipherbliss.com/wp-content/uploads/2023/04/czkawka_screenshot-1024x670.png]]si
2024-11-19 13:49:39 +01:00
vous aviez l'habitude de fslint qui n'est plus maintenu c'est pareil.
2024-11-19 23:50:42 +01:00
2024-11-19 13:49:39 +01:00
Voici le site officiel pour l'installer:
[[https://qarmin.github.io/czkawka]]Vous pouvez
[[https://snapcraft.io/][utiliser snap]] pour ça, c'est le plus
simple.
2024-11-19 23:50:42 +01:00
2024-11-19 13:49:39 +01:00
#+begin_example
snap install czkawka# et pour le lancersnap run czkawka
#+end_example
Pour s'en servir on sélectionne un ou des dossiers où
fouiller, via le bouton vert "add". Puis on clique sur "search" en bas à
gauche. Et au bout de quelques secondes ou minutes si vous comparez
beaucoup de trucs, vous avez les résultats. Vous pouvez ensuite cocher
les fichiers à dégager, et appuyer sur la touche "suppr" de votre
clavier pour les mettre à la poubelle. Ou faire d'autres actions comme
proposé en bas à droite. Vous pouvez désactiver l'aperçu des images au
clic sur le nom de fichier dans les paramètres, bouton "outil clé" en
haut à droite.Pour accélérer les comparaisons de
hashs de fichier je vous recommande d'activer cette option dans les
paramètres pour ne comparer qu'une portion des fichiers au lieu de leur
intégralité.L'intérêt de cette comparaison par hash
c'est que ça permet d'éliminer des doubles qui ne se nomment pas
pareil.Vous pouvez aussi exclure certains motifs de
dossiers pour accélérer les recherches. ça se passe dans les onglets en
haut de l'écran, section "répertoires exclus". Dans l'onglet
configuration des éléments j'ai exclus certains
dossiers:
#+begin_example
*/.git/*,*/node_modules/*,*/lost+found/*,*/Trash/*,*/.Trash-*/*,*/snap/*,/home/*/.cache/*
#+end_example
On a donc en résultat une liste des fichiers en
double, triés du plus lourd au moins lourd. Vous pouvez vous amuser à
les supprimer un par un :D ou essayer de faire des choses plus
malines.Un double clic droit sur une ligne de fichier
vous permettra d'ouvrir le dossier contenant le fichier dans votre
explorateur de fichier. C'est très pratique pour repérer les contenus
qui ont été copiés dans plusieurs dossier, afin de couper coller le
contenu de l'un dans l'autre et de fait supprimer une énorme masse de
doublons.Czkawka permet aussi de faire de la
recherche d'image similaire. Je ne l'ai pas utilisé mais ça semble
prometteur.Les quelques similarités que je cherche à
supprimer sont des redimensions de fichiers réduites pour publication en
ligne. un filtre sur des termes comme "/thumb/" ou "/small/" suffisent à
en retrouver un paquet.
2024-11-19 23:50:42 +01:00
2024-11-19 13:49:39 +01:00
** Restez groupir les photos et vidéos.
2024-11-19 23:50:42 +01:00
2024-11-19 13:49:39 +01:00
:PROPERTIES:
:CUSTOM_ID: restez-groupir-les-photos-et-vidéos.
2024-11-19 23:50:42 +01:00
2024-11-19 13:49:39 +01:00
:END:
Exemple avec mes photos, elles sont dans un dossier
nommé stockage-syncable/photos qui contient plusieurs trucs. Notamment
des dossiers d'années, qui contenaient des dossiers mensuels, avec des
dossiers groupant des jours et des évènements sur plusieurs jours. Un
bon moyen de dédoubler tout ça c'est de faire du renommage de masse basé
sur les métadata des photos/vidéos, et de tout réunir dans un seul
dossier. Reste ensuite à tout répartir par année à coup de script. Et à
mettre dans un coin dédié les fichiers qui demandent un traitement ou
des incertitudes de doublonnage à lever.J'avais des
doublons pour faire des sélections d'albums, certains à imprimer,
certains pour désigner des étapes de chantier de maison ou des lieux de
capture pour des séquences de mappage openstreetmap à
360°.Une fois que les choses sont élaguées des
parties les plus évidentes on peut se demander comment faire en sorte de
mettre tout ça en qualité, et surtout, à quoi ça ressemble des archives
qui seraient de très bonne qualité.La suite au
prochain épisode!