orgmode-to-gemini-blog/sources/cipherbliss_blog/lang_fr/20230410T175732__supprimer-les-doublons-avec-un-baobab-et-czkawka.org
2024-11-19 23:50:42 +01:00

5.7 KiB

supprimer-les-doublons-avec-un-baobab-et-czkawka

Supprimer les doublons avec un Baobab et Czkawka

Près d'un tiers de mes archives sont des doublons.

Mais ça c'était avant.

Pour savoir quel dossier prend plein de place, il existe des outils comme Ncdu en ligne de commande si vous n'avez pas d'environnement de bureau, ou Baobab, aka l'analyste d'utilisation de disque installé de base sur Debian / Ubuntu. cela vous permettra de cibler les dossiers les plus gros.

Spoiler: ce sont les vidéos et les photos qui prennent le max de place chez la plupart des gens.

https://www.cipherbliss.com/wp-content/uploads/2023/04/Baobab_1.png

Vous pouvez cibler un dossier en particulier et voir ce qui remplit votre disque. C'est une très bonne première approche. On a juste à naviguer dans le graphe, ou dans les noms de dossiers, pour voir sur quoi on doit concentrer nos efforts. On peut ouvrir les dossiers dans notre explorateur de fichier pour aller voir en détail, mais on peut aussi mettre à la poubelle des dossiers entiers depuis Baobab.Il ne faudra pas oublier de vider votre corbeille ensuite pour vraiment bénéficier de l'espace libéré.

Repérer les doublons avec Czkawka

https://www.cipherbliss.com/wp-content/uploads/2023/04/czkawka_screenshot-1024x670.pngsi vous aviez l'habitude de fslint qui n'est plus maintenu c'est pareil.

Voici le site officiel pour l'installer: https://qarmin.github.io/czkawkaVous pouvez utiliser snap pour ça, c'est le plus simple.

snap install czkawka# et pour le lancersnap run czkawka

Pour s'en servir on sélectionne un ou des dossiers où fouiller, via le bouton vert "add". Puis on clique sur "search" en bas à gauche. Et au bout de quelques secondes ou minutes si vous comparez beaucoup de trucs, vous avez les résultats. Vous pouvez ensuite cocher les fichiers à dégager, et appuyer sur la touche "suppr" de votre clavier pour les mettre à la poubelle. Ou faire d'autres actions comme proposé en bas à droite. Vous pouvez désactiver l'aperçu des images au clic sur le nom de fichier dans les paramètres, bouton "outil clé" en haut à droite.Pour accélérer les comparaisons de hashs de fichier je vous recommande d'activer cette option dans les paramètres pour ne comparer qu'une portion des fichiers au lieu de leur intégralité.L'intérêt de cette comparaison par hash c'est que ça permet d'éliminer des doubles qui ne se nomment pas pareil.Vous pouvez aussi exclure certains motifs de dossiers pour accélérer les recherches. ça se passe dans les onglets en haut de l'écran, section "répertoires exclus". Dans l'onglet configuration des éléments j'ai exclus certains dossiers:

*/.git/*,*/node_modules/*,*/lost+found/*,*/Trash/*,*/.Trash-*/*,*/snap/*,/home/*/.cache/*

On a donc en résultat une liste des fichiers en double, triés du plus lourd au moins lourd. Vous pouvez vous amuser à les supprimer un par un :D ou essayer de faire des choses plus malines.Un double clic droit sur une ligne de fichier vous permettra d'ouvrir le dossier contenant le fichier dans votre explorateur de fichier. C'est très pratique pour repérer les contenus qui ont été copiés dans plusieurs dossier, afin de couper coller le contenu de l'un dans l'autre et de fait supprimer une énorme masse de doublons.Czkawka permet aussi de faire de la recherche d'image similaire. Je ne l'ai pas utilisé mais ça semble prometteur.Les quelques similarités que je cherche à supprimer sont des redimensions de fichiers réduites pour publication en ligne. un filtre sur des termes comme "thumb" ou "small" suffisent à en retrouver un paquet.

Restez groupir les photos et vidéos.

:PROPERTIES: :CUSTOM_ID: restez-groupir-les-photos-et-vidéos.

:END: Exemple avec mes photos, elles sont dans un dossier nommé stockage-syncable/photos qui contient plusieurs trucs. Notamment des dossiers d'années, qui contenaient des dossiers mensuels, avec des dossiers groupant des jours et des évènements sur plusieurs jours. Un bon moyen de dédoubler tout ça c'est de faire du renommage de masse basé sur les métadata des photos/vidéos, et de tout réunir dans un seul dossier. Reste ensuite à tout répartir par année à coup de script. Et à mettre dans un coin dédié les fichiers qui demandent un traitement ou des incertitudes de doublonnage à lever.J'avais des doublons pour faire des sélections d'albums, certains à imprimer, certains pour désigner des étapes de chantier de maison ou des lieux de capture pour des séquences de mappage openstreetmap à 360°.Une fois que les choses sont élaguées des parties les plus évidentes on peut se demander comment faire en sorte de mettre tout ça en qualité, et surtout, à quoi ça ressemble des archives qui seraient de très bonne qualité.La suite au prochain épisode!