Accueil > Divers (et d’été) > Informatique > Scripts et outils maison > Trouver les fichiers en double sur votre disque dur

Trouver les fichiers en double sur votre disque dur

samedi 16 août 2008, par Paul Courbis

A force de télécharger on fini par accumuler des tonnes de fichiers en plusieurs exemplaires. Avec les tailles actuelles des disques, il devient de plus en plus difficile de faire le ménage. Voici une méthode pour trouver la liste des fichiers présents en plusieurs exemplaires sur vos disques durs...

Les explication suivantes supposent un système Unix (Linux, HPUX, etc...) ou Windows avec une surcouche Unix-like (comme Cygwin).

Première étape : constituer la liste des fichiers avec leurs sommes MD5

La somme MD5 (Message Digest 5) est la somme de contrôle d’un fichier. La probabilité que deux fichiers aient la même « signature » est infinitésimale et le fait que deux fichiers aient la même signature peut donc être considéré comme équivalent au fait qu’ils soient identiques. Il suffit d’utiliser la commande find. Par exemple pour lister tous les films avi sur les disques :

find / -iname "*.avi" -print0 | \
          xargs -0 md5sum > /tmp/AllFiles.md5

Attention : cette commande peut mettre un certain temps à s’exécuter ! Les résultats sont stockés dans le fichier /tmp/AllFiles.md5

Seconde étape : déterminer la liste des doublons

Le script suivant détermine cette liste en triant les fichiers par leur somme MD5 et en affichant les noms de fichiers portant des sommes identiques (seule limitation : si les noms de fichier contiennent des tabulations, ils seront tronqués)

#!/bin/sh

export LC_ALL='C'

cat /tmp/AllFiles.md5                          | \
        sort -u                                 | \
        sed 's/ \**/\t/'                         | \
        awk -F '\t' '
BEGIN  { FIRST=yes; MD5=""; OLDF="" }

        {
          if ( $1 == MD5 )
          {
             if ( FIRST == "yes" )
             {
                FIRST="no"
                printf( "\n\nFILES WITH %s:\n\n\t%s\n",
                         $1, OLDF );
             }
             printf( "\t%s\n", $2 );
          }
          else
          {
             MD5=$1
             OLDF=$2
             FIRST="yes"
          }
        }
'

Et voilà...

PS : merci à « mab » pour la correction

Messages

1. Trouver les fichiers en double sur votre disque dur, 23 janvier 2010, 01:44, par nOnE

Pas mal, Paul !

Ca peut servir ...
2. Trouver les fichiers en double sur votre disque dur, 18 avril 2020, 15:26, par Richard

Un vrai grand merci !!!

Un message, un commentaire ?

Les spams donneront systématiquement lieu à dépôt de plainte. Les messages peu aimables ou comportant trop de fautes d'orthographe seront purement et simplement supprimés sans publication. Aucune obligation de publication ne pourra être opposée au webmaster, sauf éventuel droit de réponse dûment justifié.

Suivre ce site : Follow @courbis_fr

Recommander cette page :

	Tweeter

Traduire :

Trouver les fichiers en double sur votre disque dur

Messages

Un message, un commentaire ?

Divers (et d’été)

Dans la même rubrique

Mots-clés