gibt es ein Tool um Binär Identische Daten zu identifizieren?
Wenn ich von jemandem ein Archiv mit Bildern, Dokumenten und Videos geschickt bekommen habe, aber wir schon eine Menge Daten in der Cloud haben, gibt es dann eine Möglichkeit diese abzugleichen und Duplikate zu entfernen?
Also auf Windows ein Programm was dies kann, da die Ordnerstrukturen unterschiedlich sind und die Videos und Bilder vll unterschiedliche Bezeichnungen haben aber vom Inhalt her identisch sind? Das würde uns Speicherplatz ersparen
3 Antworten
Um einen halbwegs schnellen Abgleich hinzubekommen, erzeugst Du von allen Dateien Hashes (Fingerprints) und vergleichst diese.
Im Idealfall hast Du einen Satz an Hashes von allem, was bereits im Speicher liegt, legst die in einer Hashtabelle ab und nun fängst Du an den zweiten Dateiensatz zu hashen (fingerprinten) und schaust nach, ob es das Hash bereits im gemeinsamen Speicher/Cloud gibt. Wenn ja, dann hast Du einen Kandidat für eine Duplette und kannst ggf. noch den exakten Vergleich vollziehen.
Alternativ könnte man auch auf Merkle-Trees (Hashbäume) zurückgreifen - die beinhalten nicht nur ein Gesamthash, sondern auch welche über Teilblöcke - vereinfacht gesagt.
Das macht man in der Regel mit einem hash.
Du generierst einen hash, z.B. MD5 bei beiden Dateien und gleicher den dann ab.
Hashes zu vergleichen ist leichter weil die nur 128 bit sind anstatt Millionen von bit.
Ich kenne da nur md5sum als Programm dafür. Das gibt es unter Linux und auch in einer mingw-Umgebung unter Windows.
Die Auswertung der Daten kann man dann relativ einfach mit einem Skript erledigen.
Dafür gibt es Tools: AllDup, dupeGuru, EaseUS Dupfiles Cleaner, ...
Mit der Powershell geht das auch, siehe: https://helpcenter.trendmicro.com/en-us/article/tmka-20817
Wie genau funktioniert das? Ich bin zwar IT form, aber das übersteigt mein Wissen. Dachte es gäbe ein Programm, was man über die Ordner laufen lassen kann