gibt es ein Tool um Binär Identische Daten zu identifizieren?

3 Antworten

Um einen halbwegs schnellen Abgleich hinzubekommen, erzeugst Du von allen Dateien Hashes (Fingerprints) und vergleichst diese.

Im Idealfall hast Du einen Satz an Hashes von allem, was bereits im Speicher liegt, legst die in einer Hashtabelle ab und nun fängst Du an den zweiten Dateiensatz zu hashen (fingerprinten) und schaust nach, ob es das Hash bereits im gemeinsamen Speicher/Cloud gibt. Wenn ja, dann hast Du einen Kandidat für eine Duplette und kannst ggf. noch den exakten Vergleich vollziehen.

Alternativ könnte man auch auf Merkle-Trees (Hashbäume) zurückgreifen - die beinhalten nicht nur ein Gesamthash, sondern auch welche über Teilblöcke - vereinfacht gesagt.

Das macht man in der Regel mit einem hash.

Du generierst einen hash, z.B. MD5 bei beiden Dateien und gleicher den dann ab.

Hashes zu vergleichen ist leichter weil die nur 128 bit sind anstatt Millionen von bit.


herzgefuehle 
Beitragsersteller
 12.12.2024, 13:24

Wie genau funktioniert das? Ich bin zwar IT form, aber das übersteigt mein Wissen. Dachte es gäbe ein Programm, was man über die Ordner laufen lassen kann

tunik123  12.12.2024, 14:48
@herzgefuehle

Ich kenne da nur md5sum als Programm dafür. Das gibt es unter Linux und auch in einer mingw-Umgebung unter Windows.

Die Auswertung der Daten kann man dann relativ einfach mit einem Skript erledigen.