insgesamt habe ich in meinem Computer einige 100 Word-Dateien, die sich teilweise komplett gleichen oder oft sehr ähnlich sind. Ich möchte bei diesen Dateien die doppelten Textteile herausfiltern. Dazu habe ich bisher das Programm „DupliFind“ benutzt, das allerdings nur doppelte Zeilen löschen kann und dabei max. 30.000 Seiten verarbeitet. Da alle Dateien zu umfangreich sind, um sie miteinander in einen Block zusammen zu kopieren, musste ich einzelne Blöcke mit je ca. 30.000 Seiten zusammenfassen.
Da jedoch die Gefahr besteht, dass, wenn alle doppelten Zeilen gelöscht werden, auch die Zeilen verschwinden, die doppelt bleiben müssen, suche ich nach einer Möglichkeit, doppelte Absätze oder doppelte Seiten zu suchen und zu löschen.
Kennt jemand eine Methode oder ein Programm, um doppelte Teile heraus zu filtern?