Wie kann ich nicht durchsuchbare PDF's finden

5 Antworten

Es wird dir nichts anderes übrigbleiben, als manuell alle nicht-OCR-erfassten PDF in einen Ordner zu legen - wenn es viele Dateien sind, wird auch hier die Erkennung lange dauern.

Wenn du nur die Dokumente (nicht nach Inhalt) suchst, kannst du in der Windows Suche eingeben name:Name/Teil des Dateinamens art:PDF

Dazu sollten die PDF auch mit Autor und Titel benannt sein (was ohnehin Sinn macht).

Markus99 
Fragesteller
 16.11.2012, 20:34

Das bedeutet es giebt keine Eigenschaft / Atribut für ein PDF welches Aussagt ob es mit OCR erfasst wurde wochach ich filtern bzw. automatisch suchen kann? Das bedeutet ich muss jedes der 2000 PDF Dokumente von Hand öffnen und sehen ob ich den Text markieren kann um herrauszufinden ob es mit der Texterfassung bearbeitet wurde? Das kann nicht sein, oder?

0
sventheman  16.11.2012, 20:58
@Markus99

Das bedeutet es giebt keine Eigenschaft / Attribut für ein PDF welches Aussagt ob es mit OCR erfasst wurde

so ist es - genau wie bei Word Doc, Indesign etc -> welche Inhalte enthalten sind (Bilder, Text, Vektoren etc) ist nicht durch Marker/Attribute ersichtlich.

OCR bedeutet ja nur, dass Textobjekte auf den Seiten sind (dazu meist fehlerhaft und unvollständig bei automatischer OCR ohne Nachkorrektur)

0
tom1stein  26.11.2018, 09:39
@Markus99

Tja, 7 Jahre später habe ich nach viel Googlen auch keine fertige Lösung außer offenbar Devonthink gefunden. Mein Ansatz ist es nun, mit einem Programm wie "Strings" das PDF zu durchsuchen (also alle Worte in eine Datei zu speichern) und wenn diese Datei weniger als n Zeilen enthält, dann jage ich ein OCR über die Datei. Das dauert etwas, aber es wird hoffentlich keine Datei mit einer zweiten Textebene versehen und keine Datei ohne Textebene zurücklassen.

Eigentlich komisch, dass es keine Bibliothek gibt, welche ermitteln kann, ob eine Textebene in einem Dokument vorhanden ist und mehr als z. B. 20 Wörter (einer auch bei Grafiken ergänzten Seitennummer etc.) enthält.

0

Dafür bietet sich vielleicht FreeOCR oder OCR25 an. Das Programm ist auch in der Lage, Grafiken nach Text zu scannen und diesen Text an Word zu senden.

Wenn Du lediglich ein Programm brauchst, um alle PDFs auf dem Bildschirm darzustellen (und dann zu entscheiden, ob es sich um ein noch nicht gescanntes Dokument handelt), bietet sich der TurboBrowser an. Damit kann so ziemlich jedes Format gelesen und angezeigt werden. In der Regel wird es sich bei den PDFs um Grafiken mit Text handeln.

Ein anderes Programm dafür gibt es bei Foxit, damit kannst Du alle Files in einem Ordner anzeigen lassen, außerdem gibt es eine Copy- und Print-Funktion. Ist allerdings kostenpflichtig.

Hallo Markus

Ich weiss, es ist schon lange her, aber mich hat das Problem schon seit einiger Zeit beschäftigt und da ich eine annehmbare, nicht optimale, Lösung für mich gefunden habe, wollte ich sie dann eben noch teilen.

Ich benutze neben dem normalen Windows Explorer auch den Total Commander (TC), den ich noch als Norton Commander unter DOS zu schätzen wusste. Hier gibt es diverse Plugin's, und eines, xPDFSearch, hat hier geholfen. Mit xPDFSearch kann man neben seiner eigentlichen Funktion, der Volltextsuche über viele pdf's hinweg auch verschiedene Dateiegenschaften anzeigen lassen. Die nützliche Eigenschaft ist "Dokumentenanfang". Im TC kann man auch benutzerdefinierte Anzeigen erstellen und diese Dateiinformation des Plugin's xPDFSearch anzeigen. Bei mir heisst diese Ansicht PDF-Info (Bild 1). Hinter dem Dateinamen und der Extension wird nun auch der Dokumentenanfang angezeigt.

PDF Dokumente die keinen Text beinhalten, also auch nicht durchsuchbar sind, zeigen in diesem Feld nichts an. Durch Klick auf diese Spalte in der Kopfzeile werden alle Dokumente nach diesem Attribut sortiert. Wenn nur pdf's im Verzeichnis sind, stehen die nicht durchsuchbaren dann ganz oben oder unten in der Liste (Bild 2).

Ein kleines Haken ist noch dabei. Pdf Dokumente die durch Drucken entstanden sind können Seiteninformationen als Text gespeichert haben, z. B. "Page 1" (Bild 3). Diese sind jedoch ansonsten auch nicht durchsuchbar. Man muss also auch diese Dateien noch der OCR Behandlung unterziehen.

Also, perfekt ist es nicht, aber besser als nix.

Übrigens, den TC gibt es kostenlos mit der Einschränkung, dass man beim Start eine Zufallszahl anklicken muss. Es gibt evtl. auch ein kommerzielles Programm, dass das Problem lösen soll, DEVONthink, aber das habe ich nicht probiert, sondern nur beim Stöbern gefunden.

Wenn Du in der (langen) Zwischenzeit eine bessere Lösung gefunden haben solltest, teile sie mir doch bitte mit.

Bild zum Beitrag

Bild zum Beitrag

Bild zum Beitrag

 - (PDF, Acrobat, OCR)  - (PDF, Acrobat, OCR)  - (PDF, Acrobat, OCR)
Klaus475  20.09.2018, 16:28

Können Sie bitte meine frage weiter unten ansehen. Danke.

0
RRO42  27.03.2020, 16:57

Hallo Klaus, ich mußte auch etwas fummeln, hab's dann aber lösen können. Da ich in einem Kommentar keine Bilder anhängen kann, gibt's die Antwort weiter unten.

0

PDF-Spalten in Totalcommander einblenden

  1. Rechtsklick auf eine der Spalten-Überschriften
  2. Menü-Eintrag "Benutzerdef. Spalten konfigurieren"
  3. Button "Neu"
  4. Oben "Name" vergeben, z.B. "PDFs"
  5. Tabelle > Button "Spalte hinzufügen"
  6. Rechts Button "+"
  7. In Plugins "xpdfsearch" auswählen
  8. In Eigenschaften "Dokumentenanfang" auswählen
  9. Alles bestätigen mit "Ok"

Auswahl der Ansicht über Rechtsklick auf einen der Spaltenköpfe.

Bild zum Beitrag

Woher ich das weiß:eigene Erfahrung
 - (PDF, Acrobat, OCR)

An ahintz: ich versuche nun die ganze Zeit, nach diese Beschreibung vorzugehen. Das plugin konnte ich installieren. Aber es gelingt mir nicht, diese Suche vorzunehmen und die Einstellungen wie beschrieben anzuwenden. Könnten Sie das einmal für einen Doofen beschreiben. Herzlichen Dank. Ich mühe mich schon seit geraqumer Zeit ohne Erfolg.