Warum funktioniert die Suchfunktion in einigen pdf-Dokumenten und in anderen nicht?

3 Antworten

Das PDF kann ein Bild sein, oder ein Text. Nach dem Einscannen ist es zunächst ein Bild, mittels einer Texterkennungs-Software (OCR) kann man daraus einen Text machen. Erfolgt dies nicht, kann man nicht suchen.

Danke! Alle Antworten scheinen in eine bestimmte Richtung zu gehen. Ich antworte zunächst mal nur hier.

Verstehe ich die Schritte so richtig, wie du das geschrieben hast? 1. Text wurde eingescannt und ist dann ein Bild. Frage: jetzt abgespeichert als jpg, oder pdf? 2. Jetzt muss ich mit einer OCR Software aus der pdf Datei eine Textdatei machen?

Hier noch Zusatzinfos, die offenbar wichtig sind:

• die beiden Dokumente erhielt ich als pdf Dokumente, die offenbar irgendjemand vorher auf einen Scanner legte und eingescannt hatte. Das erkennt man an den Spiralrändern in beiden Dokumenten.

• Das eine Dokument (mit nicht funktionierender Suche) ist ein Textdokument, das aus verschiedenen Text-Dokumenten zusammengestückelt ist.

• Das andere Dokument (mit funktionierender Suche) ist ein fast ähnliches Textdokument, in dem sogar noch Unterschriften, Stempel etc. enthalten sind.

Ich bin sehr an einer Lösung interessiert, weil dieser Fall bei mir sehr häufig vorkommt und die Lösung eine sehr große Arbeitserleichterung ist.

0
@kontinent4

Nach dem Einscannen ist es ein Bild. Das Speicherformat ist frei wählbar (jpg, pdf, ...).

Die OCR-Software kann ebenfalls alle Speicherformate (jpg, pdf, ...) verwenden.

Du kannst also jetzt einfach deine PDFs in einer OCR-Software öffnen und aus ihnen durchsuchbaren Text machen.

0
@Cheater3k

Danke für den Hinweis. Ich habe auch schon einen entsprechende OCR Software gefunden. Der Weg erschien mir umständlich, weil es ja mit einem Dok. funktioniert und mit dem anderen nich und eine Erklärung und Lösung zu dieser Unlogik habe ich bei allen Antworten hier leider noch nicht entdecken können. Vielleicht muss man dies auch einfach achselzuckend akzeptieren und es gibt keine andere Lösung?

0

gescannte Dokumente werden Pixel für Pixel gescannt.Der PC weiss also nicht, ob Bilder oder Text gescannt wurde und entsprechend fuktioniert die Suche nach Text nicht, weil kein Text erkannt wird. PDF-Format ist per se allerdings vektorbasiert, und so kannst du "normale" PDFs auch durchsuchen, weit Text auch als Text abgespeichert ist

Danke. Vielleicht hilft mein Kommentar zu anderer Antwort weiter.

0

ob Bilder oder Text gescannt wurde und entsprechend fuktioniert die Suche nach Text nicht, weil kein Text erkannt wird.

Wieso erkennt Adobe Acrobat Professional dann den Text in dem einen pdf-Dokument und nicht in dem anderen? Inhalte der beiden Dokumente sind in meinem Kommentar an Cheater 3k beschrieben.

0

Wenn Du ein Blatt scannst, dann wird es sogesehen als Bild gescannt, auch wenn Du es als PDF gespeichert hast. Die Suchfunktion kann nur agieren, wenn das PDF von zB Word oder ähnlichem gespeichert wurde oder auch, wenn es Dir geschickt wurde. Scannst Du hingegen etwas, wird es als Bild erkannt und es kann nicht mehr unterschieden werden, welche "Ebene" dieses PDF der Text ist und welche Ebene der Hintergrund ist, es ist praktisch "ein Blatt", was durch zB einem Word-PDF "zwei übereinandergelegte Blätter" darstellt.

Also es liegt nur daran, dass es gescannt ist. Wenn es jemand schreibt und Dir dann per Email schickt geht es auch, da dort dann zwei Ebenen vorhanden sind und zB Adobe Reader es dann auch als Text als solches erkennen kann.

Das Programm ist eben nur ein Programm und verfügt über keinerlei Intelligenz es in dem Moment zu unterscheiden.

Danke. Vielleicht hilft mein Kommentar zu anderer Antwort weiter.

0

Die Suchfunktion kann nur agieren, wenn das PDF von zB Word oder ähnlichem gespeichert wurde

Leuchtet mir nicht ein, da es in einem Dokument funktioniert und im anderen nicht (Hinweise z.d. Dokumenten, oben).

Scannst Du hingegen etwas, wird es als Bild erkannt und es kann nicht mehr unterschieden werden, welche "Ebene" dieses PDF der Text ist und welche Ebene der Hintergrund ist

Dachte ich bisher auch, das verblüffende ist ja hier, dass es bei einem Dokument funktioniert und beim anderen nicht, und dazu habe ich bei allen Antworten noch keine Hinweise erhalten. Bevor ich hier die Frage stellte, habe ich natürlich zuerst Adobe und das halbe Netz abgesucht und dort auch nichts Verwertbares hierzu gefunden. Deshalb meine Fragen in diesem Forum.

0