Eingescannte Texte markieren?

3 Antworten

Such im Internet mal nach OCR Scannern (Optical Character Recognition) oder schau dir mal Microsoft Office One Note an, dort kann man soweit ich weis auch den Text aus Bildern extrahieren.

Ich selbst hab da aber generell die erfahrung gemacht, dass das alles nur bedingt gut funktioniert, gerade wenn du Seiten im Zwei Spalten layout hast, macht das gerne Probleme

Woher ich das weiß:Berufserfahrung

Es gibt Texterkennungsprogramme bzw. Apps die daraus einen Textdokument erstellen. Arbeiten nicht 100%ig, Text muß noch nachgearbeitet werden. Ansonsten müsste bei der gescannten pdf um den Bereich ein farbiges Farbfeld gelegt werden.

Gibt es da irgendwelche Programme die ich benutzen kann um Texte sinnvoll zu markieren?

Ja, Annotationsprogramme für PDF-Dateien, zum Beispiel Xournal: http://xournal.sourceforge.net/

Dürfte aber bei größeren PDF-Dateien (und als Bilder gescannte Dokumente sind meist groß) ziemlich herausfordernd für CPU und RAM sein, sich also ggf. etwas träge anfühlen.

Oder kann ich den eingescannten Text auch wieder zu einm 'richtigen' Text machen?

Gibt es auch, das nennt sich OCR. Die kosten aber und sind nicht allzu zuverlässig, man muss also durch den generierten Text nochmal durchgehen und Fehler ausbessern, nicht sehr bequem.