Python PDF zu Text?
Ich muss aus einer über 600 Seiten langen PDF Text extrahieren, wobei leider kein Programm Abhilfe schaffen kann.
Das Problem: Der Text ist zweispaltig, weshalb kein Programm den Text richtig wiedergeben kann.
In Python funktioniert es leider auch nicht, den Text nur bis zur Hälfte ablesen zu lassen. Daher mache ich es jetzt teilweise manuell.
Frage:
Ich möchte den Text eigendlich als Input eingeben (text = input("""Blabla""") )jedoch bekomme ich dann den eingegebenen Text genau so wieder ausgegeben. Wenn ich ihn jedoch direkt in das Programm schreibe, funktioniert es komischerweise.
Kann mir hier jemand weiterhelfen, der erfahrener ist und weiß, wie sich das Problem lösen lässt?
(Vielleicht sogar, wie sich ein komplexes zweispaltiges Layout ablesen lässt.)
