PDF im Excl?
Hallo, ich habe ein großes PDF Dokument (fast 22.000 Seiten). Beim Versuch es in eine Excl-Datei zu konvertieren kommt immer ein Abbruch.
Im Endeffekt möchte ich nur 2 Wörter rausfiltern, die auf ca jeder 5.-6. Seite stehen und diese am liebsten in eine Excl Tabelle übertragen. Schwierigkeit ist wahrscheinlich, dass das erste Wort immer das gleiche ist und das zweite Wort ein anderes.
Kann man da vielleicht einen Bereich eingeben, der dann in ein Excl gespeichert wird, wenn der Anfangsbereich vorgeben wird? Also z.b. wenn "XY1234", dann plus die nächsten 20 Stellen.
3 Antworten
Das halte ich für eher schwierig. ich würde die Datei zunächst mal komplett in Excel konvertieren.
Wenn die pdf-struktur klar ist und man die entsprechenden Stellen eindeutig identifizieren kann, dann kann man natürlich auch mit Utilities dran gehen wie zum grep/egrep/awk etc unter Linux, alternativ mit den geeigneten Utilities von PowerShell.
Ich würde eher versuchen, das PDF erstmal mit pandoc o.Ä. in reinen Text zu wandeln, um da dann hinterher mit grep die passenden zeilen zu extrahieren (und ggf. dann noch per sed/awk eine csv für Excel/LibreOffice draus bauen).
Vielleicht kann man sich das konvertieren auch sparen und die Daten direkt auf dem Postscript im PDF extrahieren, kommt auf die Datei an.
Ohne die Datei zu sehen ist das schwierig. Und unter Windows muss man auch erst die Tools suchen bzw. eine passende Alternative finden, unter Linux ist das einfacher ...
Unter Windows wird man da um PowerShell nicht drumherum kommen.
Früher hatte ich immer cygwin installiert, heute auch das mitgelieferte Ubuntu. PowerShell liegt mir nicht so 😊
z.B. über suchen / ersetzen
Ergebnis


Alle Seiten auf einen "Streich", ja, das kann/wird wohl so sein.
Grundsätzlich gelingt es schon den Text einer PDF-Datei in/zu Excel zu kopieren.
Ob das bei 22.000 Seiten gut klappt keine Ahnung ich frag mich aber ernsthaft was das für Dokumente sein sollen.
Auflistung aller Datein unter C:
Wikipedia als PDF umgewandelt.
Also alles was mehr als 200 Seiten hat würde ich auftrennen es sei denn es ist eine Bedienungsanleitung.
Ich habe keine 22.000 Seiten. Halte auch das Unterfangen als problematisch... und in kleineren Einheiten als sehr Zeitaufwendig.
Ich würde mir da doch eher das Original-Skript besorgen.
Also z.b. wenn "XY1234", dann plus die nächsten 20 Stellen.
Er wird weder das ...
"XY1234"
... suchen noch das ...
plus die nächsten 20 Stellen
... eigetragen haben wollen.
Scheitert doch schon an der Umwandlung