PDF im Excl?

3 Antworten

Das halte ich für eher schwierig. ich würde die Datei zunächst mal komplett in Excel konvertieren.

Wenn die pdf-struktur klar ist und man die entsprechenden Stellen eindeutig identifizieren kann, dann kann man natürlich auch mit Utilities dran gehen wie zum grep/egrep/awk etc unter Linux, alternativ mit den geeigneten Utilities von PowerShell.

Ich würde eher versuchen, das PDF erstmal mit pandoc o.Ä. in reinen Text zu wandeln, um da dann hinterher mit grep die passenden zeilen zu extrahieren (und ggf. dann noch per sed/awk eine csv für Excel/LibreOffice draus bauen).

Vielleicht kann man sich das konvertieren auch sparen und die Daten direkt auf dem Postscript im PDF extrahieren, kommt auf die Datei an.

Ohne die Datei zu sehen ist das schwierig. Und unter Windows muss man auch erst die Tools suchen bzw. eine passende Alternative finden, unter Linux ist das einfacher ...


HarryXXX  25.03.2025, 12:13

Unter Windows wird man da um PowerShell nicht drumherum kommen.

Früher hatte ich immer cygwin installiert, heute auch das mitgelieferte Ubuntu. PowerShell liegt mir nicht so 😊

z.B. über suchen / ersetzen

Bild zum Beitrag

Ergebnis

Bild zum Beitrag

 - (Microsoft Excel, OpenOffice, PDF)  - (Microsoft Excel, OpenOffice, PDF)

Gipfelstuermer  28.03.2025, 18:00

Scheitert doch schon an der Umwandlung

Hallo, ich habe ein großes PDF Dokument (fast 22.000 Seiten). Beim Versuch es in eine Excl-Datei zu konvertieren kommt immer ein Abbruch.
GutenTag2003  28.03.2025, 18:11
@Gipfelstuermer

Alle Seiten auf einen "Streich", ja, das kann/wird wohl so sein.

Grundsätzlich gelingt es schon den Text einer PDF-Datei in/zu Excel zu kopieren.

Gipfelstuermer  28.03.2025, 19:58
@GutenTag2003

Ob das bei 22.000 Seiten gut klappt keine Ahnung ich frag mich aber ernsthaft was das für Dokumente sein sollen.

Auflistung aller Datein unter C:

Wikipedia als PDF umgewandelt.

Also alles was mehr als 200 Seiten hat würde ich auftrennen es sei denn es ist eine Bedienungsanleitung.

GutenTag2003  28.03.2025, 20:30
@Gipfelstuermer

Ich habe keine 22.000 Seiten. Halte auch das Unterfangen als problematisch... und in kleineren Einheiten als sehr Zeitaufwendig.

Ich würde mir da doch eher das Original-Skript besorgen.

HarryXXX  25.03.2025, 12:14

Der ist gut 🤣

GutenTag2003  25.03.2025, 18:02
@HarryXXX
Also z.b. wenn "XY1234", dann plus die nächsten 20 Stellen.

Er wird weder das ...

"XY1234"

... suchen noch das ...

plus die nächsten 20 Stellen

... eigetragen haben wollen.