Eine gesamte Webseite als docx anzeigen

Ich habe folgendes Problem: ich bin Hiwi an einer Uni und soll für meinen Vorgesetzten eine Möglichkeit finden, eine gesamte Webseite in Word anzeigen zu können, da er mit einem qualitativen Analyseprogramm bestimmte Wörter auf den Seiten zählen möchte etc.

Das ganze sollte nach Möglichkeit so aussehen, wie wenn man mit Adobe Acrobat ein PDF aus einer Webseite mit allen Ebenen ladet - diese Möglichkeit können wir nur leider nicht verwendet, da sich in dem so erstellten PDF kein Text markieren lässt und die Analysesoftware so auch keinen Text erkennt.

Ich weißt, dass es auch die Möglichkeit gibt, einfach eine Webseite als HTML zu speichern und dieses wiederum mit Word zu öffnen, allerdings fehlen dann die unteren Hierarchieebenen und ich kann jetzt schon sagen, dass es meinem Vorgesetzten zu kompliziert sein wird, wenn von allen Ebenen separat die HTML gespeichert werden muss.

Programme wie Webspider und HTTrack habe ich auch schon getestet und ein ähnliches Problem damit: Ich erhalte zwar HTML's, allerdings viel zu viele; das wird meinem Vorgesetzten einfach zu viel Arbeit sein, die alle zusammen zu suchen und einzeln zu analysieren.

Also ich fasse noch einmal zusammen: Ich benötige ein Programm (egal Ob Kostenpflichtig oder -los, Uni zahlt ja :P ), dass ähnlich wie die Funktion von Adobe Acrobat (Eine gesamte Webseite mit allen Unterebenen als PDF anzeigen) arbeitet, nur dass ich ein docx, html oder irgend eine andere Outputdatei benötige, in der der Text erkannt wird!

Beste Grüße

...zum Beitrag

Kleines update: es genügt mir auch, wenn ich nur den Text einer Webseite extrahiere, Bilder brauche ich nicht!

...zur Antwort