Mit Java eine Website auslesen?

3 Antworten

Wäre das nicht einfacher mit JavaScript? Da gibt es ja Parameter wie innerHTML etc.

didiwegdodo 
Fragesteller
 07.03.2012, 09:17

Ich programmiere nur auf BlueJ (Java).

0

Das ist ein nicht triviales Vorgehen. Willst oder musst Du es komplett selbst (d.h. nur mit den Mitteln des Java SDK) lösen? oder kannst Du 3rd Party Frameworks einsetzen? Falls ersteres, dann musst Du erst mal einen HTTP-Request absetzen (Package java.net), dann das Ergebnis lesen und verarbeiten. Die Verarbeitung kannst Du bei sauberem XHTML mit einem XML-Parser machen (DOM oder SAX), bei nicht validem XML musst Du den Text selbst parsen (z.B. mit Regular Expressions). Falls Du Bibliotheken verwenden darfst, schau Dir mal den HTTP Client von Apache an (http://hc.apache.org/httpclient-3.x/), damit kannst Du schon mal einfach die Seite einlesen. Das Problem des Parsens besteht weiterhin und kann gelöst werden wie oben beschrieben.