Skript: viele htmls nach Schlagwort durchsuchen

...komplette Frage anzeigen

3 Antworten

Wie helper2014 schon sagte, geht es mit fast jeder Programmiersprache. Ich empfehle Perl dafür, weil sich damit sehr rasch und unbürokratisch arbeiten läßt. Zum Crawlerbau mit Perl gibt es eine ganze Reihe von Anleitungen, die die Sache mit mehr oder weniger Aufwand angehen. Du wirst nur eine einfache Version brauchen.

Den Code für einen minimalen Crawler, der einfach eine Seite saugt und dann HTTP-Header und den rohen HTML-Inhalt ausdruckt, siehst Du hier...

http://search.cpan.org/~dagolden/HTTP-Tiny-0.043/lib/HTTP/Tiny.pm

... im Abschnitt "Synopsis". Mit Deiner Beispiel-URL funktioniert der Code sofort. Es fehlt nur (1) ein Filter, der den Klartext vom HTML-Code befreit, (2) eine Anweisung, die das Schlagwort sucht und ggf. die URL speichert, und (3) eine Schleife, die die Nummer am Ende der URL durchzählt.

Antwort bewerten Vielen Dank für Deine Bewertung

Das kannst Du eigentlich mit fast jeder Programmiersprache machen. Ich würde Dir Java empfehlen, das hat auf jeden Fall alle Funktionalitäten, die Du für Deinen Crawler benötigst...

Antwort bewerten Vielen Dank für Deine Bewertung
Isotape 28.03.2014, 02:25

Danke für die schnelle Antwort.

Kannst du mir dabei helfen, solch einen crawler zu konfigurieren? Wie beschrieben, sind die links statisch bis auf die ID am Ende..

Viele Grüße

0

Was möchtest Du wissen?