Frage von jehudaa, 27

crawling und scraping?

Hallo zusammen

Kann mir bitte jemand -in sehr einfachen Worten- erklären, was Webcrawling und scraping ist? (Bitte nicht Wikipedia posten, das habe ich schon gelesen und immer noch nicht so richtig verstanden ;) )

Vielen Dank

Antwort
von PWolff, 17

Von crawling (krabbeln) spricht man, wenn man (bzw. ein "robot") eine Webseite nach der anderen besucht. Dabei hangelt sich der Roboter entlang der Links von einer Seite zur nächsten, dies vergleicht man mit einer Spinne, die entlang der Fäden von Blatt zu Blatt (bzw. Ast zu Ast) krabbelt. (Daher auch der Ausdruck "web spider" (Netzspinne) für diese Roboter)

Nach https://en.wikipedia.org/wiki/Web_scraping gibt es einen fließenden Übergang zwischen crawling und scraping.

Hiernach spricht man von crawling, wenn man die Informationen auf den Seiten im wesentlichen unverändert verwendet, z. B. für einfache Suchmaschinen.

Scraping ("Kratzen", hier im Sinne von "Zusammenkratzen") bedeutet eher, dass man die Informationen auch anderweitig verbindet. Z. B. anhand von gefundenen E-Mail-Adressen und Namen versucht, aus vielen Webseiten möglichst viel Informationen über eine Person zusammenzutragen. Oder herausfinden, welche Begriffe oft zusammen in Webseiten vorkommen - soweit ich weiß, nutzt die Vorschlagfunktion von Google diese Informationen, um die Auswahl der zusätzlich vorgeschlagenen Wörter zu verfeinern.

Das Zusammentragen von Informationen über eine Person leitet zu einem weiteren Begriff über, dem harvesting (Ernten) - hier geht es z. B. darum, möglichst viele E-Mail-Adressen zu sammeln, an die man dann Spam schicken kann. (Beim verlinkten Wikipedia-Artikel werden harvesting und scraping synonym verwendet.)

Keine passende Antwort gefunden?

Fragen Sie die Community