Gutefrage Crawler?

2 Antworten

Vom Beitragsersteller als hilfreich ausgezeichnet
ob es legal ist, gutefrage.net zu durch crawlen, um frage-antwort paare als daten zu sammeln

Ja. Es gibt kein Gesetz dagegen.

wenn ja, wie mache ich das?

Mit Tools wie cURL

Alex


Cari1232 
Beitragsersteller
 30.11.2024, 13:58

Danke! Gut zu wissen, dass es erlaubt ist, wenn man robots.txt überprüft. Wie genau würde das den gehen, um Frage-Antwort paare daraus zu extrahieren?

EinAlexander  30.11.2024, 13:59
@Cari1232
Wie genau würde das den gehen, um Frage-Antwort paare daraus zu extrahieren?

Das zu erklären würde den Rahmen einer Frage-Antwort-Plattform sprengen. Informiere dich über cURL.

Grundsätzlich finde ich nichts dagegen in den AGB / sonstigen Richtlinien. Natürlich kann dir aber jederzeit der Zugriff verweigert werden, wenn du die Systeme beeinträchtigst.

Außerdem ist zu beachten, dass du nicht alle Endpunkte abfragen darfst; siehe z. B: diesen AUSZUG aus der robots.txt Datei von GuteFrage:

User-agent: *
Disallow: /nutzer_hinzufuegen
Disallow: /home/suche
Disallow: /frage_hinzufuegen
Disallow: /forum
Disallow: /nmms-template/
Disallow: /crm-data

Sitemap: https://www.gutefrage.net/sitemap.xml
Sitemap: https://www.gutefrage.net/editorial-sitemap.xml

Sonst ist es immer eine gute Idee nachzufragen, wenn du dadurch besonders viel Traffic erzeugst.

Woher ich das weiß:eigene Erfahrung – Langjähriger Poweruser & praktische Programmiererfahrung

ArchBattle  01.12.2024, 08:53

Gut zu erwähnen wäre auch, dass du definitiv sicher gehen solltest, dass dein Programm nur eine bestimmte Anzahl an Anfragen in einer Sekunde macht... zB mit einem sleep. andernfalls könntest du den Server mit Anfragen bombadieren und im schlimmsten Fall ein DOS verursachen oder den Betreiben in die Situation bringen, dass der Serveranbieter vom Betreiber zusätzliche Ressourcen freigibt und somit Kosten entstehen. Für Kosten, die durch dein Programm entstehen bist du dann haftbar und musst diese zahlen. Ebenfalls musste darauf achten, dass du nicht versuchst auf Assets zuzugreifen, die nicht öffentlich zugändlich sein sollen. Manchmal kann es sein, dass Dinge schlecht abgesichert wurden und man plötzlich an Daten kommt an die keiner ran sollte. Wenn das passiert wäre das quasi Hacking. Das passiert aber nicht sehr oft aber kann durch Spider-Crawler passieren.