Gutefrage Crawler?

Hallo, ich bin neu hier, und ich möchte gerne wissen, ob es legal ist, gutefrage.net zu durch crawlen, um frage-antwort paare als daten zu sammeln. wenn ja, wie mache ich das?

2 Antworten

Vom Beitragsersteller als hilfreich ausgezeichnet

EinAlexander

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

HTML, Webseite, Programmieren & Softwareentwicklung

30.11.2024, 12:14

ob es legal ist, gutefrage.net zu durch crawlen, um frage-antwort paare als daten zu sammeln

Ja. Es gibt kein Gesetz dagegen.

wenn ja, wie mache ich das?

Mit Tools wie cURL

Alex

Cari1232

Beitragsersteller

30.11.2024, 13:58

Danke! Gut zu wissen, dass es erlaubt ist, wenn man robots.txt überprüft. Wie genau würde das den gehen, um Frage-Antwort paare daraus zu extrahieren?

EinAlexander

30.11.2024, 13:59

@Cari1232

Wie genau würde das den gehen, um Frage-Antwort paare daraus zu extrahieren?

Das zu erklären würde den Rahmen einer Frage-Antwort-Plattform sprengen. Informiere dich über cURL.

JanaL161

30.11.2024, 12:58

Grundsätzlich finde ich nichts dagegen in den AGB / sonstigen Richtlinien. Natürlich kann dir aber jederzeit der Zugriff verweigert werden, wenn du die Systeme beeinträchtigst.

Außerdem ist zu beachten, dass du nicht alle Endpunkte abfragen darfst; siehe z. B: diesen AUSZUG aus der robots.txt Datei von GuteFrage:

User-agent: *
Disallow: /nutzer_hinzufuegen
Disallow: /home/suche
Disallow: /frage_hinzufuegen
Disallow: /forum
Disallow: /nmms-template/
Disallow: /crm-data

Sitemap: https://www.gutefrage.net/sitemap.xml
Sitemap: https://www.gutefrage.net/editorial-sitemap.xml

Sonst ist es immer eine gute Idee nachzufragen, wenn du dadurch besonders viel Traffic erzeugst.

Woher ich das weiß:eigene Erfahrung – Langjähriger Poweruser & praktische Programmiererfahrung

ArchBattle

01.12.2024, 08:53

Gut zu erwähnen wäre auch, dass du definitiv sicher gehen solltest, dass dein Programm nur eine bestimmte Anzahl an Anfragen in einer Sekunde macht... zB mit einem sleep. andernfalls könntest du den Server mit Anfragen bombadieren und im schlimmsten Fall ein DOS verursachen oder den Betreiben in die Situation bringen, dass der Serveranbieter vom Betreiber zusätzliche Ressourcen freigibt und somit Kosten entstehen. Für Kosten, die durch dein Programm entstehen bist du dann haftbar und musst diese zahlen. Ebenfalls musste darauf achten, dass du nicht versuchst auf Assets zuzugreifen, die nicht öffentlich zugändlich sein sollen. Manchmal kann es sein, dass Dinge schlecht abgesichert wurden und man plötzlich an Daten kommt an die keiner ran sollte. Wenn das passiert wäre das quasi Hacking. Das passiert aber nicht sehr oft aber kann durch Spider-Crawler passieren.

Ähnliche Beiträge

Crawler geht nicht weiter, wenn fertig mit einer URL?

Hallo zusammen,

ich arbeite gerade an einem Python-Crawler, der spezifisch für die Website beispielurl.de entwickelt wurde. Mein Ziel ist es, verschiedene Unterseiten zu crawlen, die jeweils unterschiedlichen Kategorien angehören, wie z.B. "Flaschenhersteller" und "Kartenhersteller". Der Crawler soll automatisch von einer Kategorie (z.B. beispielurl.de/Flaschenhersteller/page-1, beispielurl.de/Flaschenhersteller/page-2, usw.) zur nächsten wechseln (z.B. beispielurl.de/Kartenhersteller/page-1, beispielurl.de/Kartenhersteller/page-2, usw.), sobald alle Seiten der aktuellen Kategorie durchlaufen sind.

Leider funktioniert der Wechsel zwischen den Kategorien nicht wie erwartet. Der Crawler verarbeitet alle Seiten der ersten Kategorie korrekt, aber anstatt zur nächsten Kategorie zu wechseln, beginnt er wieder von vorn bei der ersten Kategorie, ohne die nachfolgenden Kategorien zu berücksichtigen.

Hier ist ein vereinfachter Ausschnitt meines Codes:

def process_page(self, url):
  soup = self.fetch_page_with_selenium(url)
  links = self.extract_PLZ_links(soup)

  for link in links:
    self.fetch_PLZ_details(link)

def run(self):
  try:
    for code in self.postal_codes:
      page_number = 1
      has_more_pages = True

      while has_more_pages:
        url = f"{self.base_url}/suche/-/{code}?page={page_number}"
        soup = self.fetch_page_with_selenium(url)
        links = self.extract_PLZ_links(soup)

        if links:
          for link in links:
            self.fetch_PLZ_details(link)
            page_number += 1
        else:
          has_more_pages = False
  finally:
    self.driver.quit()
    self.csv_handler.close_csv()

Hersteller = [Flaschenhersteller, Kartenhersteller, etc. ]
crawler = WebCrawler("https://beispielurl.de", Hersteller)
crawler.run()

Hat jemand eine Idee, warum der Crawler nicht zur nächsten Kategorie wechselt und wie ich dieses Problem beheben könnte? Ich bin für jeden Tipp dankbar!

...zum Beitrag

Ist es noch sinnvoll, NextJS zu lernen?

SEO ist kein Punkt, wenn ich ehrlich bin. Heutzutage können auch Crawler normales React crawlen.

Als Zweites kommt das Server Side Rendering doch nur beim ersten Aufruf der Seite wirklich etwas bringt.

Danach ist es stinknormales React, das nicht mehr im Server für mich ausgeführt wurde und als HTML geschickt wird.

Natürlich sind 0.5-1 Sekunden wichtig, um den Nutzer ein gutes Gefühl zu geben und alles.

Aber warum sollte man sich den Stress mit NextJS antun? So wichtig wie mir diese 0.5 Sekunden auch sind. Man kann auch an anderen Ecken leichter optimieren und komprimieren.

React ist eine leichtgewichtige Bibliothek für ein bisschen Rendering und Next ein richtiges Framework.

Vielleicht ist da noch der Vorteil, das Leute ohne JavaScript wenigstens irgendwas sehen, aber wenn ich ehrlich bin, können einem Menschen mit JavaScript aus egal sein. Das sind fast alle Aluhutträger und die will man nicht in irgendeiner Art ansprechen als Kunde.

Auch keine Menschen die noch Internet Explorer und veraltete Smartphones nutzen. Da nehme ich lieber Rücksicht auf Sehbehinderte.

Was sagt ihr? Macht es noch Sinn, NextJS zu lernen? Warum nutzt ihr das?

...zum Beitrag

Local Storage Daten Unsichtbar machen?

Hello, Ich baue eine Webseite aber ich will die Daten unsichtbar in local storage speichern, damit niemand die Daten sehen kann.

...zum Beitrag

Aufklappendes Menü in HTML und CSS?

Hallo,

wie macht man ein Menü, das sich aufklappt, sobald man über den Menüpunkt mit der Maus hovert? Wie auf gutefrage.net wenn man über z. B. "Startseite" hovert kommt ein Unter-Menü.

...zum Beitrag

Input type date?

Hallo, ich habe einen "input type date" auf meiner Website. Er ist aber standardmäßig weiß, was nicht zum Design der Website passt. Gibt es eine Möglichkeit es mit CSS oder anderwärtig zu stylen?

...zum Beitrag

Arduino+ Physik Programmierung: hat jemand zwei Programme einmal um Daten wie Umdrehungszahl und Winkelgeschwindigkeit zu sammeln?

...zum Beitrag

Daten aus MySQL auf Website darstellen?

Ich habe Daten in einer MySQL Datenbank, die ich gerne auf einer Website darstellen möchte, jeweils immer beim Klick auf einen Button (pro Button eine etwas andere Abfrage)

Eine entsprechende Abfrage dafür wird in JavaScript bereits erstellt.

Jetzt müssen die Daten nur noch abgerufen und eingefügt werden. - Nach allem, was ich gelesen habe, soll es sehr umständlich sein, MySQL in JavaScript zu verbinden.

Bisher habe ich probiert, die Abfrage per Cookie in PHP zu übertragen, dort die Daten abzufragen und zu echoen - das ganze mit einem getElementById().innervalue = ..., sodass immer die aktuelle Abfrage im DOM-Element ist, das passiert aber nur beim ersten Mal.

Das Abfragen der Daten in PHP und Zurückgeben an JS hat weder über einen Cookie, noch ein echo funktioniert.

...zum Beitrag

Daten aus Excel Tabelle in HTML Datei einfügen?

Wäre es möglich die Daten aus einer Excel Tabelle in die HTML Datei einzufügen, so das die HTML Datei sich automatisch aktualisiert wenn die excel tabelle erneuert wird?

Danke im voraus!

...zum Beitrag

html code popup fenster?

Hallo GuteFrage-Community,

kann mir jemand helfen? Früher hatte ich einen bestimmten Code auf meinen Webseiten, der dazu führte, dass beim Verlassen der Seite automatisch eine andere Seite geöffnet wurde. Ich glaube, es war ein Pop-up.

...zum Beitrag

JavaScript Daten von API abfragen?

Ich habe ein JavaScript Script, in dem ich ganz am Anfang einer Variable die Daten von einem API Request zuweisen muss. Die Daten sollen also in der Variable gespeichert werden und dann der restliche Code ausgeführt werden. Ich möchte, dass die Zuweisung so aussieht:

let data = loadData() | {/*default json*/}

Die Daten müssen da sein bevor der restliche Code ausgeführt wird, da ich sie in einer funktion im onload teil brauche.

...zum Beitrag

Wie lange würdet ihr für 1000 Besucher brauchen?

Wie lange glaubt ihr würdet ihr selber brauchen, um eine Seite von 0 Besuchern zu den ersten 1000 Besuchern zu führen und ebenso gute Backlinks aufzubauen? Glaubt ihr, dass es möglich ist in 3 Monaten eine gute Reichweite + Backlinks zu sammeln mit gutem mehrwerthaltigem Kontent, gutem Seo und Social Media Beiträgen?

...zum Beitrag

Ist es legal den Quelltext einer Seite zu bearbeiten?

Darf man den Seitenquelltext einer Seite, die einem nicht gehört, bearbeiten? Schliesslich wird das Resultat davon nur auf deinem eigenen Computer angezeigt oder?

...zum Beitrag

Formular Daten abfangen?

Gibt es ein Tool bzw. ein Server oderso womit ich die eingegebenen Daten meiner Kunden empfangen kann. Wenn es sowas nicht gibt, was ist die einfachste und kostengünstigste Art die Daten abzufangen. Mit PHP mail()?

...zum Beitrag

Datenbank verbinden?

Hey, ich habe Daten, die ich in eine Datenbank schreiben will. Dafür benutze ich eine Website von Hetzner. Ich habe alle meine Dateien hochgeladen, aber der Code, der mir für das Einbinden der Daten gegeben wurde, ist in php. Mein code benutzt Javascript mit node.js. Ich weiß nun nicht, wie ich meine Daten trotzdem in die Datenbank bekomme, auf die ich dann zugreifen kann, um die Daten schließlich auf die Website zu bekommen.

Vielen Dank schonmal :)

...zum Beitrag

Was möchtest Du wissen?

Deine Frage stellen