Was macht die robots.txt File?

...komplette Frage anzeigen

3 Antworten

robots.txt ist eine Standardisierung um Suchmaschienenbots zu sagen, ob sie die seite crawlen dürfen oder nicht und wenn ja, welche Unterordner sie listen dürfen oder nicht.  Hauptsächlich verwendet man das, um dem Google Bot zu sagen, dass er bestimmte Inhalte nicht listen soll.  Kann aber auch verwendet werden, um ihm den Zugriff komplett zu verweigern oder um z.B. zu verhindern, dass der Bot von archive.org deine Seite crawlt, bzw. um die dort gespeicherten Versionen deiner Seite zu löschen.

Im allgemeinen also einfach eine Datei, die jeglichen legalen Bots, die auf die Seite kommen sagen kann, was sie hier dürfen und was nicht.  Spam Bots usw. wird das nicht interessieren.

Antwort bewerten Vielen Dank für Deine Bewertung

https://de.wikipedia.org/wiki/Robots_Exclusion_Standard

deafcto ein Schild mit der Aufschrift:

"Wir bitten die Besucher dieser Webseite, die vorgegebenen Wege nicht zu verlassen. Der Zutritt zu den anderen Bereichen erwünscht."

für die crawler bots der Suchmaschinen. Mehr nicht.

Antwort bewerten Vielen Dank für Deine Bewertung
Kommentar von TeeTier
08.02.2016, 18:19

Manchmal steht auf dem Schild übersetzt auch Folgendes drauf:

Wir laden alle Hacker dieser Welt recht herzlich dazu ein, sich in unserem Admin-Bereich frei zu bewegen, und sämtliche Funktionen nach Herzenslust auszuprobieren.

... zumindest wenn der Inhalt so aussieht:

User-Agent: *
Disallow: /geheim/admin.php?user=foo&pass=bar

Kein Scherz! Ich habe da mal vor einigen Jahren einen Primitivst-Crawler gebaut, weil ich mal ein paar Statistiken bzgl. der robots.txt sammeln wollte, und bin dabei tausendfach auf solche Perlen gestoßen.

Meistens sind Login-Daten zwar nicht angegeben, aber oftmals braucht man die auch gar nicht, da der "geheime Pfad" vermeintlich als Sicherungsmaßnahme ausreicht. Einige Leute scheinen "Disallow" falsch zu verstehen. :)

Immer wenn man denkt, man hat schon alles gesehen, einfach mal ein paar robots.txt anschauen! :)

0

Die sagt Google, ob eine Internetseite gelistet werden soll oder nicht (in den Ergebnissen auftaucht) . 

Ist auch keine "File" sondern eine Datei.

Antwort bewerten Vielen Dank für Deine Bewertung
Kommentar von medmonk
08.02.2016, 03:00

Ist auch keine "File" sondern eine Datei.

File = englisch > Datei = deutsch. 

In diesem Fall eine Textdatei im .txt Format. 


0

Was möchtest Du wissen?