Speichert die WayBack-machine alles?
Ist das überhaupt legal?
Wenn im Internet etwas dazu geschrieben steht, hört es sich immer so an, als ob ausnahmslos alles dort gespeichert werden würde.
Gibt es denn denn einen Weg etwas aus der WayBack-machine wieder löschen zu lassen?
8 Antworten
Die Wayback Machine indexiert nur die Webseiten und macht HTML-Crawls
Den Rest nicht. Aber es ist legal
Bei Archive.org selbst bin ich mir nicht ganz sicher. Einmal war davon, dass sie die Rechte bekommen haben, solche Sachen zu Präservierungszwecken hochzuladen
archive.org ist die Webseite. Die Wayback Machine ist ein Teil von archive.org
klar ist das legal
und nein weil leute selber das dort eintragen müssen, die "snapshots"
Nein, die Snapshots werden automatisch von einem Crawler erzeugt. Meine Webseiten die ich mal Betrieben habe sind auch mit Snapshots vertreten und ich habe nie einen dort hochgeladen.
Die kann auch jemand anderes hochgeladen haben, das ist ja was ich meine, jeder beliebige kann jede Seite von jedem hochladen und man selbst merkt es nicht mal.
Ich wüsste nicht wo man bei der Waybackmachine eine Seite hochladen kann (kann man aber wohl auch). Davon ab nutzen die tatsächlich einen Crawler zum speichern der Seiten.
What are the sources of your captures?
When you roll over individual web captures (that pop-up when you roll over the dots on the calendar page for a URL,) you may notice some text links shows up above the calendar, along with the word “why”. Those links will take you to the Collection of web captures associated with the specific web crawl the capture came from. Every day hundreds of web crawls contribute to the web captures available via the Wayback Machine. Behind each, there is a story about factors like who, why, when and how.
https://help.archive.org/hc/en-us/articles/360004716091-Wayback-Machine-General-Information
gehst auf die website
rechts unten "save page now"
ist jetzt nicht so schwer raus zu finden
Gut zu wissen, wenn im Internet etwas dazu geschrieben steht, hört es sich immer so an, als würde ausnahmslos alles dort gespeichert werden.
Das klang für mich persönlich ziemlich unangenehm.
ich wünschte das wäre so, weil dann könnte ich mir webseiten anschauen von vor 15 jahren die heute nicht mehr existieren....
nein, wäre ja viel zu viel arbeit
Im FAQ ist eine E-Mail wo man seine löschanfrage stellen kann
Nicht alles, nein.
Legal, grenzwertig. Aber wenn sich wer beschwert nehmen die das runter.
Theoretisch natürlich nicht legal, weil das Urheberrechtlich geschütztes Material ist.
Die WayBack Machine speichert nicht alles, dazu ist sie gar nicht in der Lage. Als Webseitenbetreiber kannst Du mithilfe der robots.txt der WayBack Machine auch verbieten, dass sie Deine Webseite archiviert. Die robots.txt ist eine Textdatei, die entsprechende Anweisungen u. a. für Suchmaschinen enthält. Sowohl die mir bekannten Suchmaschinen als auch die WayBack Machine halten sich an diese Anweisungen.
Hä das tun sie doch schon lange nicht mehr
Was ist "das" und wer ist "sie"?
Es ist immer hilfreich, wenn man den Bezug zur Antwort herstellt.
Nein. Die großen Suchmaschinen und auch archive.org respektieren die robots.txt. Alles andere können sie sich gar nicht erlauben. Und ja, ich spreche aus eigener Erfahrung. Von mir ist keine einzige Webseite bei archive.org archiviert. Es gab mal Snapshots, die wurden dann entfernt, als ich die robots.txt entsprechend angepasst wurde. Dasselbe gilt für die Suchmaschinen. Auch da ist nur das zu finden, was ich gemäß robots.txt erlaube.
Ab 2017 haben die aber gesagt die ignorieren das in zukunft oder haben sie das wieder rückgängig gemacht?
Ab 2017 haben die aber gesagt die ignorieren das in zukunft
Das wäre mir neu. Du hast sicherlich eine Quelle dafür.
Naja wenn man das nicht möchte kann man ja immernoch den User Agent oder den IP Adressbereich blockieren.
Richtig, das ist aber wieder eine aufwändigere Sonderlocke. Sie haben die robots.txt, die ja durchaus für solche Zwecke ist, früher respektiert. Sich so wissentlich über den Willen des Urhebers hinwegzusetzen ist schon frech. Den User Agent können sie jederzeit ändern, die IP-Adressen auch.
Machen sie aber nicht so das man sie doch identifizieren und blockieren kann wenn man möchte.
IP und User Agent sperren sind sowieso oft schon eingerichtet wegen den anderen 1.000+ Bots und angreifern die täglich auf den Server hämmern. Manche sind ja sogar schon so dreist und benutzen den User Agenten von archive.org um sich zu tarnen was auch schon bekannt ist.
Machen sie aber nicht so das man sie doch identifizieren und blockieren kann wenn man möchte.
So wie sie festgestellt haben, dass sie zu häufig mittels robots.txt ausgesperrt werden, werden sie irgendwann auf die Idee kommen, dass sie zu häufig über den User Agent ausgesperrt werden. Du weißt nicht, auf welche Ideen sie noch kommen.
Manche sind ja sogar schon so dreist und benutzen den User Agenten von archive.org um sich zu tarnen was auch schon bekannt ist.
Dann nehme ich doch gleich den aktuellen Edge, Chrome oder Firefox.
Ist archive.org nicht die Wayback Machine?