Speichert die WayBack-machine alles?


05.06.2021, 19:15

Wenn im Internet etwas dazu geschrieben steht, hört es sich immer so an, als ob ausnahmslos alles dort gespeichert werden würde.

Gibt es denn denn einen Weg etwas aus der WayBack-machine wieder löschen zu lassen?

8 Antworten

Vom Fragesteller als hilfreich ausgezeichnet

Die Wayback Machine indexiert nur die Webseiten und macht HTML-Crawls

Den Rest nicht. Aber es ist legal

Bei Archive.org selbst bin ich mir nicht ganz sicher. Einmal war davon, dass sie die Rechte bekommen haben, solche Sachen zu Präservierungszwecken hochzuladen

Woher ich das weiß:Hobby – Besitze ein YouTube-Archiv mit 40.000+ Videos
knattermann  30.08.2021, 10:07

Ist archive.org nicht die Wayback Machine?

0
PauliLP  09.09.2021, 15:42
@knattermann

archive.org ist die Webseite. Die Wayback Machine ist ein Teil von archive.org

0

klar ist das legal

und nein weil leute selber das dort eintragen müssen, die "snapshots"

verreisterNutzer  05.06.2021, 19:13

Gut zu wissen, wenn im Internet etwas dazu geschrieben steht, hört es sich immer so an, als würde ausnahmslos alles dort gespeichert werden.

Das klang für mich persönlich ziemlich unangenehm.

0
KeepoKappa  05.06.2021, 19:14
@verreisterNutzer

ich wünschte das wäre so, weil dann könnte ich mir webseiten anschauen von vor 15 jahren die heute nicht mehr existieren....

nein, wäre ja viel zu viel arbeit

1
Stadewaeldchen  05.06.2021, 22:58

Nein, die Snapshots werden automatisch von einem Crawler erzeugt. Meine Webseiten die ich mal Betrieben habe sind auch mit Snapshots vertreten und ich habe nie einen dort hochgeladen.

0
verreisterNutzer  06.06.2021, 11:38
@Stadewaeldchen

Die kann auch jemand anderes hochgeladen haben, das ist ja was ich meine, jeder beliebige kann jede Seite von jedem hochladen und man selbst merkt es nicht mal.

0
Stadewaeldchen  06.06.2021, 11:44
@verreisterNutzer

Ich wüsste nicht wo man bei der Waybackmachine eine Seite hochladen kann (kann man aber wohl auch). Davon ab nutzen die tatsächlich einen Crawler zum speichern der Seiten.

What are the sources of your captures?
When you roll over individual web captures (that pop-up when you roll over the dots on the calendar page for a URL,) you may notice some text links shows up above the calendar, along with the word “why”. Those links will take you to the Collection of web captures associated with the specific web crawl the capture came from. Every day hundreds of web crawls contribute to the web captures available via the Wayback Machine. Behind each, there is a story about factors like who, why, when and how.

https://help.archive.org/hc/en-us/articles/360004716091-Wayback-Machine-General-Information

1
KeepoKappa  06.06.2021, 19:35
@Stadewaeldchen

gehst auf die website

rechts unten "save page now"

ist jetzt nicht so schwer raus zu finden

0

Im FAQ ist eine E-Mail wo man seine löschanfrage stellen kann

Woher ich das weiß:eigene Erfahrung – Ich bin viel auf Youtube und habe einen Youtube Kanal

Nicht alles, nein.

Legal, grenzwertig. Aber wenn sich wer beschwert nehmen die das runter.

Theoretisch natürlich nicht legal, weil das Urheberrechtlich geschütztes Material ist.

Die WayBack Machine speichert nicht alles, dazu ist sie gar nicht in der Lage. Als Webseitenbetreiber kannst Du mithilfe der robots.txt der WayBack Machine auch verbieten, dass sie Deine Webseite archiviert. Die robots.txt ist eine Textdatei, die entsprechende Anweisungen u. a. für Suchmaschinen enthält. Sowohl die mir bekannten Suchmaschinen als auch die WayBack Machine halten sich an diese Anweisungen.

TeamStoffcouch  06.06.2021, 00:35

Hä das tun sie doch schon lange nicht mehr

0
franzhartwig  06.06.2021, 11:10
@TeamStoffcouch
Hä das tun sie doch schon lange nicht mehr

Was ist "das" und wer ist "sie"?

Es ist immer hilfreich, wenn man den Bezug zur Antwort herstellt.

0
franzhartwig  06.06.2021, 12:46
@TeamStoffcouch

Nein. Die großen Suchmaschinen und auch archive.org respektieren die robots.txt. Alles andere können sie sich gar nicht erlauben. Und ja, ich spreche aus eigener Erfahrung. Von mir ist keine einzige Webseite bei archive.org archiviert. Es gab mal Snapshots, die wurden dann entfernt, als ich die robots.txt entsprechend angepasst wurde. Dasselbe gilt für die Suchmaschinen. Auch da ist nur das zu finden, was ich gemäß robots.txt erlaube.

0
TeamStoffcouch  06.06.2021, 13:42
@franzhartwig

Ab 2017 haben die aber gesagt die ignorieren das in zukunft oder haben sie das wieder rückgängig gemacht?

0
franzhartwig  06.06.2021, 13:43
@TeamStoffcouch
Ab 2017 haben die aber gesagt die ignorieren das in zukunft 

Das wäre mir neu. Du hast sicherlich eine Quelle dafür.

0
TeamStoffcouch  06.06.2021, 23:10
@franzhartwig

Naja wenn man das nicht möchte kann man ja immernoch den User Agent oder den IP Adressbereich blockieren.

0
franzhartwig  06.06.2021, 23:12
@TeamStoffcouch

Richtig, das ist aber wieder eine aufwändigere Sonderlocke. Sie haben die robots.txt, die ja durchaus für solche Zwecke ist, früher respektiert. Sich so wissentlich über den Willen des Urhebers hinwegzusetzen ist schon frech. Den User Agent können sie jederzeit ändern, die IP-Adressen auch.

0
TeamStoffcouch  06.06.2021, 23:22
@franzhartwig

Machen sie aber nicht so das man sie doch identifizieren und blockieren kann wenn man möchte.

IP und User Agent sperren sind sowieso oft schon eingerichtet wegen den anderen 1.000+ Bots und angreifern die täglich auf den Server hämmern. Manche sind ja sogar schon so dreist und benutzen den User Agenten von archive.org um sich zu tarnen was auch schon bekannt ist.

0
franzhartwig  06.06.2021, 23:31
@TeamStoffcouch
Machen sie aber nicht so das man sie doch identifizieren und blockieren kann wenn man möchte.

So wie sie festgestellt haben, dass sie zu häufig mittels robots.txt ausgesperrt werden, werden sie irgendwann auf die Idee kommen, dass sie zu häufig über den User Agent ausgesperrt werden. Du weißt nicht, auf welche Ideen sie noch kommen.

Manche sind ja sogar schon so dreist und benutzen den User Agenten von archive.org um sich zu tarnen was auch schon bekannt ist.

Dann nehme ich doch gleich den aktuellen Edge, Chrome oder Firefox.

1