Ist das überhaupt legal?

Speichert die WayBack-machine alles? (Computer, Technik, Internet)

Vom Fragesteller als hilfreich ausgezeichnet

PauliLP

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Computer, YouTube, Technik

05.06.2021, 22:52

Die Wayback Machine indexiert nur die Webseiten und macht HTML-Crawls

Den Rest nicht. Aber es ist legal

Bei Archive.org selbst bin ich mir nicht ganz sicher. Einmal war davon, dass sie die Rechte bekommen haben, solche Sachen zu Präservierungszwecken hochzuladen

Woher ich das weiß:Hobby – Besitze ein YouTube-Archiv mit 40.000+ Videos

knattermann

30.08.2021, 10:07

Ist archive.org nicht die Wayback Machine?

0

PauliLP

09.09.2021, 15:42

@knattermann

archive.org ist die Webseite. Die Wayback Machine ist ein Teil von archive.org

0

KeepoKappa

05.06.2021, 18:31

klar ist das legal

und nein weil leute selber das dort eintragen müssen, die "snapshots"

verreisterNutzer

05.06.2021, 19:13

Gut zu wissen, wenn im Internet etwas dazu geschrieben steht, hört es sich immer so an, als würde ausnahmslos alles dort gespeichert werden.

Das klang für mich persönlich ziemlich unangenehm.

0

KeepoKappa

05.06.2021, 19:14

@verreisterNutzer

ich wünschte das wäre so, weil dann könnte ich mir webseiten anschauen von vor 15 jahren die heute nicht mehr existieren....

nein, wäre ja viel zu viel arbeit

1

Stadewaeldchen

05.06.2021, 22:58

Nein, die Snapshots werden automatisch von einem Crawler erzeugt. Meine Webseiten die ich mal Betrieben habe sind auch mit Snapshots vertreten und ich habe nie einen dort hochgeladen.

0

verreisterNutzer

06.06.2021, 11:38

@Stadewaeldchen

Die kann auch jemand anderes hochgeladen haben, das ist ja was ich meine, jeder beliebige kann jede Seite von jedem hochladen und man selbst merkt es nicht mal.

0

Stadewaeldchen

06.06.2021, 11:44

@verreisterNutzer

Ich wüsste nicht wo man bei der Waybackmachine eine Seite hochladen kann (kann man aber wohl auch). Davon ab nutzen die tatsächlich einen Crawler zum speichern der Seiten.

What are the sources of your captures?

When you roll over individual web captures (that pop-up when you roll over the dots on the calendar page for a URL,) you may notice some text links shows up above the calendar, along with the word “why”. Those links will take you to the Collection of web captures associated with the specific web crawl the capture came from. Every day hundreds of web crawls contribute to the web captures available via the Wayback Machine. Behind each, there is a story about factors like who, why, when and how.

https://help.archive.org/hc/en-us/articles/360004716091-Wayback-Machine-General-Information

1

KeepoKappa

06.06.2021, 19:35

@Stadewaeldchen

gehst auf die website

rechts unten "save page now"

ist jetzt nicht so schwer raus zu finden

0

Stadewaeldchen

06.06.2021, 19:40

@KeepoKappa

Ich lass das den Crawler machen

0

TeamStoffcouch

Nutzer, der sehr aktiv auf gutefrage ist

im Thema Internet

06.06.2021, 01:10

Im FAQ ist eine E-Mail wo man seine löschanfrage stellen kann

Woher ich das weiß:eigene Erfahrung – Ich bin viel auf Youtube und habe einen Youtube Kanal

jort93

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Computer, Internet, Technik

05.06.2021, 22:48

Nicht alles, nein.

Legal, grenzwertig. Aber wenn sich wer beschwert nehmen die das runter.

Theoretisch natürlich nicht legal, weil das Urheberrechtlich geschütztes Material ist.

franzhartwig

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Computer, Internet, Technik

05.06.2021, 19:41

Die WayBack Machine speichert nicht alles, dazu ist sie gar nicht in der Lage. Als Webseitenbetreiber kannst Du mithilfe der robots.txt der WayBack Machine auch verbieten, dass sie Deine Webseite archiviert. Die robots.txt ist eine Textdatei, die entsprechende Anweisungen u. a. für Suchmaschinen enthält. Sowohl die mir bekannten Suchmaschinen als auch die WayBack Machine halten sich an diese Anweisungen.

TeamStoffcouch

06.06.2021, 00:35

Hä das tun sie doch schon lange nicht mehr

0

franzhartwig

06.06.2021, 11:10

@TeamStoffcouch

Hä das tun sie doch schon lange nicht mehr

Was ist "das" und wer ist "sie"?

Es ist immer hilfreich, wenn man den Bezug zur Antwort herstellt.

0

TeamStoffcouch

06.06.2021, 12:10

@franzhartwig

Der crawler ignoriert die robots.txt

0

franzhartwig

06.06.2021, 12:46

@TeamStoffcouch

Nein. Die großen Suchmaschinen und auch archive.org respektieren die robots.txt. Alles andere können sie sich gar nicht erlauben. Und ja, ich spreche aus eigener Erfahrung. Von mir ist keine einzige Webseite bei archive.org archiviert. Es gab mal Snapshots, die wurden dann entfernt, als ich die robots.txt entsprechend angepasst wurde. Dasselbe gilt für die Suchmaschinen. Auch da ist nur das zu finden, was ich gemäß robots.txt erlaube.

0

TeamStoffcouch

06.06.2021, 13:42

@franzhartwig

Ab 2017 haben die aber gesagt die ignorieren das in zukunft oder haben sie das wieder rückgängig gemacht?

0

franzhartwig

06.06.2021, 13:43

@TeamStoffcouch

Ab 2017 haben die aber gesagt die ignorieren das in zukunft

Das wäre mir neu. Du hast sicherlich eine Quelle dafür.

0

TeamStoffcouch

06.06.2021, 13:44

@franzhartwig

https://www.heise.de/newsticker/meldung/Archivierung-des-Internets-Internet-Archive-ignoriert-kuenftig-robots-txt-3693558.html

1

franzhartwig

06.06.2021, 23:03

@TeamStoffcouch

Vielen Dank, das war mir entgangen. Mist-Laden.

0

TeamStoffcouch

06.06.2021, 23:10

@franzhartwig

Naja wenn man das nicht möchte kann man ja immernoch den User Agent oder den IP Adressbereich blockieren.

0

franzhartwig

06.06.2021, 23:12

@TeamStoffcouch

Richtig, das ist aber wieder eine aufwändigere Sonderlocke. Sie haben die robots.txt, die ja durchaus für solche Zwecke ist, früher respektiert. Sich so wissentlich über den Willen des Urhebers hinwegzusetzen ist schon frech. Den User Agent können sie jederzeit ändern, die IP-Adressen auch.

0

TeamStoffcouch

06.06.2021, 23:22

@franzhartwig

Machen sie aber nicht so das man sie doch identifizieren und blockieren kann wenn man möchte.

IP und User Agent sperren sind sowieso oft schon eingerichtet wegen den anderen 1.000+ Bots und angreifern die täglich auf den Server hämmern. Manche sind ja sogar schon so dreist und benutzen den User Agenten von archive.org um sich zu tarnen was auch schon bekannt ist.

0

franzhartwig

06.06.2021, 23:31

@TeamStoffcouch

Machen sie aber nicht so das man sie doch identifizieren und blockieren kann wenn man möchte.

So wie sie festgestellt haben, dass sie zu häufig mittels robots.txt ausgesperrt werden, werden sie irgendwann auf die Idee kommen, dass sie zu häufig über den User Agent ausgesperrt werden. Du weißt nicht, auf welche Ideen sie noch kommen.

Manche sind ja sogar schon so dreist und benutzen den User Agenten von archive.org um sich zu tarnen was auch schon bekannt ist.

Dann nehme ich doch gleich den aktuellen Edge, Chrome oder Firefox.

1

Speichert die WayBack-machine alles?

8 Antworten