Das Internet herunterladen?

7 Antworten

Du kannst mit WinHTTrack Webseiten crawlen. Diese verbrauchen nicht viel, es kommt aber stark auf die Webseite an.

Wenn du sie mit den besten Einstellungen in 7zip komprimierst, verbrauchen sie meistens 80% weniger Speicher

Woher ich das weiß:Hobby – Besitze ein YouTube-Archiv mit 40.000+ Videos

Wenn Du das einigermaßen professionell betreiben willst, dann brauchst Du einen Proxyserver. SQUID ist eine kostenfreie Software.

So oder so Webseiten ist nichts, was man generell "downloaden" kann. Das war mal um die Jahrtausendwende vielleicht so. Heutzutage sind das Computerprogramme - und die brauchen eine entsprechende Umgebung, auf der sie ausgeführt werden - php z. B.

Das kommt auf die Webseite an. Wenn du Teile von YouTube runterladen willst, ist da je nach Videolänge sehr schnell Ende. Bei reinen textbasierten Seiten bekommst du extrem viel drauf...

Ich habe alle Startseiten des gesamten öffentlichen IPv4-Bereichs runter geladen, aber dort sind natürlich keine Websites von Multihosts enthalten, was den mit Abstand größten Teil des Internets ausmachen dürfte.

Dennoch frisst nur DAS schon viele hundert Gigabyte!

Falls du hingegen bestimmte Websites inklusive aller Unterseiten, Skripte und Bilder lokal bei dir speichern willst, so geht das z. B. mit wget sehr elegant.

Aber bei Riesenseiten wie GF stößt du damit an Grenzen. Für kleinere Websites, oder Teile davon, nutze ich das aber sehr oft und gerne, v. a. für Tutorialserien, Blogs, Dokumentationen, usw.

Da viele Webseitenbetreiber das aber nicht wollen, muss man teilweise Kopfstände machen, um etwaige Blockadeversuche zu umgehen.

Dennoch sollte man fremde Server nie überlasten. Eine Pause zwischen einzelnen Requests von 5 bis 60 Sekunden - je nach Umfang der Website - gehört zum guten Ton, genauso wie das Hinterlassen einer Kontaktmöglichkeit im User-Agent-Header.

Aber das GESAMTE Internet, kannst du realistisch betrachtet nur seeeehr bruchstückhaft herunter laden!

Trotzdem viel Erfolg! :)

Woher ich das weiß:Berufserfahrung

Google versucht, den größten Teil des Internets runterzuladen um die Suchmaschine zu füttern, dafür haben sie etliche Rechenzentren mit schnellster Internetanbindung und wahnsinnig viel Speicherkapazität.

Was möchtest Du wissen?