Gesamte Wikipedia mit großen Bildern Offline downloaden?

...komplette Frage anzeigen

1 Antwort

Du kannst dir alle Wikipedia-Dumps als GZippte, 7Zippte oder BZip2te XML- oder SQL-Dateien runterladen. (man klingt das schräg ^^)

Die Dumps werden alle paar Wochen erneuert, also solltest du auf dem aktuellsten Stand sein.

Ich nehme die immer für NLP (natural language processing) und um KIs zu trainieren.

Die Dumps gibt es in bestimmten Kategorien: Nur Überschriften, Überschriften und Artikel, Überschriften und Artikel und das gesamte Edit-History zu allen Artikeln. Optional auch mit allen bisher gelöschten Artikeln.

Dazu musst du dir aber einiger Kleinigkeiten bewusst sein: Gerade die Englische und die Deutsche Wikipedia ist verdammt groß. Wenn du dir die 7zip-Version mit knapp 10 GB runter lädst, wird diese am Ende in eine fast 2TB große XML-Datei entpackt. Allein dieser Vorgang dauert mehrere Tage!

Desweiteren solltest du so einen großen Download nicht mit einem Webbrowser durchführen, sondern mindestens mit einem geeigneten Download-Manager, oder am besten einem Kommandozeilen-Werkzeug wie wget oder curl, da die auch sehr gut mit Verbindungsabbrüchen umgehen können.

Nach dem Download unbedingt die Prüfsumme verifizieren, sonst entpackst du 4 Tage lang dein Archiv, und stellst am Ende fest, dass aufgrund eines Fehlers abgebrochen wurde.

So, das nur vorweg. Jetzt kommen wir zu der Sache mit den Bildern. Kurz gesagt: Vergiss es! :)

Die Bilder lassen sich nicht mal annäherend so gut kompromieren und packen wie reine Text- bzw. XML- oder SQL-Dumps. Vor allem allein die hochauflösenden Bilder werden alleine schon mehrere hundert TB (nicht GB!) an Speicher benötigen.

Meine Emfpehlung: Was auch immer du tust, gib dich entweder mit den Mini-Versionen der Bilder zufrieden, oder lade dir nur einen klitzekleinen Bruchteil der hochauflösenden Bilder runter. Mit mehr wirst du vermutlich sowieso nichts anfangen können, und die Wikimedia-Foundation wird daran nur Bandbreite verschwenden.

Außerdem kommt man auf üblichem Wege - anders als bei den Datenbank-Dumps - auch gar nicht an das Bildarchiv ran.

Bedenke bitte immer, dass die Wikipedia ein kostenloses Projekt von Freiwilligen ist, und wenn du wirklich viel Downloaden willst, dann solltest du evtl. auch ein paar Euro spenden! :)

Zum Schluss, hier noch der heiße Link, auf den du schon so sehnlichst gewartet hast:

http://dumps.wikimedia.org/backup-index.html

Wie gesagt, das sind nur Textdaten! Wenn du die Deutsche Wikipedia runterladen willst, klicke erst auf "Database backup dumps" und danach wählst du unten "dewiki". Es gibt noch andere Typen, wie "dewikisource", "dewikibooks", "dewikivoyage", "dewikinews", "dewikiversity", "dewikiquote", usw. aber dir geht es ja um die Hauptwikipedia, oder?

Die Englische Wikipedia heißt naheliegenderweise "enwiki", und z. B. die Japanische heißt "jawiki".

Noch ein Hinweis: Dahinter muss "Dump complete" stehen. Ist das nicht der Fall, musst du dich evtl. einige Tage lang gedulden, denn das Packen der Dumps dauert selbst auf Hochleistungsrechnern der Wikimedia-Foundation mehrere Tage. Aber das passiert nur ein mal alle paar Wochen, also kann man fast immer ohne Wartezeit runterladen.

Der aktuelle deutsche Wikipedia Dump hat das Datum "2015-11-27 16:45:45", ist also verdammt frisch! :)

Wenn du dann auf den Link klickst, kommst du auf eine Übersichtsseite.

Bitte beachte den Hinweis ganz oben: "Verify downloaded files against the (md5), (sha1) checksums to check for corrupted files.", und lade dir erst mal eine Datei mit den Prüfsummen herunter um später deine Downloads verifizieren zu können. (Die sind sehr klein ... höchstens ein paar KB!)

Dann lädst du dir den Dump deiner Wahl runter.

Und ich sehe gerade, dass die Dumps mit komplettem Edit-History übersprungen wurden. Dort steht: "skipped All pages with complete edit history (.7z)".

Ich nehme an, da diese Dateien den mit Abstand größten Aufwand verursachen, werden die nur ein mal alle paar Monate gepackt. Was ja auch verständlich ist.

Aber wie gesagt: Die Sache mit deinen Bildern solltest du dir nochmal überlegen! Hochauflösende Bilder sind selbst im JPEG-Format oft mehr als 1MB groß! Für nur 1000 Bilder benötigst du dann ja schon einen ganzen Gigabyte an Plattenplatz.

Trotzdem viel Erfolg bei deinem Projekt! :)

Antwort bewerten Vielen Dank für Deine Bewertung
Kommentar von MrImo20
28.11.2015, 23:06

Wow, klasse Text! Einer der besten Antworten, die ich jemals auf dieser Platform gelesen habe.

2

Was möchtest Du wissen?