Wie Basisdaten von Kommunen aus Wikipedia nach Excel exportieren?

...komplette Frage anzeigen

3 Antworten

Man kann wohl die Daten aus Wikipedia systematisch abfragen, allerdings habe ich damit keine Erfahrung. Es wird wohl einiges an Einarbeitung erfordern. Das hier ist wohl eine gute erste Anlaufstelle https://www.wikidata.org/wiki/Help:Contents

Ansonsten findest du auf Wikipedia Listen mit Städten. Die Listen beinhalten immerhin einige deiner gesuchten Daten wie Einwohnerzahl, Fläche, Bevölkerungsdichte. Z.B. https://de.wikipedia.org/wiki/Liste_der_Gro%C3%9Fst%C3%A4dte_in_Deutschland

Antwort bewerten Vielen Dank für Deine Bewertung

Hallo,

man könnte als ersten Schritt die Basisdaten rechts auf der Wiki-Seite der betreffenden Stadt überstreichen und markieren. Dann mit Copy&Paste nach Excel transferieren. Dann dort noch ein wenig formatieren und schon hat man die Daten in Excel vorliegen, ohne sie abtippen zu müssen. 

Diese Vorgehensweise könnte noch mit einem Excel-Makro automatisiert werden, wenn man das kann und wenn sich das lohnt. 

Gruß Distel

Antwort bewerten Vielen Dank für Deine Bewertung
Kommentar von Sabbine93
22.02.2016, 19:18

Ja, Copy & Paste ist schon klar, aber gerade diesen Vorgang würden wir ja gerne automatisieren. Die Frage ist ob man diesbezüglich auf die Wikipedia Datenbank zugreifen kann oder es Tools gibt, die die Infos von den Wikipediaeintragsseiten grabben können.

0

Ist etwas der Grenzbereich meiner Kenntnisse - muss es unbedingt Wikipedia sein? Das Problem dort ist, dass im Quelltext Unmengen Krempel steht bevor man zum eigentlichen Inhalt kommt - ich würde nicht über die Oberfläche, sondern den Quelltext gehen um die Infos auszulesen.

Etwas besser wird es, wenn man die mobile Seite von Wikipedia nimmt

https://de.m.wikipedia.org/wiki/Aachen zum Beispiel

Übers Internet flux geklaut:

http://www.herber.de/forum/archiv/1044to1048/1044769_Inhalt_aus_URLWebseiten_auslesen.html

http://www.herber.de/mailing/Textdatei_nach_Begriff_durchsuchen_und_Fundzeile_importieren.htm

und etwas angepasst: Da ich mit Datei-Schubsen nicht unbedingt große Erfahrung habe, ein vermutlich etwas holperiger Weg:

- Du listest in Excel in Spalte A die ganzen URLs auf (komplett ausgeschrieben, notfalls mit Verketten zusammenfügen, wenn es eine feste Logik ist, also meinetwegen "de.m.wikipedia.org/wiki/" & Name der Stadt, wenn nur diese vorliegt.

Ein Skript, um die Wikiseiten bzw. deren Quellcode in eigene Txt Dateien zu speichern. Da Wikipedia leider viel Drumherum im Quelltext hat, klappt die Ablage direkt in Excel nicht. Das ginge mit einer etwas einfacher gestrickten Seite wie http://www.staedtedaten.de/ - dort sind die Daten aber wohl etwas älter).
Gefunden hab ich die Variante für den Internet Explorer, der muss da sein:

   Set appIE = CreateObject("InternetExplorer.Application")
   While Cells(i, 1).Value <> ""
   sURL = Cells(i, 1).Value
   appIE.navigate sURL
   Do: Loop Until appIE.Busy = False
   Do: Loop Until appIE.Busy = False
   sTxt = appIE.document.DocumentElement.outerHTML

   Open "F:\\\\test" & i & ".txt" For Output As #1 'Pfad ggf. anpassen!
   Print #1, sTxt
   Close
   i = i + 1
   Wend
   Set appIE = Nothing
   Close
End Sub

Dann ein Skript, dass in den Txt Dateien nach einem Suchbegriff wühlt. Wenn ich die Frage richtig verstehe, wäre "Fläche:" das erste, was benötigt wird. Wenn Suchbegriffe mehrfach vorkommen, muss man etwas mit HTML Tags fummeln um den richtigen zu erwischen

Sub TextImport()
Dim i As Long
   Dim iFile As Integer
   Dim sSearch As String, sTxt As String
   Dim sFile As String
   i = 1
   While Cells(i, 1).Value <> ""
   sFile = "F:\\\\test" & i & ".txt" 'Pfad wie im ersten Script!
   If Dir(sFile) = "" Then
      Beep
      MsgBox "Datei nicht vorhanden"
      Exit Sub
   End If
   iFile = FreeFile
   sSearch = "Fläche</a>:"
   Open sFile For Input As iFile
   Do Until EOF(1)
      Input #iFile, sTxt
      If InStr(sTxt, sSearch) Then
         Cells(i, 2).Value = sTxt
         Exit Do
      End If
   Loop
   Close iFile
   i = i + 1
   Wend
End Sub

Ganz zu Ende ist das noch nicht, das klatscht die gesamte Zeile des Suchtreffers nach Excel. Im Idealfall sind da alle benötigten Daten enthalten.

Das Suchen kann dann mit üblichen Formeln weiterbetrieben werden
=TEIL(B1;FINDEN("Einwohner:";B1);58) und die HTML Tags noch rausfummeln. Da haben die anderen Excelleute hier bestimmt bessere Ideen noch als ich.

Ob das in Summe aber besser klappt als gute Handarbeit weiß ich nicht. Du müsstest stichprobenartig kontrollieren, ob die Seiten bei Wikipedia wirklich gleich aufgebaut sind. Berlin funktioniert da bspw. nicht, da andere Begriffe verwendet werden.

Antwort bewerten Vielen Dank für Deine Bewertung
Kommentar von Iamiam
23.02.2016, 12:05

die AW muss ich mir bergen und ausprobieren, wenn ich mal wieder viiiel Zeit habe, im Moment leider nicht. sieht aber vielversprechend aus, DH!

0

Was möchtest Du wissen?