Hilfe bei Datenbereinigung?
Hallo zusammen,
ich belege momentan einen Statistik-Kurs und stehe bei der Datenbereinigung vor ein paar Herausforderungen. Ich habe bereits eine Bereinigung vorgenommen und anschließend weitergerechnet, allerdings passen meine Zwischenergebnisse noch nicht ganz. Vielleicht übersehe ich etwas, und ich wollte die Community um Rat fragen.
Hier sind die Schritte, die ich bisher unternommen habe:
- Zeilen mit fehlenden Werten entfernt
- Fehlerhafte Datumsangaben korrigiert
- Fehlende Semikolons eingefügt
- Ungültige oder unplausible Werte bereinigt
Gibt es sonst noch typische Fehlerquellen, auf die ich achten sollte? Vielen Dank für jeden Tipp!
2 Antworten
Ich habe bereits eine Bereinigung vorgenommen und anschließend weitergerechnet, allerdings passen meine Zwischenergebnisse noch nicht ganz.
Was hast du denn da gerechnet? Inwiefern passen die Zwischenergebnisse nicht?
============
Du hast gemeint, dass du unter anderem bereits...
„• Fehlerhafte Datumsangaben korrigiert“
... und...
„• Ungültige oder unplausible Werte bereinigt“
... hast. Das scheint dir aber (insbesondere bei den Datumsangaben) noch nicht vollständig gelungen zu sein.
Was mir spontan auffällt, ist, dass die Datumsangaben nicht alle das gleiche Format haben. Beispielsweise weichen die Einträge...
011;Frau;Yvonne;Schwan;07.03.
052;Frau;Elisabeth;Wolff;???
067;Herr;Rainer;Krämer;
078;Frau;Sophia;Schubert;JUeQaztDLp
079;Frau;Diana;Seidel;unbekannt
104;Herr;Tim;Pfeiffer; im März 1964
109;Herr;Peter;Schnell;29. September
... bzgl. des Datumsformats deutlich voneinander ab und beinhalten teils unvollständige oder ungültige Angaben.
Des Weiteren ist mir aufgefallen, dass beim Eintrag...
010;Herr;Alfred;Schnell;17.06.1700
... mit der Jahreszahl 1700 deutlich von den anderen Einträgen (mit Jahreszahlen in der zweiten Hälfte des 20. Jahrhunderts) abweicht.
------ Ergänzung ------
Bzw. kann es vielleicht sein, dass das die ursprünglichen Daten sind, die du noch nicht entsprechend bearbeitet hast? Beispielsweise fehlt bei...
017;Frau;Marie Meister;20.11.1974
... auch noch ein Semikolon.
Und, was natürlich auch noch hilfreich wäre... Wandle die Daten, die als Screenshot vorliegen, erst einmal in entsprechenden Text um, den man leichter weiterverarbeiten kann.
============
Ich hoffe außerdem, dass die Einträge fiktiv (nicht von realen Personen stammend) sind, oder die Personen der Veröffentlichung der Daten hier auf gutefrage.net zugestimmt haben. Sonst dürftest du wohl gegen Datenschutz-Bestimmungen verstoßen. (Aber, da du einen Statistik-Kurs erwähnt hast, würde ich davon ausgehen, dass die Daten fiktiv sind.)
Es handelt sich um die nicht bereinigte Liste und es sind rein fiktive Daten. Das mit dem ";" hab ich glatt übersehen danke
"Zeilen mit fehlenden Werten entfernt" heißt aber nicht "Zeilen mit einem oder mehreren fehlenden Werten entfernt", sondern "Zeilen, die nur aus fehlenden Werten bestehen, entfernt"? Andernfalls wäre es keine Bereinigung, sondern je nach Kontext/Fragestellung gegebenenfalls eine Verfälschung der Daten.
es handelt sich oben um die nicht bereinigte Liste. Die "Siebung" der Daten mache ich mit Python
Das waren Werte beid denen nur Monat und Tag bekannt waren. Diese Habe ich entfernt