Hilfe bei Datenbereinigung?

2 Antworten

Ich habe bereits eine Bereinigung vorgenommen und anschließend weitergerechnet, allerdings passen meine Zwischenergebnisse noch nicht ganz.

Was hast du denn da gerechnet? Inwiefern passen die Zwischenergebnisse nicht?

============

Du hast gemeint, dass du unter anderem bereits...

„• Fehlerhafte Datumsangaben korrigiert“

... und...

„• Ungültige oder unplausible Werte bereinigt“

... hast. Das scheint dir aber (insbesondere bei den Datumsangaben) noch nicht vollständig gelungen zu sein.

Was mir spontan auffällt, ist, dass die Datumsangaben nicht alle das gleiche Format haben. Beispielsweise weichen die Einträge...

011;Frau;Yvonne;Schwan;07.03.
052;Frau;Elisabeth;Wolff;???
067;Herr;Rainer;Krämer;
078;Frau;Sophia;Schubert;JUeQaztDLp
079;Frau;Diana;Seidel;unbekannt
104;Herr;Tim;Pfeiffer; im März 1964
109;Herr;Peter;Schnell;29. September

... bzgl. des Datumsformats deutlich voneinander ab und beinhalten teils unvollständige oder ungültige Angaben.

Des Weiteren ist mir aufgefallen, dass beim Eintrag...

010;Herr;Alfred;Schnell;17.06.1700

... mit der Jahreszahl 1700 deutlich von den anderen Einträgen (mit Jahreszahlen in der zweiten Hälfte des 20. Jahrhunderts) abweicht.

------ Ergänzung ------

Bzw. kann es vielleicht sein, dass das die ursprünglichen Daten sind, die du noch nicht entsprechend bearbeitet hast? Beispielsweise fehlt bei...

017;Frau;Marie Meister;20.11.1974

... auch noch ein Semikolon.

Und, was natürlich auch noch hilfreich wäre... Wandle die Daten, die als Screenshot vorliegen, erst einmal in entsprechenden Text um, den man leichter weiterverarbeiten kann.

============

Ich hoffe außerdem, dass die Einträge fiktiv (nicht von realen Personen stammend) sind, oder die Personen der Veröffentlichung der Daten hier auf gutefrage.net zugestimmt haben. Sonst dürftest du wohl gegen Datenschutz-Bestimmungen verstoßen. (Aber, da du einen Statistik-Kurs erwähnt hast, würde ich davon ausgehen, dass die Daten fiktiv sind.)


DerTyper 
Beitragsersteller
 27.10.2024, 23:39

Es handelt sich um die nicht bereinigte Liste und es sind rein fiktive Daten. Das mit dem ";" hab ich glatt übersehen danke

Von Experte mihisu bestätigt

"Zeilen mit fehlenden Werten entfernt" heißt aber nicht "Zeilen mit einem oder mehreren fehlenden Werten entfernt", sondern "Zeilen, die nur aus fehlenden Werten bestehen, entfernt"? Andernfalls wäre es keine Bereinigung, sondern je nach Kontext/Fragestellung gegebenenfalls eine Verfälschung der Daten.


DerTyper 
Beitragsersteller
 27.10.2024, 22:49

Das waren Werte beid denen nur Monat und Tag bekannt waren. Diese Habe ich entfernt

Halbrecht  27.10.2024, 23:28
@DerTyper

wieso sind die Datumsformate mal so mal so ?

und was ist mit 052 ?

DerTyper 
Beitragsersteller
 27.10.2024, 23:40
@Halbrecht

es handelt sich oben um die nicht bereinigte Liste. Die "Siebung" der Daten mache ich mit Python