Clustering / Klassifikation: Daten trennen und sortieren

...komplette Frage anzeigen

2 Antworten

Wichtig ist zu wissen, welcher Art die Eigenschaften sind: binär (ja/nein), kategoriell ohne Ordnung (grün/gelb/rot/blau), ordinal (stark/mittel/schwach) oder metrisch (Kilogramm).

Visuell könnte man für metrische Merkmale zunächst 2-dimensionale Scatterplots machen: jeweils 2 der Eigenschaften auf x- und y-Achse, verschiedene Farben für die Klassen, für die anderen würde ich 3-D-Charts (z.B. mit Excel) machen: x-Achse die Klassen, y-Achse jeweils 1 Merkmal, z-Achse (Höhe der Balken) %-Anteil der Klasse in der Merkmalsausprägung (z.B. wieviel % der gelben liegen in Klasse 1, wieviel in Klasse 2, alle gelben zusammen 100%).

Als statistische Analyseverfahren kommen bei rein metrischen Merkmalen die Diskriminanzanalyse und die logistische Regression in Frage. Ansonsten gibt es verallgemeinerte lineare Modelle, ein komplexes Thema, z.B. behandelbar mit den teuren Statistikpaketen SAS oder SPSS, wohl auch mit dem kostenlosen R

Stimme allem, was Du sagst, zu. Ich denke aber, dass R mächtiger ist als SPSS und unter Umständen auch mächtiger als SAS. Auf jedenfall macht es die schöneren Graphiken. Grundsätzlich würde ich meinen, dass Flashbaer einen Statistik-Kurs besuchen sollte oder ein Buch lesen sollte. Meine Empfehlung für Multivariate Statistik: Multivariate Analysemethoden. Theorie und Praxis multivariater Verfahren unter besonderer Berücksichtigung von S-PLUS (oder R). Ich glaube, dass für Flashbaer der moment gekommen ist, um sich in die Statistik zu vertiefen. Das ist keine leichte Arbeit, aber es ist ein faszinierendes Gebiet.

0
@giordano

Die Daten sind allesamt numerisch, bis auf die Klassenzuordnung, das sind Zeichenketten (Strings), können aber bei Bedarf durch Zahlen ersetzt werden.

Eigentlich dachte ich, es gibt für solche Probleme Software, die man nur bedienen muss. Ich will mir nicht meine eigenen Algotithmen schreiben und auch nicht per Hand auswerten und dann selber rechnen.

Es muss doch möglich sein, einer Software zu sagen, such mir die Eigenschaften, die die Klassen wiederspiegeln, oder nicht?

0
@Flashbaer

Numerisch ist hier wohl die Art der Kodierung; z.B. könnte grün/gelb/rot/blau mit 1/2/3/4 kodiert sein. Wenn man nun ein rein metrisches Verfahren benutzt, würde das implizieren, dass der Abstand von grün zu blau (1 - 4) größer ist als der von gelb zu rot (2 - 3), offensichtlicher Unsinn.

Sicher kann man einer Software sagen, dass sie die Daten analysieren soll, du musst ihr aber vorher sagen, was das für Daten sind. Und dazu ist wie Giordano sagt ein Statistik-Kurs angebracht. Bei Bedarf könnte ich aber die Analyse mit dem teuren SAS machen gegen entsprechende Bezahlung (R kann ich leider nicht). Auch einen Statistik-Kurs könnte ich anbieten, wäre aber je nach Vorkenntnissen wohl zu lang und zu teuer

0
@HWSteinberg

wollte eine andere Frage kommentieren, leider lässt sich ein Kommentar als ganzes nicht löschen

0

Erst mal: Gibt es einen Primärschlüssel?

Zu welchen Zweck braucht man bei dieser Analyse einen Primärschlüssel?

0
@giordano

Es gibt keinen Primärschlüssel, alle Eigenschaften sind gleichwertig. Es handelt sich auch nicht um eine SQL-Datenbank, die Daten sind in einer Text-Datei, was man ja auch als Datenbank bezeichnen kann...

0

Was möchtest Du wissen?