Frage zur Interpretation von Mojena-Test

...komplette Frage anzeigen

1 Antwort

Ich vermute, Du hast alles richtig gemacht. Ich halte das Mojena-Kriterium eigentlich für Unsinn, da es aus der Normalverteilung abgeleitet ist für eine Größe, die unter Garantie nicht normalverteilt ist. Und es ist vollkommen richtig, dass es eher größer wird wenn N steigt, und eine solche feste Schwelle unabhängig von N ist - vielleicht etwas hart formuliert - Schrott. Vielleicht lässt sich eine feste Schwelle angeben, indem man durch Wurzel-N teilt, aber das bliebe noch in Simulationen zu untersuchen. Ein früherer Kunde von mir hat das aber unbedingt gewollt, und ich habe es immer mitgeliefert. Aber letzten Endes fällt die Entscheidung für eine Clusteranzahl dann doch, indem man Zählungen über die aktiven und bei Wunsch auch die inaktiven Variablen macht und dann schaut, in welcher Clusterlösung man die einzelnen Cluster am besten typisieren kann. Oft hat man sich auch einfach auf eine Wunsch-Clusterzahl festgelegt oder nur Lösungen angeschaut Wunschzahl +/- 1.

Nach welchen Methoden clusterst Du eigentlich? Ich bin immer gut gefahren, indem ich zunächst eine hierarchische Clusterlösung nach Ward aufwärts gemacht und dann für jede der in Frage kommenden Lösungen (z.B. 20er bis 3er-Lösung) eine K-means-Iteration angehängt habe, in SAS geht das mit PROC CLUSTER und PROC FASTCLUS.

gentix95 15.03.2014, 16:50

Hallo HWSteinbger,

danke erst einmal für deine Antwort. Ich habe eigentlich meine Stichprobe zunächst nach Ward und quadrierter Euklidischer Distanz geclustert. Dabei habe ich mich bei der Clusterzahl an der Entwicklung des Koeffizienten orientiert und nach deutlichen "Sprüngen" geschaut und das Elbow-Kriterium berücksichtigt. Dabei komme ich auf drei eigentlich ganz gute Cluster, die auch durchaus interpretierbar erscheinen.

Noch eine Frage im Nachgang. Ich habe bislang vor Anwendung von Ward KEINE Ausreißer eliminiert. Single-Linkage sagt aber, dass (scheinbar) durchaus welche da sind. Ward reagiert ja angeblich sensibel auf diese Ausreißer.

Irgendwie bin ich mir aber beim Rausnehmen von Daten nicht ganz sicher. Ich manipuliere damit ja gewissermaßen an meinem Datenbestand. Die Befragten haben während der Befragung auf der Likertskale eben angegeben, was sie angeben wollten. Kann ich denn dann bei n=1.400 einfach einzelne Daten als Ausreißer definieren? Die Antworten bewegen sich ja bei 6 Variablen ohnehin nur zwischen -3 und +3. Anders wäre es sicherlich bei "echten" Intervalldaten die extrem voneinander abweichen können. Was sagst du dazu?

0
HWSteinberg 15.03.2014, 18:22
@gentix95

Ausreißer kann man durchaus rausnehmen und evtl. im letzten Schritt, wenn die Cluster feststehen, sie jeweils dem am nächsten liegenden Cluster wieder zuordnen. Aber ob man die ausgerechnet durch Single Linkage identifizieren sollte?? Die können sich ja irgendwie rausschlängeln, wenn sie erst einmal einen Befragten wegisoliert haben. Ich würde dann für jeden Ausreißer mal überprüfen, ob sein kleinster Abstand zu einem anderen (Nicht-Ausreißer-) Befragten wirklich markant größer ist als die sonstigen kleinsten Abstände. Bei der genannten Likert-Skala halte ich das für eher unwahrscheinlich.

Ich habe nie Ausreißer entfernt. Nur Fälle mit fehlenden aktiven Variablen - sofern keine Imputation vorgenommen wurde - wurden immer bei der Clusterbildung rausgelassen und am Ende auf Grund der vorhandenen aktiven Merkmale eingeordnet. Ich würde aber auf jeden Fall mal die k-means Iterationen ausprobieren; wenn Du bei WARD bleibst, fasst Du ja immer nur 2 Cluster zusammen von einer Lösung zur nächsten, und alle anderen Cluster bleiben unverändert, k-means rückt das dann aber jeweils ein bisschen zurecht, und Du bekommst mehr Interpretationsmöglichkeiten.

0
gentix95 15.03.2014, 18:37
@HWSteinberg

OK. Ich habe ja WARD zunächst gerechnet, um zu sehen, wie viele Cluster anhand des Dendrogramms sowie anhand der Heterogenitätsentwicklung denkbar sind. Anschließend habe ich die Drei-Cluster-Lösung mittels K-Mean verteilen lassen. Die Zuordnung der Fälle zu den drei Clustern basiert also auf K-Mean, nicht auf Ward. Ist das Problem mit den Ausreißern dann noch vorhanden?

0
HWSteinberg 16.03.2014, 12:31
@gentix95

Das kannst Du nur selbst prüfen, z.B. indem du pro Cluster die Mitglieder nach Abständen vom Cluster-Mittelpunkt sortierst

0
gentix95 16.03.2014, 13:14
@HWSteinberg

Vielen Dank erst mal für deine umfassende Hilfe!

OK. Ich habe nach Anwendung von K-Means auch den Abstand zum Clusternzentrum ausweisen lassen und daraufhin Boxplots erstellt. Je Gruppe werden dabei jeweils 1-4 Ausreißer ausgewiesen. Diese rauszunehmen wäre noch verkraftbar.

Ist diese Vorgehensweise, (1) plausible Clusterzahl via Ward & Dendrogramm schätzen und (2) Ausreißer bei K-Means via Distanz zum Clusterzentrum und Boxplots identifizieren statistisch korrekt?

0
HWSteinberg 17.03.2014, 09:43
@gentix95

Finde ich sehr gut! Vielleicht dann noch mal die Mittelpunkte ohne die Ausreißer adjustieren, evtl. nochmal k-means iterieren

0

Was möchtest Du wissen?