Anzahl der Cluster bei Clusteranalyse begründen

...komplette Frage anzeigen

2 Antworten

ich sehe das - in diesem fall - mit der irrtumswahrscheinlichkeit anders: hier und wie z.b. auch bei faktoranalyse geht es nicht darum, eine hypothese zu testen, sondern darum, daten zu strukturieren bzw. strukturen, die in den daten enthalten sind, zu entdecken. daher finde ich es statthaft, mehrere solcher analysen durchzuführen und die inhaltlich beste lösung zu verwenden.

man würde dann nicht schreiben "habe rumprobiert", sondern "mit der vorgabe, 5 cluster auszuwählen (oder bei faktoranalyse zusätzlich: mit der vorgabe einer ...-rotation) wurde das beste ergebnis erzielt" - anschliessend würde man diesen satz begründen. du müsstest dann angeben, was es bedeutet, dass sich die gruppen "toll unterscheiden" und warum du dir die klassifizierung eben so vorgestellt hattest.

wenn du natürlich eine gute begründung hast, wieso du 5 cluster probiert hast, kann man dies als einzige lösung darstellen, d.h. inhaltliche begründung in der einleitung, fazit: ich nehme also 5 cluster.

ich finde es aber trotzdem nicht falsch, auch andere lösungen zu versuchen - einschränkung wäre allerdings, dass man dafür keine vorgabe hat, wie man es machen sollte z.b. wann ist schluss, was ist die oberste, akzeptierbare zahl für cluster? das wirkt dann eben ungeleitet bis kopflos. andererseits gibt es ja auch den ausdruck data mining, d.h. dass das explorieren von daten im sinne von "wir schauen mal" nicht grundsätzlich zu verwerfen ist.

in der literatur findest du bestimmt beispiele, wie andere leute ihre clusteranalyse dargestellt haben. und du kannst mit dem professor, der ja deine arbeit bewertet, das problem besprechen und so zu einer lösung kommen.

Genaugenommen ist das 'Herumprobieren' bei der statistischen Auswertung unzulässig. Denn durch mehrfache 'Auswertung' treibst du deine Irrtumswahrscheinlichkeit de facto in die Höhe, was in der schriftlichen Auswertung nicht aufscheint, weil du da nur die Irrtumswahrscheinlichkeit des einen Testverfahrens angibst. (Hypo-)Thesen müssen in der Regel 'a priori' aufgestellt werden, eine 'post hoc'-Analyse ist qualitativ etwas ganz anderes.

Für jedes Datenmaterial kannst du durch Rumprobieren bessere und schlechtere Anpassungen finden, in deinem Fall sehr schön abgegrenzte Cluster. Wenn du eine andere Zufallstichprobe erheben würdest, wäre es eher unwahrscheinlich, dass du da eine durch Probieren herausgefunden Ordnung bestätigen kannst.

Damit deine Arbeit anerkannt wird, musst du Hypothesen plausibel machen, die du aus nachvollziehbaren Gründen vor der Datenerhebung und -Auswertung aufgestellt hast. Natürlich können das keine aus der Luft gegriffene Vermutungen sein, sondern sie sollten aus dem Theorieteil stringent abgeleitet werden können.

Vielen Dank, für Deine schnelle Antwort!

Ja, das ist richtig und sehe ich auch vollkommen ein. Ich hatte mir im Vorfeld schon überlegt, dass es anhand der Merkmale sinnvoll wäre, 4-5 Gruppen zu generieren. Nur ich weiß jetzt eben nicht, wie ich es logisch und aus dem Forschungskontext heraus begründen soll, weil diese Klassifizierung eher als "Hilfskonstrukt" gedacht war, damit ich mit den Gruppen später weiter arbeiten kann. Daher ist es jetzt relativ schwierig für mich, das rein aus der Theorie abzuleiten.

Es gibt also rein statistisch nicht die Möglichkeit, diese Anzahl sinnvoll zu begründen? (Bei der Faktorenanalyse kann man ja z.B. im Vorfeld einen Scree Plot machen und sehen, wieviele Faktoren man idealerweise ausdifferenzieren soll.) Gibt es so etwas in der Art auch für die Clusteranalyse (es handelt sich konkret um eine Two-Step-Clusteranalyse, also falls das wichtig ist)

0

Was möchtest Du wissen?