Wie kann ich meine Daten in Quartile teilen und dann mit den Randquartilen rechnen, wenn ein Großteil der Daten auf der Quartilsgrenze liegt?

Question

Hallo!

Ich habe zwei AVs und möchte von einer AV Quartile erstellen, um dann das unterste und das oberste Quartil  bzgl. der anderen AV zu vergleichen.
Z.B. Ich habe von 40 Personen verbale Intelligenz (AV1) und Arbeitsgedächnis (AV 2) getestet. Nun möchte ich von AV1 das unterste und das oberste Quartil nehmen und schauen, ob sich die beiden Gruppen bzgl. der AV2 voneinander unterscheiden.
Nun ist das Problem, dass ich bei der AV1 ganz viele Datenpunkte habe, die genau auf dem Quartil-Grenzwert liegen. Ziel ist doch aber jedem Quartil 10 Werte zuordnen zu können, soll ich die auf der Grenze liegenden Werte jetzt per Zufall dem einen oder anderen Quartil zuordenen? Oder gibt es da ein objektiveres Verfahren?

Danke für eure Hilfe!

HWSteinberg · Answer

Das beste w&auml;re, wenn Du die M&ouml;glichkeit hast, in einer Simulation die Stichprobe zu vervielfachen, z.B. 1000 mal, sodass Du insgesamt 40000 Befragte hast, und in jeder Stichprobe die Befragten auf der Grenze mit einem Wahrscheinlichkeitsgenerator mit p=fifty/fifty der unteren und oberen Gruppe zuordnest.
Wenn Du dann Unterschiede zwischen dem untersten und obersten Quartil auf Signifikanz testen willst, musst Du nat&uuml;rlich die 40000 wieder auf 40 heruntergewichten, damit die Signifikanz nicht allein auf Grund der hohen Stichprobengr&ouml;&szlig;e entsteht.
 Wie man das genau macht, ist wohl noch zu &uuml;berlegen. Entweder schaut man den p-Wert f&uuml;r die Teststatistik, sofern diese nicht von N abh&auml;ngt (beim Chi-Quadrat tut sie das leider), eben f&uuml;r die Stichprobengr&ouml;&szlig;e N=40 nach, oder man berechnet in den Quartilen gewichtete Mittelwerte, entweder insgesamt im Quartil (dann geht aber das N verloren f&uuml;r die Signifikanzberechnung) oder pro Befragtem, wie oft er halt im Quartil auftaucht. Das letztere wird vermutlich das vern&uuml;nftigste sein

HWSteinberg · Answer

Meine 1. Antwort geht davon aus, dass jeder Befragte, der auf der Grenze liegt, die gleiche Ws hat, ein bisschen drunter oder ein bisschen drüber zu liegen. Je nachdem ob die anderen Befragten die gleiche Anzahl darunter und darüber bilden oder nicht, verschiebt sich natürlich dann die Grenze. Wenn z.B. 9 unterhalb und 5 oberhalb des 1. Quartils bis zum Median liegen (nehmen wir mal, auf dem Median liegen keine), also 6 genau auf der Grenze, so liegen im Mittel der vertausendfachten Stichprobe 3 unterhalb und 3 oberhalb der Grenze, sodass insgesamt 12 unterhalb und 8 oberhalb liegen. Damit ist die Quartilseigenschaft flöten gegangen.

Eine alternative Simulation könnte die Quartilseigenschaft beibehalten, verletzt allerdings die Unabhängigkeit der Befragten: Nimm die Ws 1/6 vs. 5/6 für unterhalb/oberhalb der Grenze. Unabhängig wären dann die Befragten nicht mehr, da diese Ws ja davon abhängen, wieviele andere Befragte unterhalb/oberhalb liegen.

Trotzdem bringt mich das auf eine andere Idee, bei der man gar keine Stichprobenvervielfachung mehr vornehmen muss: Man nimmt den Mittelwert der anderen AV aller Befragten auf der Grenze und betrachtet ihn in unserem Beispiel als für 1 Person unterhalb zugehörig, und für 5 Personen oberhalb. Natürlich wird hierdurch genauso wie eben die Unabhängigkeit der Probanden verletzt. Und dazu kommt hier, dass die Variation, die bei der Vervielfachung entsteht und auch nötig ist, um das ganze als Zufallsstichprobe zu begreifen, auch verloren geht. Und das gilt ja insbesondere auch für die andere AV, die ja tatsächlich wohl eine Variation in den 6 Beispiel-Befragten hat. Aber vielleicht ist das doch ein gangbarer Weg. Man könnte das als Hauptanalyse betrachten und folgende Sensitivitätsanalysen machen: Man nimmt alle möglichen Quartilszugehörigkeiten (im Beispiel also einfach 6) und prüft den Unterschied für jede dieser 6 Möglichkeiten - natürlich muss man das mit den Möglichkeiten für das oberste Quartil kombinieren, und wenn dann die Hauptanalyse einen Unterschied feststellt und ebenso die Mehrzal dieser Sensitivitätsanalysen, dann hat man "gewonnen".

Und noch besser und einfacher wird es, wenn man an beiden Quartilsgrenzen die Befragten auswählt, die in der anderen AV am nächsten am Median liegen, und stellt damit immer noch einen Unterschied fest, dann ist man sicher, dass jede andere Zuordnung diesen Unterschied ebenfalls findet.

Viel Spaß beim Ausprobieren!

Wie kann ich meine Daten in Quartile teilen und dann mit den Randquartilen rechnen, wenn ein Großteil der Daten auf der Quartilsgrenze liegt?

2 Antworten