Wie kann ich meine Daten in Quartile teilen und dann mit den Randquartilen rechnen, wenn ein Großteil der Daten auf der Quartilsgrenze liegt?

2 Antworten

Das beste wäre, wenn Du die Möglichkeit hast, in einer Simulation die Stichprobe zu vervielfachen, z.B. 1000 mal, sodass Du insgesamt 40000 Befragte hast, und in jeder Stichprobe die Befragten auf der Grenze mit einem Wahrscheinlichkeitsgenerator mit p=fifty/fifty der unteren und oberen Gruppe zuordnest.

Wenn Du dann Unterschiede zwischen dem untersten und obersten Quartil auf Signifikanz testen willst, musst Du natürlich die 40000 wieder auf 40 heruntergewichten, damit die Signifikanz nicht allein auf Grund der hohen Stichprobengröße entsteht.

Wie man das genau macht, ist wohl noch zu überlegen. Entweder schaut man den p-Wert für die Teststatistik, sofern diese nicht von N abhängt (beim Chi-Quadrat tut sie das leider), eben für die Stichprobengröße N=40 nach, oder man berechnet in den Quartilen gewichtete Mittelwerte, entweder insgesamt im Quartil (dann geht aber das N verloren für die Signifikanzberechnung) oder pro Befragtem, wie oft er halt im Quartil auftaucht. Das letztere wird vermutlich das vernünftigste sein

Meine 1. Antwort geht davon aus, dass jeder Befragte, der auf der Grenze liegt, die gleiche Ws hat, ein bisschen drunter oder ein bisschen drüber zu liegen. Je nachdem ob die anderen Befragten die gleiche Anzahl darunter und darüber bilden oder nicht, verschiebt sich natürlich dann die Grenze. Wenn z.B. 9 unterhalb und 5 oberhalb des 1. Quartils bis zum Median liegen (nehmen wir mal, auf dem Median liegen keine), also 6 genau auf der Grenze, so liegen im Mittel der vertausendfachten Stichprobe 3 unterhalb und 3 oberhalb der Grenze, sodass insgesamt 12 unterhalb und 8 oberhalb liegen. Damit ist die Quartilseigenschaft flöten gegangen.

Eine alternative Simulation könnte die Quartilseigenschaft beibehalten, verletzt allerdings die Unabhängigkeit der Befragten: Nimm die Ws 1/6 vs. 5/6 für unterhalb/oberhalb der Grenze. Unabhängig wären dann die Befragten nicht mehr, da diese Ws ja davon abhängen, wieviele andere Befragte unterhalb/oberhalb liegen.

Trotzdem bringt mich das auf eine andere Idee, bei der man gar keine Stichprobenvervielfachung mehr vornehmen muss: Man nimmt den Mittelwert der anderen AV aller Befragten auf der Grenze und betrachtet ihn in unserem Beispiel als für 1 Person unterhalb zugehörig, und für 5 Personen oberhalb. Natürlich wird hierdurch genauso wie eben die Unabhängigkeit der Probanden verletzt. Und dazu kommt hier, dass die Variation, die bei der Vervielfachung entsteht und auch nötig ist, um das ganze als Zufallsstichprobe zu begreifen, auch verloren geht. Und das gilt ja insbesondere auch für die andere AV, die ja tatsächlich wohl eine Variation in den 6 Beispiel-Befragten hat. Aber vielleicht ist das doch ein gangbarer Weg. Man könnte das als Hauptanalyse betrachten und folgende Sensitivitätsanalysen machen: Man nimmt alle möglichen Quartilszugehörigkeiten (im Beispiel also einfach 6) und prüft den Unterschied für jede dieser 6 Möglichkeiten - natürlich muss man das mit den Möglichkeiten für das oberste Quartil kombinieren, und wenn dann die Hauptanalyse einen Unterschied feststellt und ebenso die Mehrzal dieser Sensitivitätsanalysen, dann hat man "gewonnen".

Und noch besser und einfacher wird es, wenn man an beiden Quartilsgrenzen die Befragten auswählt, die in der anderen AV am nächsten am Median liegen, und stellt damit immer noch einen Unterschied fest, dann ist man sicher, dass jede andere Zuordnung diesen Unterschied ebenfalls findet.

Viel Spaß beim Ausprobieren!