Normalverteilung über alle Datenpunkte oder innerhalb der Gruppen?

...komplette Frage anzeigen

1 Antwort

Wahrscheinlich willst Du doch testen, ob die Gruppen einer gemeinsamen Verteilung folgen oder eben nicht. Wenn sie keiner gemeinsamen Verteilung folgen, aber alle normal sein sollen, haben sie entweder verschiedene Mittelwerte oder verschiedene Standardabweichungen, meist beides. Im ersten Fall ist die gemeinsame Verteilung dann eher nicht mehr normal, ja vielleicht sogar 2-gipflig mit den beiden Mittelwerten als lokale Gipfel, Im 2. Fall könnte sie vielleicht immer noch normal sein.

In der Regel vergleicht man die Gruppen ja aber nur bzgl. ihrer Mittelwerte, und macht unterschiedliche Tests, je nachdem ob die Standardabweichungen gleich sind oder nicht. Und somit kann eine gültige Voraussetzung für einen auf Normalverteilung beruhenden Test nur sein, dass jede einzelne Gruppe normal verteilt ist. Bei unterschiedlichen MW ist die Normalverteilungsvoraussetzung für den Test in der Gesamtheit ja nicht mehr gegeben. Somit würde ein Test, der die Unterschiedlichkeit feststellt, sich selbst ad absurdum führen, da er seine eigene Voraussetzung ablehnt, wenn die Voraussetzung ist, NV in der Gesamtheit.

Also: NV in jeder Gruppe. Aber Vorsicht, wenn Du jede Gruppe auf NV testest, hast Du ja kleinere Ns, und die Wahrscheinlichkeit, dass Du fälschlicherweise NV in jeder Gruppe annimmst, steigt.

Wenn Du aber erst mal nur explorativ arbeitest, kannst Du schon mal testen, ob insgesamt NV vorliegt. Sollte das der Fall sein, kann man schon mal vermuten, dass die nachfolgende Varianzanalyse eher keine Unterschiede, oder bei vielen Gruppen nur wenige, zu Tage fördern wird, denn größere MW-Unterschiede zerstören ja die Gesamt-NV wie oben beschrieben.

Sorry, ist leider ein längeres Feedback geworden, aber Statistik ist eben komplex und wird oft missverstanden.

Antwort bewerten Vielen Dank für Deine Bewertung
Kommentar von Fabri
08.10.2016, 15:17

Läuft halt - wie du sagst - auf die Frage raus, was sie denn herausfinden will. 

0
Kommentar von Sabrina135
11.10.2016, 11:06

Hallo,

Vielen lieben Dank für dein ausführliches Feedback! Ist nicht schlimm, dass es länger geworden ist ;-)

Ja, genau, ich möchte testen, ob sich die Gruppen in ihren Mittelwerten unterscheiden und Korrelationsanalysen innerhalb der Gruppen durchführen. Die NV habe ich getestet um das richtige Verfahren anzuwenden (ANOVA oder Kruskal-Wallis bzw. Pearson oder Spearman). Bisher habe ich es so gemacht, dass ich zu Beginn insgesamt Variable x und Variable y auf NV getestet habe, und wenn eine nicht NV ist, dann habe ich das nichtparametrische Verfahren gewählt. Wie ich dich jetzt aber verstanden habe, muss ich jede
einzelne Gruppe, also Variable x und y der Region A auf NV, x und y von Region B usw. einzeln auf NV testen und dann entscheiden, sodass ich möglicherweise für Region A NV habe und für Region B nicht.

Darf ich dich um noch eine Bestätigung für mein Vorgehen bitten (versuche mich auch kurz zu halten, aber du darfst gern lang antworten ;-) ): Ich untersuche u.a. Variablen, die mit der Größe von z.B. Städten zu tun haben… Zum Beispiel könnte ich die Korrelation von der Anzahl der Frauen und der Anzahl der Unfälle in einer Stadt untersuchen. Natürlich wird bei solchen größenbezogenen Variablen immer eine stark positive Korrelation rauskommen, denn je größer eine Stadt ist, umso mehr Frauen habe ich und umso mehr Unfälle habe ich, aber die Frauen haben eigentlich nichts mit den Unfällen zu tun… Ich habe mich jetzt dazu entschieden die Variablen zu relativieren und habe entweder %-Sätze draus gemacht, z.B. % Frauen in einer Stadt oder Unfälle pro Person und korreliere diese Werte dann. Ist dieses Vorgehen richtig? Oder muss ich bei allem die „Rohwerte“ nehmen und eine Partielle Korrelation durchführen mit der Kontrollvariable „Größe“? 

Ich danke noch einmal rechtherzlich für deine Zeit!!

VG

Sabrina

0

Was möchtest Du wissen?