Hypothesentest?

2 Antworten

Hallo,

man könnte es sich ja einfach machen und sagen: 40 % von 500 sind 200.

Finde ich unter den 500 Befragten mehr als 200, die sich den Klingelton heruntergeladen haben, ist der Anteil höher als 40 %.

So geht's natürlich nicht, denn es kann ja sein, daß die Quote auf alle Handybenutzer bezogen zwar bei 40 % liegt, daß man aber bei der Stichprobe zufällig überdurchschnittlich viele Klingeltonkäufer erwischt hat.

Die Frage, womit sich ein solcher Hypothesentest beschäftigt, lautet: Wo kann ein Ergebnis noch als zufällig angesehen werden; wo deutet es auf eine tatsächlich erfolgte Änderung hin, also: Wo hört der Zufall auf?

Entscheidet man sich etwa für eine Irrtumswahrscheinlichkeit von 10 %, bedeutet das, man läßt alle Ergebnisse durchgehen, die innerhalb von 90 % Wahrscheinlichkeit entstehen können. Erhält man ein Ergebnis, das außerhalb dieser Grenze liegt, also höchstens noch in 10 % aller Fälle zufällig entstehen kann,
hält man das für signifikant und sieht als erwiesen an, daß sich die Quote tatsächlich erhöht hat und das Ergebnis nicht nur rein zufällig entstanden ist.

Dazu betrachtet man die berühmte Glockenkurve der Standardnormalverteilung. Die gibt an, wie groß die Wahrscheinlichkeit für eine bestimmte Abweichung vom Erwartungswert ist. Dabei hat der Erwartungswert den höchsten Ausschlag, davor und dahinter geht's nach unten und nähert sich der Null an.

Erwartungswert ist hier 200. Die Wahrscheinlichkeit, daß man bei der Befragung zwischen 0 und 200 Klingeltonkäufer antrifft, liegt bei 50 %.

Zwischen 0 und 210 findet man zu etwa 82 %.

Zu 90 % findet man zwischen 0 und 214 Klingeltonkäufer.

Ab dem 215. steigt die Wahrscheinlichkeit auf über 90 % und überschreitet damit den Bereich, den man dem Zufall zugestanden hatte, denn ab 215 Nutzer sinkt die Wahrscheinlichkeit auf unter 10 %, daß man zufällig auf sie stößt.

Wie kommt man auf die Prozentzahlen? Indem man uzunächst die Standardabweichung berechnet. Die wäre bei der Standardnormalverteilung die Wurzel aus dem Produkt von Erwartungswert (200) und der Gegenwahrscheinlichkeit von 40 %, also 60 % (100-40) oder 0,6.

Wurzel aus 200*0,6 ist etwa 10,95. Das ist eine Standardabweichung.

Nun kann man in einer Tabelle für die Verteilungsfunktion der Standardnormalverteilung nachschlagen, zu welcher Abweichung in Standardabweichungen vom Erwartungswert welcher Prozentsatz gehört.

Ebenso kann man natürlich nachschlagen, welche Abweichung zu einem bestimmten Prozentsatz gehört. Zu 90 % gehört laut Tabelle der Wert 1,28.

1,28*10,95=14,016, was abgerundet 14 ergibt. Mit 14 Klingeltonnutzern über dem Durchschnitt wäre das Ergebnis zu 90 % Wahrscheinlichkeit noch im Rahmen einer zufälligen Abweichung nach oben zu erwarten, falls der Anteil bei 40 % liegt; ab 15 überm Schnitt müßte man den Toleranzbereich auf über 90 % erweitern, wodurch das Risiko stiege, daß man eine tatsächliche Erhöhung der Quote auch noch als Zufall abtut und die Hypothese - die Quote hat sich erhöht - verwirft, obwohl sie eigentlich richtig war.

Natürlich würde ich andererseits in fast 10 % aller Fälle falschliegen, falls ich die Hypothese annehme, obwohl sie falsch ist, denn theoretisch kann ich bei 40 % Quote bei der Stichprobe auch mehr als 214 mit Klingelton erwischen. Sogar alle 500 könnten zusätzliche Klingeltöne erworben haben, obwohl der tatsächliche Durchschnitt aller Nutzer immer noch bei nur 40 % läge. Das wäre aber unwahrscheinlicher als ein Sechser beim Lotto, sogar sehr viel unwahrscheinlicher.

Bei den Hypothesentests muß man sich also entscheiden, welchen Toleranzbereich man wählt. Die Gefahr eines Irrtums ist in jedem Fall gegeben - man möchte das Risiko dafür aber möglichst klein halten, ohne daß die ganze Rechnung völlig weltfremd wird. Die 10 % Irrtumswahrscheinlichkeit sind also ein Kompromiss.

Wähle ich den Toleranzbereich zu hoch, übersehe ich leichter eine tatsächliche Quotensteigerung; wähle ich ihn zu niedrig, kann ich zu leicht eine Erhöhung feststellen, die in Wirklichkeit gar nicht da ist. Bei 201 Klingeltonnutzern bereits zu jubeln wäre das Ergebnis eines viel zu kleinen Toleranzbereiches.

Herzliche Grüße,

Willy


awweiss 
Beitragsersteller
 14.04.2025, 18:31

Hallo Willy, danke für die ausführliche Antwort. Das Problem ist jedoch, dass wir im Unterricht so gut wie nichts zur Normalverteilung gemacht haben. Unser Lehrer meint wir brauchen keine Tabelle oder so einfach im GTR NormCD. Könntest du es dementsprechend bitte nochmal erklären?

Willy1729  14.04.2025, 18:44
@awweiss

Du rufst die Funktion der kumulierten Normalverteilung auf, also NormCD, gibst für die untere Grenze 0 ein und für die obere Grenze eine Zahl über 200. Für die Standardabweichung 10,95 (genauer: 10,954), für µ (Erwartungswert) 200.

Die größte Zahl über 200, für die Du noch ein Ergebnis von kleiner oder gleich 90 % bekommst, ohne die 90 % zu überschreiten also, ist die gesuchte Zahl, hier also 214.

awweiss 
Beitragsersteller
 14.04.2025, 18:55
@Willy1729

Ehrlich danke jetzt weiß ich endlich wie es geht :), unser Lehrer hat uns nie gesagt dass es auch mit der Normalverteilung geht wir sollten eben den komplizierten Weg berechnen. Das würde im Abi dann auch volle Punkte bringen oder?

Willy1729  14.04.2025, 19:07
@awweiss

Natürlich ist nicht alles normalverteilt. Man könnte hier auch mit der Binomialverteilung arbeiten. Da die aber mit Fakultäten funktioniert, kommen da viele Rechner rasch an ihre Grenzen. Die Normalverteilung liefert unter den richtigen Umständen Ergebnisse, die nah an denen der Binomialverteilung liegen.

Wenn man es mit natürlichen Zahlen zu tun hat, müßte man eigentlich noch einen Stetigkeitsausgleich machen, die Grenzen also um je 0,5 nach unten und nach oben verschieben. Da müßtest Du Dich mal in Ruhe einlesen.

Wenn Du die genauere kumulierte Binomialverteilung nimmst, kommst Du nämlich auf das Ergebnis, daß nur bis zu 213 Treffer im Toleranzbereich liegen. Dieses Ergebnis erhältst Du auch, wenn Du in der kumulierten Normalverteilung als Untergrenze nicht 0, sondern -0,5 einsetzt und also Obergrenze 213,5. Bei 214,5, was 214 Treffern entspräche, wärst Du nämlich schon drüber.

Der Stetigkeitsausgleich ist erforderlich, weil die Normalverteilung stetig ist, also mit Werten aus R arbeitet, während die Binomialverteilung mit Werten aus N arbeitet. Du kommst ja nur auf natürliche Zahlen von Handynutzern.

Die Binomialverteilung ergibt graphisch ein Treppendiagramm, die Normalverteilung eine Kurve. Durch den Stetigkeitsausgleich paßt sich die Kurve der Treppe genauer an.

Das korrekte Ergebnis lautet also: Ab 214 Klingeltonkäufern kannst Du zu 90 % davon ausgehen, daß sich die Quote tatsächlich erhöht hat und das Ergebnis nicht nur eine Laune des Zufalls ist.

Willy1729  14.04.2025, 19:35
@awweiss

Es gibt zahlreiche andere Methoden für Hypothesentests, etwa, wenn man die Art der Verteilung nicht kennt. Chi Quadrat, Student-t sind zwei Beispiele dafür. Statistik ist ein sehr weites Feld. Für den Hausgebrauch sollte die beschriebene Methode aber reichen.

der Anbieter geht davon aus, dass die Anzahl gestiegen ist

es soll also geprüft werden, ob es mehr sind, das kommt in die Gegenhypothese H1

es handelt sich um einen rechtsseitigen Test der Ablehnungsbereich ist das Intervall [k;n]

es muss also gelten: P(X>k)<=0,1
das heißt 1-P(X<=k)<=0,1

das = bei H1 stimmt bei dir nicht, das gehört zu H0

lies mal die Beschreibung hier:

https://www.mathematik-oberstufe.de/stochastik/h/hypothesentest-rechtsseitig.html

https://mathegym.de/mathe/wissen/formulierung-von-null-und-gegenhypothese-und-kritischen-bereichen/508


Wechselfreund  14.04.2025, 18:25

der Anbieter geht davon aus, dass die Anzahl gestiegen ist

es soll also geprüft werden, ob es mehr sind, das kommt in die Gegenhypothese H1

Wenn er schon von vornherein davon ausgeht, dass es mehr geworden sind, müsste er dann nicht als H1 testen, ob es weniger geworden sind?

awweiss 
Beitragsersteller
 14.04.2025, 17:56

Ich habe mir die Links zwar nicht nicht angeguckt aber verstehe ich es richtig, dass man also die Entscheidungsregel mit dem K sozusagen p anpasst, aber das verändert doch nichts am Ergebnis oder? Bzw muss man deswegen dann minus 1 rechnen (rote Rechnung unten)

Das Problem ist eben unser Lehrer hat das Thema Hypothesentest im Schnelldurchlauf gemacht, weil es eben nur ein kleiner Teil des Abis ist

Ich gucke mir mal eben die Links an vielleicht verstehe ich dann mehr

MichaelH77  14.04.2025, 17:59
@awweiss

genau, lies mal die Links durch, das ist dort gut beschrieben

k-1 deshalb, weil es über das Gegenereignis geht und P(X=k) noch zu H0 gehört

P(X > k) = P(X >= k-1)

awweiss 
Beitragsersteller
 14.04.2025, 18:06
@MichaelH77

Ok, der 2 Link ist völlig verständlich und nix neues. Aber den 1 versteh ich nicht wirklich. Könnten wir vielleicht bei der Beispielaufgabe bleiben...

Das ich bei H1 das = weglassen muss habe ich verstanden, aber ich selber ( schwarzer Teil K=214) habe ohne das Gegenereigniss gerechnet und kam eben auf K=215

Sorry das ich so viel nachfrage aber Stochastik will einfach nicht in meinen Kopf rein...

awweiss 
Beitragsersteller
 14.04.2025, 18:12
@awweiss

Und beim 1 Link verstehe ich ehrlich gesagt auch nicht was mir der Tabelle gemeint ist, die hatten wir nie im Unterricht