Ich ziehe aus einer Urne mit N=24 numerierten Kugeln eine zufällige Kugel, schreibe mir ihre Nummer auf, lege sie zurück und mache das insgesamt n=10000-mal. Es sollte also jede Kugel ungefähr 10000/24≈417 mal drangekommen sein. Wenn ich das aber praktisch mache, dann stelle ich fest, daß die wirkliche Anzahl ziemlich stark schwankt, nämlich zwischen 451 und 373. Kann ich daraus schließen, daß die „zufällig“ gezogene Kugel doch nicht ganz zufällig war, also daß da irgendwo ein Bias für eine bestimmte Kugel drinsteckt?
In meiner wirklichen Anwendung ist die Urne natürlich ein Programm, das für einen bestimmten Input einen von 24 möglichen Outputs liefert. Meine Intention beim Programmieren war, daß alle ungefähr gleich häufig auftreten sollten. Ich verstehe nicht viel von Statistik, hätte aber angenommen, daß die Streuung nur grob √417≈20 betragen solle. Tatsächlich ist sie doppelt so groß. Muß ich mir Sorgen machen?
Die genauen Zahlen sind: 451 449 441 440 434 433 433 426 421 421 419 419 416 410 410 409 406 403 401 400 398 398 389 373.
In einem anderen (und algorithmisch schwierigeren) Fall gibt es 36 Möglichkeiten, der Erwartungswert ist also 278, aber die Streuung beträgt sage und schreibe 373 bis 178.
Wie sieht eigentlich die Wahrscheinlichkeitsverteilung aus? Die Gesamtzahl der möglichen Ergebnisse bei N Kugeln und n Ziehungen sollte Nⁿ sein, aber wie viele davon haben eine beliebige Kugel genau k-mal gezogen? Und selbst wenn ich das ausrechnen könnte, wie hilft mir das, festzustellen, ob meine empirisch erhaltene Verteilung statistisch plausibel ist? Gibt es da einen statistischen Test?