Statistik Rundungsproblem bei Schnittmengen. Wie mache ich eine realistische Schätzung?
Wir haben 1000 Kinder mit verschiedenfarbiger Kleidung (Hemd, Hose, Hut).
Wir haben diese nun durchgezählt und für jedes Kleidungsstück einzeln erfasst, wie viele Kinder dieses Kleidungsstück in einer bestimmten Farbe haben. (siehe links)
Nun müssen wir die beste Annahme darüber treffen, welche Kleidungskombinationen getragen werden. Dabei gehen wir davon aus, dass die Farben der Kleidungsstücke statistisch völlig unabhängig voneinander sind.
Es gibt jedoch zwei Anforderungen:
- Die Gesamtzahl der Kinder in unserer Schätzung muss genau 1000 betragen.
- Für jede Kleidungsart muss die Gesamtzahl ebenfalls stimmen. (Zum Beispiel: Da wir wissen, dass es 50 Kinder mit gelben Hosen gibt, dürfen wir nicht 53 schätzen).
Normales Runden funktioniert nicht. Im Screenshot sieht man, dass wir damit beides falsch schätzen würden (am Beispiel gelbe Hosen)
Welcher Algorithmus ist hier der richtige?
Wie bekomme ich eine Schätzung, bei der die Chance ist, exakt richtig zu liegen, mehr als 0% ist?
2 Antworten
Normales Runden funktioniert nicht.
Natürlich nicht! Wenn alle exakten Ergebnisse auf ,5 enden und Du das immer aufrundest, hast Du im Summe 32 zu viel. Du müsstest eben die Hälfte dieser Zahlen abrunden, um die Summe konstant zu halten. Welche Zahlen das sind, ist mehr oder weniger willkürlich.
Zuerst legst Du eine Spalte H an, die die exakten Werte aggregiert, etwa so:
- H1=E1, Hn=H(n-1)+En.
Nun rundest Du diese Werte. Der effektive Einzelwert ist dann die Differenz zum gerundeten Vorgängerwert:
- F1 = round(H1), Fn=round(Hn)-F(n-1).
Dann stimmt die Summe, wobei zwischendurch manchmal „falsch“ gerundet wird. Im Idealfall passiert das bei großen Werten, weil das dort einen kleineren relativen Fehler produziert. Wenn dir Deine Ergebnisse nicht gefallen, kannst Du die Zeilen (ohne Spalte H) so umsortieren, dass die großen Kommazahlen in den Zeilen mit falscher Rundung liegen.
Ups, meine Fn-Formel war natürlich so gemeint.
Aber jetzt erst sehe ich, dass die Teilsummen für Pants und Hat nicht zwingend passen müssen. Ich werde mal am Wochenende damit herumspielen. Aber ich vermute, dass es keine exakte Lösung gibt.
600x Blau Blau Blau, 200x Rot Rot Rot, 150x Grün Grün Grün und 50x Gelb Gelb Gelb und sonst keine anderen Kleidungskombinationen wäre eine gültige, wenn auch extrem unwahrscheinliche Lösung.
Die Frage ist, kann ich das irgendwie besser machen?
Sorry, ich war zu sehr auf stochastische Unabhängigkeit fixiert. Klar, Du kannst noch die Farben in jeder Spalte unabhängig mischen. Das wird bei nur 1000 Kindern aber keine 216 rein blaue geben – mehr irgendwas zwischen 190 und 240 (nach Bauchgefühl). Probier's mal aus!
Man kann pro Kleidungsart erst über die Spalte # summieren und danach allenfalls runden (scheint mir aber nicht nötig). Aufgrund deiner Anforderungen ist das vorherige Runden nicht erforderlich und würde auch der stochastischen Unabhängigkeit widersprechen.
Das ist klar, dann bekomme ich ja wieder die Ausgangstabellen links raus. Ich möchte ja genau eine Schätzung für die Kombinationen erstellen. Doch muss sie eben so sein, dass alle Ausgangsbeobachtungen weiter gelten, anderenfalls ist es doch schlecht geschätzt, da wir dann von vornerein schon wissen, dass die Annahme falsch wäre.
Eine gute Idee. Das funktioniert für die Gesamtzahl. Allerdings ist 2. noch nicht erfüllt.
Ich nehme an, du meinst beim zweiten Punkt Fn=round(Hn)-round(H(n-1)), sonst geht es natürlich nicht.
Wir kämen auf 49 gelbe Hosen.
https://imgur.com/a/b3N7L18
Sonst kannst du gerne das Datenset mal nehmen: https://ctxt.io/2/AAB4k3Z-FA