Statistik Rundungsproblem bei Schnittmengen. Wie mache ich eine realistische Schätzung?

2 Antworten

Normales Runden funktioniert nicht.

Natürlich nicht! Wenn alle exakten Ergebnisse auf ,5 enden und Du das immer aufrundest, hast Du im Summe 32 zu viel. Du müsstest eben die Hälfte dieser Zahlen abrunden, um die Summe konstant zu halten. Welche Zahlen das sind, ist mehr oder weniger willkürlich.

Zuerst legst Du eine Spalte H an, die die exakten Werte aggregiert, etwa so:

  • H1=E1, Hn=H(n-1)+En.

Nun rundest Du diese Werte. Der effektive Einzelwert ist dann die Differenz zum gerundeten Vorgängerwert:

  • F1 = round(H1), Fn=round(Hn)-F(n-1).

Dann stimmt die Summe, wobei zwischendurch manchmal „falsch“ gerundet wird. Im Idealfall passiert das bei großen Werten, weil das dort einen kleineren relativen Fehler produziert. Wenn dir Deine Ergebnisse nicht gefallen, kannst Du die Zeilen (ohne Spalte H) so umsortieren, dass die großen Kommazahlen in den Zeilen mit falscher Rundung liegen.


Ecaflip 
Beitragsersteller
 19.03.2025, 21:11

Eine gute Idee. Das funktioniert für die Gesamtzahl. Allerdings ist 2. noch nicht erfüllt.

Ich nehme an, du meinst beim zweiten Punkt Fn=round(Hn)-round(H(n-1)), sonst geht es natürlich nicht.

Wir kämen auf 49 gelbe Hosen.
https://imgur.com/a/b3N7L18
Sonst kannst du gerne das Datenset mal nehmen: https://ctxt.io/2/AAB4k3Z-FA

ralphdieter  19.03.2025, 21:55
@Ecaflip

Ups, meine Fn-Formel war natürlich so gemeint.

Aber jetzt erst sehe ich, dass die Teilsummen für Pants und Hat nicht zwingend passen müssen. Ich werde mal am Wochenende damit herumspielen. Aber ich vermute, dass es keine exakte Lösung gibt.

Ecaflip 
Beitragsersteller
 19.03.2025, 22:31
@ralphdieter

600x Blau Blau Blau, 200x Rot Rot Rot, 150x Grün Grün Grün und 50x Gelb Gelb Gelb und sonst keine anderen Kleidungskombinationen wäre eine gültige, wenn auch extrem unwahrscheinliche Lösung.

Die Frage ist, kann ich das irgendwie besser machen?

ralphdieter  19.03.2025, 23:15
@Ecaflip

Sorry, ich war zu sehr auf stochastische Unabhängigkeit fixiert. Klar, Du kannst noch die Farben in jeder Spalte unabhängig mischen. Das wird bei nur 1000 Kindern aber keine 216 rein blaue geben – mehr irgendwas zwischen 190 und 240 (nach Bauchgefühl). Probier's mal aus!

Man kann pro Kleidungsart erst über die Spalte # summieren und danach allenfalls runden (scheint mir aber nicht nötig). Aufgrund deiner Anforderungen ist das vorherige Runden nicht erforderlich und würde auch der stochastischen Unabhängigkeit widersprechen.


Ecaflip 
Beitragsersteller
 19.03.2025, 21:13

Das ist klar, dann bekomme ich ja wieder die Ausgangstabellen links raus. Ich möchte ja genau eine Schätzung für die Kombinationen erstellen. Doch muss sie eben so sein, dass alle Ausgangsbeobachtungen weiter gelten, anderenfalls ist es doch schlecht geschätzt, da wir dann von vornerein schon wissen, dass die Annahme falsch wäre.