Wir haben 1000 Kinder mit verschiedenfarbiger Kleidung (Hemd, Hose, Hut). Wir haben diese nun durchgezählt und für jedes Kleidungsstück einzeln erfasst, wie viele Kinder dieses Kleidungsstück in einer bestimmten Farbe haben. (siehe links) Nun müssen wir die beste Annahme darüber treffen, welche Kleidungskombinationen getragen werden. Dabei gehen wir davon aus, dass die Farben der Kleidungsstücke statistisch völlig unabhängig voneinander sind. Es gibt jedoch zwei Anforderungen: Die Gesamtzahl der Kinder in unserer Schätzung muss genau 1000 betragen. Für jede Kleidungsart muss die Gesamtzahl ebenfalls stimmen. (Zum Beispiel: Da wir wissen, dass es 50 Kinder mit gelben Hosen gibt, dürfen wir nicht 53 schätzen). Normales Runden funktioniert nicht. Im Screenshot sieht man, dass wir damit beides falsch schätzen würden (am Beispiel gelbe Hosen) Welcher Algorithmus ist hier der richtige? Wie bekomme ich eine Schätzung, bei der die Chance ist, exakt richtig zu liegen, mehr als 0% ist?

Statistik Rundungsproblem bei Schnittmengen. Wie mache ich eine realistische Schätzung?

Wir haben 1000 Kinder mit verschiedenfarbiger Kleidung (Hemd, Hose, Hut).

Wir haben diese nun durchgezählt und für jedes Kleidungsstück einzeln erfasst, wie viele Kinder dieses Kleidungsstück in einer bestimmten Farbe haben. (siehe links)

Nun müssen wir die beste Annahme darüber treffen, welche Kleidungskombinationen getragen werden. Dabei gehen wir davon aus, dass die Farben der Kleidungsstücke statistisch völlig unabhängig voneinander sind.

Es gibt jedoch zwei Anforderungen:

Die Gesamtzahl der Kinder in unserer Schätzung muss genau 1000 betragen.
Für jede Kleidungsart muss die Gesamtzahl ebenfalls stimmen. (Zum Beispiel: Da wir wissen, dass es 50 Kinder mit gelben Hosen gibt, dürfen wir nicht 53 schätzen).

Normales Runden funktioniert nicht. Im Screenshot sieht man, dass wir damit beides falsch schätzen würden (am Beispiel gelbe Hosen)

Bild zum Beitrag

Welcher Algorithmus ist hier der richtige?
Wie bekomme ich eine Schätzung, bei der die Chance ist, exakt richtig zu liegen, mehr als 0% ist?

2 Antworten

ralphdieter

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Mathematik

19.03.2025, 01:38

Normales Runden funktioniert nicht.

Natürlich nicht! Wenn alle exakten Ergebnisse auf ,5 enden und Du das immer aufrundest, hast Du im Summe 32 zu viel. Du müsstest eben die Hälfte dieser Zahlen abrunden, um die Summe konstant zu halten. Welche Zahlen das sind, ist mehr oder weniger willkürlich.

Zuerst legst Du eine Spalte H an, die die exakten Werte aggregiert, etwa so:

H1=E1, Hn=H(n-1)+En.

Nun rundest Du diese Werte. Der effektive Einzelwert ist dann die Differenz zum gerundeten Vorgängerwert:

F1 = round(H1), Fn=round(Hn)-F(n-1).

Dann stimmt die Summe, wobei zwischendurch manchmal „falsch“ gerundet wird. Im Idealfall passiert das bei großen Werten, weil das dort einen kleineren relativen Fehler produziert. Wenn dir Deine Ergebnisse nicht gefallen, kannst Du die Zeilen (ohne Spalte H) so umsortieren, dass die großen Kommazahlen in den Zeilen mit falscher Rundung liegen.

Ecaflip

Beitragsersteller

19.03.2025, 21:11

Eine gute Idee. Das funktioniert für die Gesamtzahl. Allerdings ist 2. noch nicht erfüllt.

Ich nehme an, du meinst beim zweiten Punkt Fn=round(Hn)-round(H(n-1)), sonst geht es natürlich nicht.

Wir kämen auf 49 gelbe Hosen.
https://imgur.com/a/b3N7L18
Sonst kannst du gerne das Datenset mal nehmen: https://ctxt.io/2/AAB4k3Z-FA

ralphdieter

19.03.2025, 21:55

@Ecaflip

Ups, meine Fn-Formel war natürlich so gemeint.

Aber jetzt erst sehe ich, dass die Teilsummen für Pants und Hat nicht zwingend passen müssen. Ich werde mal am Wochenende damit herumspielen. Aber ich vermute, dass es keine exakte Lösung gibt.

Ecaflip

Beitragsersteller

19.03.2025, 22:31

@ralphdieter

600x Blau Blau Blau, 200x Rot Rot Rot, 150x Grün Grün Grün und 50x Gelb Gelb Gelb und sonst keine anderen Kleidungskombinationen wäre eine gültige, wenn auch extrem unwahrscheinliche Lösung.

Die Frage ist, kann ich das irgendwie besser machen?

ralphdieter

19.03.2025, 23:15

@Ecaflip

Sorry, ich war zu sehr auf stochastische Unabhängigkeit fixiert. Klar, Du kannst noch die Farben in jeder Spalte unabhängig mischen. Das wird bei nur 1000 Kindern aber keine 216 rein blaue geben – mehr irgendwas zwischen 190 und 240 (nach Bauchgefühl). Probier's mal aus!

eterneladam

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Mathematik, Stochastik, Wahrscheinlichkeit

19.03.2025, 06:10

Man kann pro Kleidungsart erst über die Spalte # summieren und danach allenfalls runden (scheint mir aber nicht nötig). Aufgrund deiner Anforderungen ist das vorherige Runden nicht erforderlich und würde auch der stochastischen Unabhängigkeit widersprechen.

Ecaflip

Beitragsersteller

19.03.2025, 21:13

Das ist klar, dann bekomme ich ja wieder die Ausgangstabellen links raus. Ich möchte ja genau eine Schätzung für die Kombinationen erstellen. Doch muss sie eben so sein, dass alle Ausgangsbeobachtungen weiter gelten, anderenfalls ist es doch schlecht geschätzt, da wir dann von vornerein schon wissen, dass die Annahme falsch wäre.

Statistik Rundungsproblem bei Schnittmengen. Wie mache ich eine realistische Schätzung?

2 Antworten

Höhere Mathematik Frage, irgendwas mit Phi und Sigma und k?

kosinussatz fehl?

Wozu wird Median in der Statistik verwendet?

Wahrscheinlichkeiten richtig?

Zahlenfolge Regel?

Bluttestergebnis: Konfidenzintervall ermitteln?

Welches der beiden Fälle ist hier richtig für die Bestimmung der Konvergenz? Meine Frage ist eher woran sehe ob ich in dem bsp durch n^2 teile oder durch n^1?

Frage zur bedingten Wahrscheinlichkeit?

Ist das nicht bereits die Lösung?

Ist „Von den weiblichen Fahrgästen haben 95% einen Führerschein“ eine bedingte Wahrscheinlichkeit?

Was wird mit einem zweiseitigen Hypothesen Test getestet?

ist diese Mathe aufgabe schwer?

Wahrscheinlichkeit ermitteln?

Binomial verteilung erkennen?