Wahrscheinlichkeitsfrage , Erklärung gesucht!?

3 Antworten

Vom Fragesteller als hilfreich ausgezeichnet

Genauer genommen ist es nicht 25, sondern 9900/398 ≈ 24,87 (siehe unten). Hier die Herleitung dieser Berechnung:

Sei zunächst X die Zufallsvariable

X = #der Lieder, die unter 100 Liedern doppelt vorkommen.

Dann sind 2X der 100 Lieder Duplikate und 100–2X einmalig gespielt. Als Werte kann X insbesondere nur 0; 1; …; 50 annehmen. Man stelle nun die Lieder wie folgt dar:

 ORIGINAL:  L1 L2 L3 ... L100
KOPIE: L1 L2 L3 ... L100

(Annahme der gleichmäßigen Mischung.) Jede Auswahl von 100 dieser Lieder kommt gleichwahrscheinlich vor.

  • Sei ∈ {0; 1; …; 50}. Wie viel Mal können k Lieder doppelt vorkommen (und m:=100–2k einmalig)? Wir teilen erstens die Titeln auf: Es sollen k davon doppelt, m einmalig und 100–(m+k) = k gar nicht gespielt werden. Für diese Aufteilung der Titeln gibts also 100! / (k!·(100–2k)!·k!) Möglichkeiten.
  • Es bleibt nur eine Sache zu wählen: für eines jeden der m einmalig gespielten Titeln, ob es aus der Liedermenge ORIGINAL oder KOPIE kommen soll. Das macht exakt 2x2x…x2 = 2ᵐ = 2¹⁰⁰¯²ᵏ Möglichkeiten aus.

Die Anzahl der Möglichkeiten, 100 Lieder zu wählen, darunter exakt k davon doppelt, ist gegeben durch

N[100,k] = 100! / (k!·(100–2k)!·k!) · 2¹⁰⁰¯²˙ᵏ
= (2k! / k!k!)
·(100!/2k!(100-2k)!)
·2¹⁰⁰¯²ᵏ
= (2k über k)·(100 über 2k)·2¹⁰⁰¯²˙ᵏ

Man kann in die Form rechts Werte für k aus {51; …; 100} einsetzen und erhält formal den Wert 0, was mit N[100,k] übereinstimmt. Daher gilt dies für alle k∈{0;1;…; 100}. Wie viele Möglichkeiten gibt es insgesamt, 100 Lieder zu wählen? Na N[100] := (2·100 über 100) natürlich. Insbesondere gilt automatisch

(1) …         ∑ N[100,k] = N[100].

Dasselbe gilt mit 100 durch jede beliebige natürliche Zahl ersetzt. Die Verteilung von X ist also gegeben durch

(2) …         ℙ[X=k] = N[100,k]/N[100]

und entsprechend der Schnitt durch

(3) …         𝔼[X] = ∑k·ℙ[X=k]
= ∑ k·N[100,k]/N[100].

Ich behaupte, dass dies ist gleich

(4) …         𝔼[X] = n·(n–1) / 2·(2n–1)

wobei n=#Lieder und dass die Formel auch funktioniert, für andere Anzahlen n von Liedern als bloß n=100. Ein Beweis kommt später, wenn ich wieder Zeit finde. Inzwischen aber gilt für 100 Lieder

𝔼[X] = 100·(100–1) / 2·(2·100–1) = 9900/398 ≈ 24,87

Darum hört man im Schnitt ca. 24,87 (also ca. 25) Titel 2 Mal.

Für einen Beweis, klicke auf mein Profil

https://www.gutefrage.net/nutzer/kreisfoermig

und meine dort verlinkte Webseite (overleaf.com: dauernd neuladen, bis Dokument erscheint). Auf Seiten 7--9 wird ein allgemeiner Beweis ausgearbeitet, der in das Ergebnis

E-Wert = ℓ·(ℓ-1)/(2·(2n–1))

resultiert, wobei n = #der Originallieder und ℓ = Größe der Auswahl (in unserem Falle gilt ℓ=n=100).

0

Wow ..... was für eine Antwort ,Danke !

Ich bin nicht in der Lage das alles zu verstehen, werde es aber weiterhin versuchen.


Dennoch sehe ich noch zwei Widersprüche , die deine Antwort von 24,87 % zu wiederlegen scheinen.

1. Die Antwort auf meine Frage von  "PWolff" .

Sie erschließt sich mir sofort, und ihre Antwort läge dort bei genau 25 %

2. Ich habe diese Aufgabe am Computer simulliert (mehrmals und mit größeren Werten)  und komme nicht auf die 24,87 % von dir, sonder eher auf die 25 %   .

https://repl.it/Dr6d/1  

(einfach auf "run" klicken)

Das ist mein verwendetes Script, für den Fall, dass jemand mit "Python" nicht vertraut ist, habe ich ein paar Kommentare dazu geschrieben. (im Code)  


-Ich habe die Liste mit 20.000 Titeln erstellt (zwei mal 10.000 gleiche zahlen)

-ich nehme zufällige 10.000  Elemente aus der Liste

-und zähle die Dopplungen


Das ganze mache ich 100 mal und bilde dann den Mittelwert.

Dieser wert liegt fast immer zwischen 2497 und 1503   

Nach deinem Prozentsatz müsste er um die 2487  liegen, ich habe es aber bei ~50 Versuchen nicht einmal erlebt, dass der Mittelwert  (von 100 einzelnen Werten)  um mehr als 4 vom wert 2500  abwich.

Desweiteren habe ich es am PC selbst mit höheren werten ebenfalls versucht, wodurch es aber bei den 25 % blieb.



0
@Pretan5

Hey, ich probiere das aus. Meine AnaIyse ist exakt. Es kann aber sein, dass wir verschiedene Interpretationen des Problems betrachten. Kannst du mir nochmals den COde schicken? Darin kann ich hoffentlich sehen, wie du/ihr das Problem interpretiert hast/habt.

EDIT. Der Link funktioniert jetzt. Ich schaue rein.

0
@Pretan5

Nope. Euren Code enthielt hab ich jetzt angeschaut und es der Übersichtlichkeit halber kompakter gemacht, damit keine sog. ‘Magic Numbers’ irgendwo auftauchen. Siehe https://repl.it/Dr6d/3 

Ich erhalte nach nach 100.000 Versuchen als Outpu:

Mittelwert #Dopplungen = 24.8697

Das entspricht meiner exakten Einschätzung.

0
@kreisfoermig

Euer Fehler: ihr schreibt unerklärlich 1 bis x+1 (ich benutze n statt x). Es müsste aber 1 bis n sein. Wenn ich n+1 verwende, natürlich kommt was anderes raus. Dieses Ergebnis entspricht meiner anaIytischen Lösung mit Input 101 statt 100. Probiers mal aus (die exakt mit der Simulation zu vergleichen)!

0
@kreisfoermig

n=100 ⟹ anaIytischer MW = 24,874371859296(5)
n=101 ⟹ anaIytischer MW = 25,124378109452(7)

Zweiteres entspricht dem, was ihr beobachtet, weil ihr ja mit 101 statt 100 gearbeitet habt.

0
@kreisfoermig

Betreffend deines Codes

n=10.000 ⟹ anaIytischer MW = 2499.8749937496(9)
n=10.001 ⟹ anaIytischer MW = 2500.12499375031

Zweiteres entspricht dem, was ihr beobachtet, weil ihr ja mit 10.001 statt 100 gearbeitet habt. Für das Problem mit 10.000 Liedern jedoch habt ihr jedoch eine falsche Angabe im Code. Wenn ihr dies korrigiert erhaltet ihr garantiert näherungsweise 2499.8749937496(9).

Euer Fehler ist es wiederum range (1,x+1) statt range (1,x) zu benutzen, weshalb eure Simulation im Endeffekt für das Problem mit Angabe 10.001 Liedern rechnet statt 10.000, wie ihr denkt.

(Dafür braucht man aber viel mehr als bloß 100 Versuche.)

0
@kreisfoermig

Aber versuch es viel lieber mit x=100 (wie im ursprünglichen Problem) und V=10000 (100 ist zu wenig). Ersetze range (1, x+1) durch rang(1,x) überall in deinem Code und beobachte, was rauskommt. Jetzt ersetze x=100 durch x=101. Ihr werdet ca. 25,1 sehen.

Was man auf keinen Fall machen kann: eine Simulation als Entscheidungsinstrument benutzen, wenn die abweichenden theoretischen Ergebnisse zu nahe aneinander stehen. (Wobei ich glaube, die Simulation richtig durchgeführt mein Ergebnis bestätigt, und dass du sie fehlerhaft ausgeführt hast.) Daher muss man lediglich die Argumente jeweils nach Gültigkeit prüfen.

In dieser Hinsicht glaube ich, das Argument von [PWolff] ist ungültig: er betrachtet nur eine einzige Möglichkeit und berechnet, im Mittel bei diesem einen Falle passiert. Das geht überhaupt nicht: man muss berechnen, was im Mittel bei allen Fällen passiert, und über diese Fälle gewichtet (mit Gewichtung = ℙ des Falles) summieren. Das hat [PWolff] eben nicht gemacht, weshalb sein Argument keine strenge Überprüfung überleben wird.

0
@kreisfoermig

Erneut Danke ich dir (du kannst/darfst mich auch duzen)  für den Aufwand und auch für die Ordnung meines Codes.

Und entschuldige meine Dreistigkeit, anzunehmen, dass du irgendeine Programmiersprach nicht beherrschst...mein Fehler    ;D 

Dennoch muss ich dir bezüglich der Fehleranalyse in meinem Code wiedersprechen, der ist korrekt , genau wie deiner .

ob range (n)    oder range (1,n+1)   nimmt sich gar nichts, das sind jeweils n durchläufe.   (ich habe mir in den Anfängen die Liste ansehen wollen, wobei mir die zahlen 1-100  lieber waren als  0-99  )

Wir haben aber zwei verschiedene Längen der einzelnen Listen betrachtet.

Du hattest 10000 Versuche mit  jeweils einer Liste mit 200 Liedern und ich hatte das selbe umgekehrt,  100 Versuche , mit Listen der Länge 20.000 .

Ich nahm an, dass die prozentuale Anzahl der doppelten Lieder immer gleich sei. Mein Fehler . Und da die gestellte Aufgabe ebenfalls auf 100 Liedern basiert , hattest du damit auch Recht.

Tauscht man beide Zahlen in beiden Codes erhält man identische Ergebnisse. Es lässt sich wohl des weiteren sagen : läuft n gegen unendlich so  läuft der Erwartungswert gegen 25 %.

Jetzt bleibt aber noch die Frage, warum die Antwort von pwolff  nicht ganz korrekt ist....

0
@Pretan5

range(n) und range(1,n) sind gleich.
range(n) und range(1,n+1) jedoch gar nicht.

Mach mal einen Debug: füge print(len(L)) direkt nach deinen for-Schleifen zur Erstellung von L ein. Du wirst sehen, dass du (ob aus Versehen oder nicht, jedenfalls unerwünscht zum Zwecke des Problems) eine Liste mit 202 bzw. 20002 Einträgen konstruiert hast.

Ich habe die Simulation durchgeführt für sowohl n=100 als auch n=10.000 durchgeführt, jeweils mit einer hohen Anzahl (10.000 bis 100.000 Mal) von Wiederholungen. Ich hab da nichts übersehen.

Deine Feststellung ist richtig: für n→∞ geht der E-Wert gegen 1/4. Jedoch haben wir ein solches Problem nicht, sondern ein fixiertes n und man irrt sich, wenn man denkt, dass E-Wert = n/4 exakt.

0
@Pretan5

range(n) und range(1,n) sind gleich.
range(n) und range(1,n+1) jedoch gar nicht.

— mit „gleich“ meine ich natürlich „sind arrays mit der gleichen Anzahl“. range(n) ist [0, 1, …, n–1] und enthält somit n Elemente. range(1,n) ist [1, 2, …, n] und hat ebenfalls n Elemente. range(1,n+1) ist [1,2,…, n+1] und hat hingegen n+1 Elemente.

Jetzt bleibt aber noch die Frage, warum die Antwort von pwolff nicht ganz korrekt ist....

Ich glaube, die Schätzung im Argument ist nicht verkehrt. Nur wie gesagt: er argumentiere mit einem Fall („der“ der im Schnitt passiert) statt mit allen Fällen und begeht somit eine logische Täuschung bzw. einen technischen Fehler: solche AnaIyse ist nicht rechtfertigt auch wenn dies bauchgefühlsgemäß / intuitiv so scheint.

0
@kreisfoermig

range(n) und range(1,n) sind gleich.
range(n) und range(1,n+1) jedoch gar nicht.

.

Nein, da muss ich dir widersprechen :
https://repl.it/Dzq7/2

range(1,n) ist [1, 2, …, n]

nein, range (1,n)  ist [1,2,n-1]

range(1,n+1) ist   [1,2,…, n]  

1
@Pretan5

ach, Python ; ) stimmt du hast recht. Hmm… ich teste dann deinen Originalcode wieder mit x=100 und V groß statt x=10000 und schaue, was rauskommt…

0
@Pretan5

Jo, dein Code is richtig. Es kommt wie erwartet 24.9021; 24.8669; 24.8642; usw. raus… Für n=10.000 sind die zwei theoretischen Möglichkeiten zu nah aneinander numerisch zu entscheiden. Irgendwie habe ich was anders geändert, und da stand 202; ich dachte, es lag daran, aber da hatte ich bestimmt was anderes verändert. Jedenfalls n⟼n+1 (im Falle n=10.000) war natürlich kein triftiger Grund—da war ich etwas voreilig.

1

Ersetzen wir die Dateien durch nummerierte Perlen. 100 rote, von AA über AB, AC, ..., AJ, BA, ... bis JJ "durchnummeriert", und 100 blaue, ebenfalls von AA bis JJ durchnummeriert.

Nehmen wir mal die 200 Perlen, rühren sie gut um und fädeln sie auf.

Dann machen wir in die Mitte des Fadens einen Knoten, so dass auf jeder Seite des Knotens 100 Perlen sind. Die Perlen auf der erste Hälfte des Fadens sollen dann die Dateien repräsentieren, die wir anhören.

Im Mittel (!) sind dann auf der ersten Seite des Fadens 50 rote und 50 blaue Perlen.

Die 50 roten Perlen auf der ersten Fadenhälfte versehen wir jetzt zusätzlich mit Nummern von 1 bis 50. Die blauen Perlen mit denselben Buchstabenkombinationen markieren wir mit denselben Nummern. (Die restlichen Perlen nummerieren wir ebenfalls, das vereinfacht nachher die Formulierung ein wenig.)

Die Wahrscheinlichkeit, dass wir die blaue Perle mit der Nummer 1 auf der ersten Hälfte des Fadens finden, ist 1/2.

Ebenso für die blaue Perle mit der Nummer 2, die mit der Nummer 3 usw.

Von den 50 blauen Perlen mit den Nummern 1 bis 50 sind im Mittel also 25 auf der ersten Hälfte des Fadens.

D. h. von den im Mittel 50 Nummern auf roten Perlen auf der ersten Fadenhälfte sind im Mittel 25 auch auf blauen Perlen auf der ersten Fadenhälfte.

Rückübersetzung:

rote und blaue Perle mit derselben Buchstabenkombination / Zahl -> Original und Kopie derselben Sounddatei

erste Fadenhälfte -> Playlist

Von den im Mittel 50 Originalen auf unserer Playlist sind im Mittel 25 auch als Kopie auf unserer Playlist. Das sind genau die, die wir doppelt hören.

Woher ich das weiß:Hobby – Hobby, Studium, gebe Nachhilfe

Ganz genau, deshalb ist es ja 'nur' eine Wahrscheinlichkeit. Natürlich kann es auch ganz anders sein, du berechnest ja lediglich die mathematische Wahrscheinlichkeit.

Beispiel:

Ein Würfel hat sechs Seiten mit Augen von 1-6. Immer wenn Du würfelst, ist die Wahrscheinlich daß du eine 1 würfelst 1:6. Logisch!

Wenn Du aber jetzt 5 mal hintereinander eine 1 gewürfelt hast, wie hoch ist die Wahrscheinlichkeit, daß du auch beim 6. Mal eine 1 würfelst???

Richtig: wieder 1:6! Die Wahrscheinlichkeit ist immer 1:6 weil der Würfel ja 6 Seiten hat und nur auf eine davon fallen kann, egal warauf er die letzten Male gefallen ist, die Wahrscheinlichkeit ist immer 1:6! Der Würfel hat ja kein 'Gedächtnis' und sagt sich, jetzt muß ich mal was anderes anzeigen.

Gefühlsmäßig betrachtet würden die meisten sagen, daß nach 5 mal einer gewürfelten 1 die Wahrscheinlichkeit sehr klein ist, daß nochmal eine 1 kommt, weil das eben sehr selten vorkommt. Aber wie gesagt, dennnoch ist die mathematische Wahrscheinlichkeit, daß wieder eine 1 kommt genauso wahrscheinlich oder unwahrscheinlich wie beim 1. Mal würfeln.


Hab ich damit Deine Frage beantwortet?





Nein, nicht ansatzweise. Das wesen des absoluten Zufalls war mir zuvor beireits bekannt.

Die anderen beiden Antworten hingegen haben sehr geholfen.

0

Was möchtest Du wissen?