Informationsgehalt bestimmen: Text mit 1000 Buchstaben aus 53 verschiedene Zeichen?
Hallo liebe Community, ich benötige eure Hilfe. Ich habe eine Aufgabe zu lösen, die mir relativ schwer fällt.
Es soll der Informationsgehalt (also -log2(px)) von einem Text mit 1000 Buchstaben aus 53 verschiedenen Zeichen bestimmt werden. Die 53 verschiedene Zeichen setzen sich aus 26 Kleinbuchstaben, 26 Großbuchstaben und einmal das Leerzeichen zusammen.
Jetzt weiß ich nicht, wie ich p(x) also die Wahrscheinlichkeit bestimme. Ist die Wahrscheinlichkeit einfach 1/52? Aber dann habe ich ja die 1000 Buchstaben nicht beachtet...
Ich hoffe ihr könnt mir helfen, freue mich über jede Antwort.
Mit freundlichen Grüßen
1 Antwort

Ohne weitere Angaben ist die Aufgabe nicht lösbar. Du musst irgendwelche Annahmen über die Wahrscheinlichkeiten machen:
Ist der Text gegeben? Dann würd es sich anbieten, die relativen Häufigkeiten zu zählen, die Wahrscheinlichkeiten danach zu modellieren und dann in die Formel einsetzen. In dem Fall wird aber immer noch angenommen, dass die einzelnen Zeichen statistisch unabhängig sind (was in einem echten auf einer Sprache basierenden Text nicht der Fall ist)
Ist der Text nicht gegeben? Dann kannst du natürlich einfach mal annehmen, dass alle Zeichen i.i.d. gleichverteilt sind, dann wäre der Informationsgehalt - 1000 * log(1/53). Das ist zugleich eine obere Schranke für den Informationsgehalt,sollten die Zeichen nicht gleichverteilt sein.

Dankeschön für deine Antwort!
Nein, der Text ist nicht gegeben, daher gehe ich ebenfalls von einer Gleichverteilung aus. Nun habe ich -1000*log2(1/52) berechnet, dort kommt 5700,44 Bits heraus. Ist das korrekt?
Grüß