Wie den Informationsgehalt eines Textes bestimmen?

3 Antworten

Wenn du den Informationsgehalt der Sprache messen willst kannst du dafür die Entropie heranziehen.

https://de.wikipedia.org/wiki/Entropie_(Informationstheorie)

Das ganze geht nicht nur für Buchstaben sondern auch für ganze Wörter sofern du die Wahrscheinlichkeit der Wörter in der jeweiligen Sprache kennst.

Je höher die Entropie desto höher der Informationsgehalt, das bedeutet desto zufälliger sind die Worte.

Das mag jetzt natürlich verwunderlich klingen, weil eine aneinanderreihung von Sinnlosen Wörter eine maximale Entropie hätte, allerdings verletzt man dadurch die Bildungsvorschrift der Sprache. Die einzelnen Wörter sind also nicht statistisch voneinander unabhängig.

Als ein Beispiel zu steigerung des Informationsgehalts der deutschen Sprache kann man zB einige wiederkehrende und erratbare Wörter auslassen.

Normal:

Die Katze geht um das Haus herum.

Mit mehr Information bezogen auf die Länge:

Katze geht um Haus herum.

Wir haben die selbe Information in einem kürzeren Satz abgebildet und damit den Informationsgehalt des Satzes erhöht.

Ein klassisches Beispiel für so eine Entropieoptimierung ist der Morsecode.

In der Englischen Sprache hat der Buchstabe E die höchste Auftrittswahrscheinlichkeit und wird daher mit . bezeichnet.

Der zweithäufigste Buchstabe das T wird mit - abgekürtzt.

Die beiden Buchstaben welche am häufigsten vorkommen bekommen den kürzesten Code, dadurch ist es im Endeffekt möglich einen Englischen Satz im Mittel am kürzesten darzustellen und er hat somit eine maximale Entropie.

Auf genau solchen Verfahren basieren übrigens Komprimierungsalgorithmen. So kann man zB Daten komprimieren indem man die Daten zunächst analysiert und die Häufigste Sequenz durch ein einziges Bit abbildet.

Informationstheoretisch geht das über die Entropie, die den mittleren Informationsgehalt angibt. Man muss aber schon sehr sehr genau definieren, woüber man hier spricht, bevor man anfängt zu rechnen.

Es kommt darauf an, was du unter Information verstehst.

Ich suche Dokumentastion zu einem CMS und analysiere dafür Rezepte von https://www.rezeptwelt.de/.

Diese Texte haben für mich wenig, bis gar keinen Informationsgehalt.