Wir wirksam ist komprimierte Musik, wie zum Beispiel MP3, was Schwingungen betrifft?

8 Antworten

Dadurch, dass der Kammerton künstlich auf 440 Hz angehoben wurde,

Damit wurde lediglich eine Norm eingeführt, damit nicht jedes Orchester einen eigenen Kammerton hat. Tatsächlich stimmen die meisten deutschen und österreichischen Orchester auf 443 Hz ein, beim Musizieren auf historischen Instrumenten aus dem Barock stimmen entsprechende Ensembles zumeist auf 415 Hz.

Also zunächst einmal klingt ...

Und der menschliche Körper schwingt auf einer Grundfrequenz von 432 Herz.

... nach (sorry) gewaltigem Humbug. Falls Du der Ansicht bist, dass es das nicht ist, dann nenne bitte eine seriöse, wissenschaftliche Quelle, welche eine reproduzierbare Messvorschrift beinhaltet, wo ich an meinem Körper eine Frequenz von exakt 432 Hz messen kann.

Ich bin gespannt.

Nun zur eigentlichen Frage.

Die MP3-Kompression basiert, wie übrigens auch die moderneren Formate AAC, Vorbis und Opus auf der Kosinustransformation, einer Transformation von Information von der Zeit- in die Frequenzdomäne, ähnlich der Fouriertransformation.

Audiodaten werden mittels Analog-Digital-Wandlern (ADCs) aufgezeichnet. Diese wandeln den Spannungsverlauf, der von einem Mikrofon oder Tonabnehmer kommt, in eine zeitdiskrete Folge von Abtastwerten (Samples) um, indem sie in bestimmten Zeitschritten, festgelegt durch die Abtastrate, die Spannung an ihrem Eingang messen und den Wert "digital" (als Zahl) ausgeben. Sofern die Abtastrate mindestens das doppelte der höchsten darzustellenden Frequenz beträgt, ist diese Umwandlung exakt, d. h. obwohl ich nur eine endliche Reihe von Stützstellen habe, ist dennoch jede beliebige Frequenz von 0 Hz (Gleichspannung) bis zur halben Abtastrate exakt im abgetasteten Signal enthalten. Das ist das so genannte Abtasttheorem von Nyquist. Die halbe Abtastrate wird daher auch als Nyquist-Limit bezeichnet.

Die Kompression erfolgt dadurch, dass die Folge von Abtastwerten (Samples) kosinustransformiert werden. Dadurch muss sie zunächst in überlappende Blöcke fester Länge zerteilt werden. Anschließend wird auf diesen die diskrete Kosinustransformation durchgeführt. Diese überführt ein mit der Frequenz f abgetastetes Signal in eine Folge von Frequenzen (und dazugehörigen Phasen) von 0 Hz (Gleichspannungsanteil) bis einschließlich f/2, dem Nyquist-Limit. Da das transformierte Signal zeitdiskret war, ist seine Frequenzdarstellung ist ebenfalls diskret. Wenn ein Block von n (prinzipiell komplexwertigen) Abtastwerten transformiert wurde, werden durch die diskrete Fouriertransformation beispielsweise ebenfalls n (ebenfalls komplexwertige) Fourier-Koeffizienten erzeugt. Diese stellen Frequenzen von -f/2 bis f/2 (jeweils einschließlich) dar. (Ja, die Fouriertransformation erzeugt "negative Frequenzen". Das hat damit zu tun, dass sie eine komplexwertige Größe transformiert. Wenn man eine rein reellwertige Funktion fouriertransformiert, kann man die "negativen Frequenzen" aus den "positiven Frequenzen" rekonstruieren. Die "negativen Frequenzen" sorgen einfach dafür, dass sich die Imaginärteile bei der Rücktransformation aufheben, während sich die Realteile zur richtigen Amplitude addieren.) Insgesamt liegt die "Breite" des Frequenzbereichs (einschließlich der "negativen Frequenzen") aber wieder bei f. Die "Frequenzauflösung" beträgt daher f / n, wenn n die Anzahl der Abtastwerte ist, die transformiert wurden. (Die diskrete Kosinustransformation habe ich selbst nie verwendet, aber sie wird prinzipiell ähnlich funktionieren.)

Also ja, die Frequenzauflösung ist durch die Transformation endlich. Dennoch ist die Transformation selbst (abgesehen von Rundungsfehlern, da ein Computer natürlich immer mit einer endlichen Genauigkeit rechnet) exakt, denn das ursprüngliche Signal beinhaltete bereits nicht mehr Information. Was Du auch siehst: Je mehr Abtastwerte Du auf einmal transformierst, desto genauer wird die Information, die Du über den Spektralbereich erhältst, aber desto ungenauer wird Deine Information, die Du über die zeitliche Entwicklung erhältst, da Du ja einen größeren Zeitbereich transformierst. Wenn Du versuchst, eine Frequenz genauer aufzulösen, wird sie also zeitlich "dislokaler" und umgekehrt. Das ist im Grunde das selbe Prinzip, das der Unschärferelation der Quantenmechanik zugrunde liegt, wo eine höhere räumliche Auflösung eine geringere Auflösung des Impulses, somit der Geschwindigkeit und somit letztlich ebenfalls der Zeit (als Grenzwert von Weg (= "Raum") durch Geschwindigkeit) bedingt und umgekehrt. Auch dies ist keine "Schwäche" der Transformation, sondern liegt darin begründet, dass bereits von vornherein nicht mehr Information vorhanden ist.

Die Datenreduktion (Kompression) wird hauptsächlich erzielt, indem die Auflösung der Amplituden in der Frequenzdomäne durch Quantisierung reduziert wird und in der Regel auch Frequenzen mit kleinen Amplituden gänzlich "unter den Tisch fallen gelassen werden", da davon ausgegangen wird, dass der Hörer die Anteile mit kleineren Amplituden nicht mehr wahrnehmen kann, wenn es Anteile mit stärkeren Amplituden gibt, die das Klangbild "dominieren" (was durchaus eine korrekte Annahme ist). Auch Phaseninformation wird durch die Kompression zu einem Großteil verworfen, da man davon ausgeht, dass das menschliche Gehör hierfür nicht unbedingt sehr empfindlich ist. Allerdings scheint es inzwischen neuere Erkenntnisse zu geben, die zumindest andeuten, dass das menschliche Gehör für Phasendifferenzen tatsächlich wesentlich empfindlicher ist, als man lange Zeit annahm. Ich habe sogar kürzlich erst einen Artikel gelesen, in dem behauptet wurde, der Mensch könne sogar einen zeitlichen Versatz, der unterhalb des Kehrwerts der höchsten wahrnehmbaren Frequenz, also unterhalb von 1 / (20 kHz) = 50 Mikrosekunden, liegt, wahrnehmen. Das würde dann natürlich auch bedeuten, dass eine Abtastung mit ca. 40 kHz Abtastrate tatsächlich nicht ausreichend wäre, um ein Signal "vollständig" (für den Menschen ununterscheidbar) zu charakterisieren, wobei ich definitiv sagen muss, dass ich noch keine belastbare Quelle für diese Behauptung gefunden habe und daher ein wirklich dickes Fragezeichen dahinter setzen muss.

Klar, unser Ohr erkennt kaum einen Unterschied, aber wie ist es mit der Schwingung?

Gute Frage. Zum exakten Frequenzauflösungsvermögen der einzelnen Formate kann ich nicht wirklich etwas sagen. Die Signalrepräsentation ist jedenfalls nicht exakt und gerade schwache Obertöne können verworfen werden. Insbesondere wenn Du noch weitere Signalverarbeitung anschließen möchtest, musst Du daher mit einem unkomprimierten Format arbeiten.

Zum reinen "Anhören" reicht jedenfalls auch ein komprimiertes Format. Allerdings würde ich ein moderneres Format empfehlen. Ich kodiere beispielsweise meine Musik in Vorbis. MP3 ist ja nun wirklich steinalt (1993) und mit gutem Equipment und in einer leisen Umgebung kann man da, insbesonder wenn die Bitrate nicht gerade super-hoch (192 kbit/s und mehr) ist, durchaus noch Unterschiede zum Original wahrnehmen, wobei das natürlich immer auch von der Qualität der Aufzeichnung selbst abhängt. Bei einer selbstgemasterten Aufzeichnung einer Underground-Black-Metal-Band kann ich auch nicht mehr viel kaputt machen, außer dass vielleicht das Rauschen nicht mehr ganz so originalgetreu ist. ;-) Bei Vorbis höre ich bei 128 kbit/s keinen Unterschied mehr zum Original. Wahrscheinlich würden da auch 96 kbit/s noch funktionieren und mit Opus könnte man noch weiter herunter gehen. Dennoch archiviere ich Aufnahmen aus entsprechend hochwertigen Quellen als FLAC (= verlustfrei), einfach aus Prinzip, um alles zu bewahren. :-)

Früher hat man auf Tonband aufgezeichnet, das ist jedenfalls sehr viel "schlimmer", als MP3. ;-) Auch Vinyl ist nicht "exakt", weil nur mit begrenzter Präzision geschnitten werden kann, die Nadel nicht immer genau gleich läuft, Staub in die Rillen gelangt, der Tonabnehmer nicht hunderprozentig linear ist und auch ein Eigenrauschen aufweist. Zudem gibt es eine Degradation, weil die Nadel natürlich bei jedem Abspielen mikroskopische Mengen von Vinyl "abträgt" und dadurch den Signalverlauf ändert. Ich denke daher, dass die Klangqualität von digitalem Audio letztlich sehr profitiert, denn das kann ich abspielen, so häufig ich will und kopieren ohne "Generationsverlust", solange ich es nicht bearbeite und/oder erneut encodiere.

Danke für diesen höchst informativen Beitrag!

2

Der Kammerton wurde angehoben um das komplette Durcheinander, was es weltweit bezüglich der Referenztöne gab, auf ein einziges Niveau zu bringen, das zudem auch noch mathematisch besser beherrschbar ist.

In der Vielfalt der Referenztöne gab es m.W. niemals die 432Hz als Standard. Versuche gab es sicherlich, auch heute. Aber es gibt auch niemanden (außer jemand mit absolutem Gehör), der ein Stück auf Basis 432Hz ohne direkten Vergleich z.B. von einem mit 440Hz in B-Dur (in deutscher Schreibweise H-Dur) unterscheiden könnte.

Zum Vergleich: Das C7 in 432Hz-Stimmung hätte 2054,95Hz, das B(H) in 440Hz. liegt bei 1975,53Hz. 

Schau Dir mal dieses Video an. Auf jeden Fall bis 1'50" dran bleiben!

https://youtube.com/watch?v=EKTZ151yLnk

Und der menschliche Körper schwingt auf einer Grundfrequenz von 432 Herz

Kannst du das irgendwie begründen oder belegen?

Was meinst du mit Grundfrequenz? Was meinst du mit schwingen? Der menschliche Körper ist kein homogenes Objekt, das eine Eigenfrequenz hat. Er besteht aus verschiedenen Organen mit unterschiedlichen Eigenschaften und Dichten. Und einem Blutkreislauf.

Allein schon die Tatsache, dass wir unterschiedlich hohe Stimmen haben deutet für mich darauf hin, dass wir nicht alle die selbe "Grundfrequenz" haben können.

wie wirkt sich das komprimieren aus?

Durch die Kompression im MP3-Format werden Dinge weg gelassen, die wir sowieso nicht hören. Z.B. das Ticken eines Weckers, während er klingelt.

Ab einer hinreichend hohen Qualitätsstufe merken wir den Unterschied zur unkomprimierten Musik de facto nicht mehr.

Ich glaube auch nicht, dass wir da in irgendeiner Weise anfällig oder empfänglich sind.

Insgesamt halte ich die ganzen Theorien für ziemlich haltlos. Nicht alles, was irgendwelche wissenschaftlichen Begriffe enthält, IST auch automatisch Wissenschaft :-)

Das ist doch Humbug! Das kam AFAIK irgendwie sogar von den Nazis, die viel pseudomedizinischen Mist in die Welt gesetzt haben :-D

Es gibt halt einen Ton, 440Hz (sowie seine jeweiligen Unter- und Obertöne auf den anderen Oktaven), der vom Menschen als "A" bezeichent worden ist.

Früher hat man den 432Hz-Ton als "A" bezeichnet.

Das wurde beides ausgewürfelt aus einem einfachen Grund: Damit ein A immer ein A ist.

Aber eben nur ein A ist ein A. Es gibt noch andere Frequenzen. ein C oder ein F hat eine andere Frequenz.

Dass die dasselbe Musikstück ohne Veränderungen bei 440Hz stressiger wirkt als bei 432Hz: Es ist höher und damit hektischer. Es gibt aber eine simple Möglichkeit, dies auszugleichen: Man transponiert es insgesamt ein paar Noten herunter ;-).

Man hat effektiv die Tonleiter neu definiert.

Nun zu deiner Frage: Das ist den Codecs, wie MP3, Vorbis usw. völlig wurscht, auf welcher Frequenz die Töne schwingen. Mit ihnen wird ja nicht nur Musik komprimiert, sondern auch Geräusche, Sprache usw, die sich nicht an Tonleitern halten.

Musikkompression funktioniert etwa so: Das Musikstück wird in viele kleine Häppchen von wenigen Milisekunden zerlegt. Bei jedem einzelnen Häppchen wird geschaut, welche Frequenzen wie laut schwingen. Dabei werden nur die jeweilig wichtigsten übernommen und der Rest weggeworfen (Hier entsteht der Klangverlust). Die übernommenen Frequenzen werden mit Höhe und Lautstärke in der Zieldatei gespeichert. Beim Abspielen wird aus den Informationen, wann welche Frequenz wie laut schwingt, das Musiksignal wieder reproduziert - Nur eben nicht mit allen ursprünglichen Frequenzen.

Wenn die Bitrate nicht reicht, muss zu viel weggeworfen werden und dann ist der Codec auch gezwungen, laute, gut hörbare Frequenzen zu verwerfen. Dann entstehen hörbare Klangveränderungen zum metallischen Klang hin.

PS: Mit Audacity kannst du beliebige 440Hz-Musik auf 432Hz-Musik abändern, wenn es dir was hilft:

1. Musikstück in Audacity laden

2. Stellst die Abtastrate von 44100Hz auf 43298Hz um - Aber nicht resamplen, sondern links direkt neben der Tonspur, so dass das Lied etwas langsamer spielt. 

3. Stelle sicher, dass ganz unten links die Projekt-Samplerate weiterhin auf 44100Hz steht.

3. Das ganze im Format deiner Wahl abspeichern. Während des Speichern wird das Lied so resampelt, dass es nun auf 432Hz spielt :-D

Guter Beitrag, außer, dass es nicht nachweisbar ist, dass irgendwann jemals ein 432Hz-A definiert war. 

1

Was möchtest Du wissen?