Utf-8 wieso werden 8-bit Zeichen in 2 Byte gespeichert?

Nach meinem Stand ist Utf-8 8bit groß,aber wenn man den Binärcode anguckt sind es 16.zb.: ' ¡ ' ist 11000010 10100001;

3 Antworten

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Computer

13.11.2018, 08:41

UTF-8 hat eine variable Länge. Die ersten 127 Zeichen sind identisch mit dem ASCII-Code. Also alle Zeichen, deren erstes Bit eine 0 ist. Wenn ein Byte mit einer 1 anfängt, heißt das, dass es ein Steuerbit für UTF-8 ist. Damit die Codierung in UTF-8 richtig funktioniert, müssen also alle Zeichen ab 8 Bit Länge in mehrere Bytes aufgeteilt werden.

Bei deinem Zeichen kann man gut sehen, wie die Codierung von UTF-8 bei längeren Zeichen funktioniert.

11000010 10100001

Die fett geschriebenen Bits sind die Steuerbits für UTF-8. Das "110" im ersten Byte heißt, dass das Zeichen in zwei Bytes codiert wird (bei mehr Bytes werden dementsprechend mehr Einsen verwendet). Das "10" im zweiten Byte bedeutet, dass es ein Folgebyte eines Zeichens ist, was aus mehreren Bytes besteht.

Die normal geschriebenen Bits ergeben den Code für das eigentliche Zeichen 000 1010 0001. Die führenden Nullen kann man abschneiden, also bleibt 1010 0001 übrig, was man dann in der Unicode-Tabelle nachschlagen kann, und was halt das umgedrehte Ausrufezeichen ergibt.

sebastianla

13.11.2018, 08:22

Mit 8 Bit kann man 256 Zeichen unterscheiden, der Unicode-Zeichenvorrat ist aber viel größer. UTF-8 ist eine Kodierung mit variabler Länge, und für die gilt das alte Prinzip der Datenkompression: wenn häufig Benutztes kleiner wird, muss selten Benutztes größer werden.

torstenm89

13.11.2018, 08:24

UTF-8 ist ein Multi-Byte Encoding. Ein zeichen kann zwischen 1 und 4 Byte lang sein.

Ähnliche Beiträge

Unterschied zwischen - Asciii, Unicode und UTF-8?

Hab schon zig Seiten durch, dennoch verstehe ich den Unterschied zwischen ASCIII, Unicode und UTF-8 nicht.

ich weiß, dass ascii ein 7-Bit System benutzt bestehend aus dem englischen Alphabet aber wie genau steht es im Unterschied zu Unicode ? Wie werden da die Zeichen gespeichert?

...zum Beitrag

UTF-8 warum habe ich bei 2 Bytes nur 11 Bytes für das Codewort übrig?

2Bytes= 16 Bit, ich habe 110 vorne das heißt 3 Bits sind weg für dei beschriftung, dann bleibt doch aber noch 14 Bits übrig, warum steht da, dass ich nur 11 bits habe?

...zum Beitrag

UTF-8 hat doch nur 8 Bits, also 1 Byte, was meint man hier mit den 4 Bytes?

...zum Beitrag

Unterschied zwischen ISO 8859 und UTF-8-Format?

Hallo Leute,

Es geht um folgende Frage:

Die ersten 256 Zeichen des Unicodes sind identisch mit dem Zeichensatz Latin-1 der ISO 8859 (ISO 8859-1). Entspricht damit jeder ISO-8859-codierter Text automatisch auch dem UTF-8-Standard?

Ich glaube nicht, denn beispielsweise hat der oberste Bit eines Bytes im UTF-8-Code eine andere Bedeutung, bin mir aber nicht sicher.

...zum Beitrag

Wieso hat ein Byte ausgerechntet 8 Bit?

...zum Beitrag

Wie berechne ich hier die Größe des Tags?

Cache ist 512 Byte groß. Die einzelnen Blöcke sind 256 Byte groß. Im Hauptspeicher kann jedes einzelne Byte durch eine 16 Bit große Adresse angesprochen werden.

Daraus ergibt sich, dass der Offset 8 ist, weil log_2(256). Für den Tag hätte ich zuerst 512/256 gerechnet und das Ergebnis (=2) plus den Offset dann von der 16 Bit Adresse abgezogen was auf 6 kommen würde, aber das Ergebnis müsste 8 sein.

...zum Beitrag

Wieso kann ein 1Bit System theoretisch 1Byte an Ram adressieren?

Eventuell habe ich etwas falsch verstanden, aber es ist ja allseits bekannt, dass ein 32Bit System max. 4GB Ram (PAE ausgeschlossen) adressieren kann. Jetzt stellt sich mir aber eine Frage zur Rechnung, denn 32 Bit sind 2^32 darstellbare Zahlen. Da das aber noch Bit sind, und man auf GB hinaus will, muss man i.d.R erst durch 8 teilen, um auf Byte zu kommen und danach auf GB, jedoch kommt man auf ein falsches Ergebnis. In anderen Rechnungen wurde der Schritt für die Bytes ausgelassen und das Ergebnis war 4GB. Jetzt frage ich mich wieso. Ich habe mal gelesen, dass 1 Byte die kleinste adressierbare Einheit ist, doch ich frage mich, wieso dann 32 Bit = 32 Byte?

...zum Beitrag

Ein array aus einzelnen bits statt bytes erstellen?

Es soll ein array in C/C++ erstellt werden.
Das array soll nicht ganze bytes, sondern nur einzelnen bits enthalten,
sodass zb int array[5]={1, 0, 1, 1, 0} nicht aus 8 mal 5 sondern nur 5 bits besteht,
um Speicherplatz zu sparen

Als Ansatz vielleicht Bitfelder?
Wie lässt sich das machen?

...zum Beitrag

Was passiert mit 32-Bit-Software nach dem Jahr 2038?

Hey :)

im Jahr 2038 läuft ja die UNIX-Zeit ab bzw. es wird überschritten. Vergleichbar wie bei C#: wie wenn man beim Datentyp byte mehr als 255 eingeben würde (wenn ich das richtig verstanden habe, falls nicht, bitte korrigiert mich)

siehe hier: https://de.wikipedia.org/wiki/Jahr-2038-Problem

Was passiert dann mit der 32-Bit-Software? Stürzt sie ab? Wird nur das Datum falsch angezeigt?

Und gibt es so ein Problem auch für 16-Bit-Software

Würde mich echt interessieren :)

...zum Beitrag

Ip in Binärcode umwandeln?

Hallo wenn ich eine Ip Adresse in einen Binärcode umwandeln möchte zum Beispiel 194.xxx.xxx.xxx und das erste Oktett 8 Bit hat schreibe ich mir immer

128 64 32 16 8 4 2 1 und gucke hald was wie oft reinpasst also

1 1 0 0 0 1 0 wäre der Binärcode, versteh ich ja alles aber wie kommt man auf die Reihenfolge 1,2,4,8,16,32,128?? Ich check schon das das immer mal 2 gerechnet ist aber wie kommt man darauf?

...zum Beitrag

Fehler 'utf-8' codec can't decode byte 0xfc in position 54: invalid start byte in python?

Ich habe ein Programm mit io.open() geschrieben, und als ich es ausgeführt habe, kam folgende Fehlermeldung:

Traceback (most recent call last):
  File "C:\Users\theoe\Theo\Vokabeltrainer_Mittel_Lat.py", line 144, in <module>
    loadDiagnose()
  File "C:\Users\theoe\Theo\Vokabeltrainer_Mittel_Lat.py", line 15, in loadDiagnose
    Datei = list(Datei2)
  File "C:\Program Files\Python39\lib\codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xfc in position 54: invalid start byte

das finde ich sehr komisch, da in utf-8 ja aalle zeichen da sind, auch das ü(das Byte 0xfc ist das Byte 252 und dieses Byte ist ü)

Kann mir da bitte jemand sagen, was das zu bedeuten hat?

Freue mich jetzt schon auf eur antworten.

...zum Beitrag

Was ist der Unterschied zwischen GiB, MiB mbit gbit MB Gb, byte und bit?

Hi kann mir einer den unterschied zwischen GiB Gigabyte und Gigabit erklären?

1: wieso sind 1000 mbit keine 1 gbit ( hab gehört irgendwas mit 1024)

2: wieso hat eine 1 TB festplatte nie 1 TB speicher?

3: Was ist der unterschied zwischen bit und byte, ich glaube byte ist der Speicher und bit ist irgendwas anderes und wieso gibt es überhaupt 2 verschiedene arten?

4: Und die Letzte frage: Wieso gibt es Yotabyte? Es braucht doch kein mensch sowas (außer google etc. um das "Internet zu Speichern" )

...zum Beitrag

Wv Zahlen kann 1 Byte speichern?

Hi Leute, ich hab eine Frage unzwar haben wir mal in Physik aufgeschrieben dass 1 Byte = 4 Bits sind was mich gewundert hat da es ja normalerweise 8 Bits sind. Zudem meinte der Lehrer dass 1 Byte 16 Zahlen speichern könnte. Stimmt das ? Dann müssten das wieder 4 Bit sein in Dualsystem z.B.: 1111 (2)=16 . Aber es sind doch 8 Bits. Morgen schreiben wir eine Arbeit also brauch ich Hilfe. Ich bedanke mich im vorraus ! Mit freundlichen Grüßen KopLert

...zum Beitrag

Binär-Code ---> Speicherplatz?

Es ist doch so, dass eine Zahl oder ein Zeichen im Binär-Code immer acht Ziffern hat. Eine Ziffer darin ist ein Bit groß, ist dann ein so ein Zeichen oder eine Zahl etc. immer ein Byte groß oder zählt nur die 1 in einem Byte als Bit?

...zum Beitrag

Was möchtest Du wissen?

Deine Frage stellen