Wofür dient der Unicode und wie ist er aufgebaut?

2 Antworten

Der Unicode dient dazu (annähernd) alle Schriftzeichen der Welt für die digitale Verarbeitung in einem System zu erfassen, indem er jedem Schriftzeichen eine eindeutige Zahl zuweist, den sog. Codepunkt (code point). Das dafür resevierte Zahlenintervall reicht von 0 bis 10FFFF (hexadezimal), d.h. bis 1114111 (dezimal).

Hier in der Abbildung hat man einen Überblick, wie die Schriftsysteme der Welt im Unicode untergebracht sind:

https://de.wikipedia.org/wiki/Unicode#/media/File:Roadmap_to_Unicode_BMP_multilingual.svg

Wie diese Codepunkte binär dargestellt werden, das legt der Unicode nicht fest. Das ist die Sache der verschiedenen Kodierungen UTF-8, UTF-16, UTF-32 usw., und sie lösen dies auf unterschiedliche Weise. Wie viele Bytes (= je 8 Bit) dabei für ein Zeichen verwendet werden, ist z.T. auch innerhalb einer Kodierung verschieden.

Bei UTF-8 z.B. werden für ein Zeichen in 1 bis 4 Bytes benötigt: 1 Byte, wenn es sich um ASCII-Zeichen handelt (d.h. im Wesentlichen A bis Z), aber 2 und mehr Byte, wenn es sich um ÄÖÜ, französische, russische, koreanische oder andere Zeichen handelt.

Die Unterschiede zwischen UFT-8, UTF-16 und anderen Kodierungen sind hier erklärt:

https://de.wikipedia.org/wiki/Unicode_Transformation_Format

Wird erklärt auf Seite https://www.itwissen.info/Unicode-unicode.html .

Folge dort den Links UTF-8 und UTF-16 um auch die beiden wichtigsten Codierungen der Unicode-Zeichen zu verstehen.