Wie viele Zeichen beinhaltet der Unicode (UTF-8)?

Hi,

ich habe eine Frage zum Unicode, denn ich habe mir notiert, dass der Unicode -> UTF-8 einen Zeichensatz von 2^32 Zeichen hat.

Kann das stimmen? Falls nicht, wie viele Zeichen hat der Unicode? (2^??)

2 Antworten

indiachinacook

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Sprache

01.05.2018, 23:31

Unicode ist sehr, sehr groß. So wie der Standard angelegt ist, bietet er Platz für 2²⁰ (über eine Million) Codepoints, von denen allerdings viele niemals mit Zeichen belegt werden dürfen (so ist z.B. ⅛ des Codespace als “private use area” permanent unbelegt). Insgesamt bleiben ca. 975000 Codepoints für Zeichen übrig.

Das Design des Standard macht es aber ohne größere Probleme möglich, auf bis zu 2³² Zeichen (ca. 4 Milliarden) aufzustocken. Das ist die Grenze, die der Algorithmus hinter UTF-8 setzt; will man den aufgeben, dann wären auch weitere Vergrößerungen denkbar.

Aktuell hat Unicode Unterstützung für so gut wie jede heute noch gebrauchte Schrift und die überwältigende Mehrzahl der historischen Schriften; dazu wurden weniger als 140000 Zeichen belegt.

Unicode ist aber nicht nur eine Liste von Zeichen; dazu kommen noch standardisierte Verfahren zu Font Rendering, Textsatz und Texterkennung. Das gibt es sehr kompliziertes Konvolut von Algorithmen und Verfahren, die aufeinander aufbauen. Wie gut das Zeug funktoniert, merkt man daran, daß man als Benutzer kaum etwas von der Komplexität des Standards merkt.

Wer sich erinnern kann, wie grauenvoll es noch vor 20 Jahren war, wird die Arbeit des Unicode-Konsortiums nicht gering schätzen. Damals war es noch eine erstklassige Peinigung, wenn man nur verschiedene europäische Șṗřāćħêņ in einem Dokument mischen wollte, ganz zu schweigen von griechisch, arabisch oder gar — horribile dictu — indischen oder südostasiatischen Schriften. Heute kann ich das ohne Probleme, sogar auf gutefrage.net.

Woher ich das weiß:Hobby – Angelesenes Wissen über Sprachgeschichte und Grammatik

Franz1957

01.05.2018, 22:29

Unicode bietet Raum für 1114112 Codepunkte, das ist sozusagen der Vorrat an möglichen Nummern für Schriftzeichen. Bisher ist für 136755 Zeichen ein solcher Codepunkt vergeben.

UTF-8 ist nur eine von mehreren Methoden, die Codepunkte mit Bitmustern auszudrücken. Ein- und dasselbe Zeichen und sein Unicode-Codepunkt kann auf verschiedene Weise binär codiert werden. Je nachdem, ob es mehr auf effiziente Speicherung, Verarbeituing oder Transport der Zeichenfolgen ankommt.

https://de.wikipedia.org/wiki/Unicode (Abschnitt Codepunkte und Zeichen)

https://en.wikipedia.org/wiki/Unicode (Abschnitt Versions)

Franz1957

01.05.2018, 22:42

Berichtigung: Es sind einige Codepunkte weniger, nämlich 1111998, die für Zeichen genutzt werden können. Die anderen, die dafür nicht zur Verfügung stehen, dienen als so etwas wie Metasymbole für interne Zwecke des Unicodes selbst.

indiachinacook

01.05.2018, 23:35

@Franz1957

Diese Zahl ist eigentlich noch um die “private use areas” zu korrigieren. Die enthalten zwar Zeichen, aber ohne Attribute — man kann sie also nur nutzen, wenn dem Empfänger von vorneherein klar ist, wie er die Codepoints zu interpretieren hat.

Ähnliche Fragen

Wie funktioniert die Unicode-Codierung?

Ich schaue mir gerade an, wie man Text mithilfe am Computer codiert.

Die ASCII-Codierung habe ich auch verstanden, aber beim Unicode hakt es noch ein bisschen. Ich habe (glaub ich) verstanden, dass man einzelne Zeichen mithilfe von Codepoints codiert, und dass ein Zeichen auch durch mehrere Codepoints codiert werden kann (z.B. identische Zeichen in verschiedenen Alphabeten). Ein Codepoint scheint auch einfach eine Codierung in der Form U+xxxx zu sein. Ich verstehe aber nicht ganz, für was die verschiedenen Ebenen wie BMP da sind, und was UTF-8 im Prinzip macht.

...zur Frage

Zeichen übereinander schreiben via Unicode?

Hallo,

gibt es evtl. die Möglichkeit Buchstaben/Zeichen über Unicode übereinander zu schreiben?

In meinem Fall müsste ich zwei bzw. drei "x" übereinander platzieren. Über Word bekomme ich die Buchtsaben mit Hilfe einer Matrix zwar übereinander, wenn ich jedoch dieses "neue" Zeichen kopiere und in eine Datenbank einfüge, zeigt mir die Website nicht dieses Zeichen, sondern bloß eine wirre Aneinanderreihung von Zeichen und Buchstaben, da das neue Zeichen natürlich nicht Unicode-konform ist.

Ich hoffe, dass das Problem für euch nachvollziehbar ist.

Vielen Dank im Voraus für eure Antworten!

Liebe Grüße,

Patrick

P.S.: Anbei ein Bild der entsprechenden Zeichen, die benötige.

...zur Frage

Wie die Unicode-Liste mit den 65.536(?) Zeichen im Java-Programm verwenden?

Ich weiß weder, wie viele Zeichen als Unicode verstanden werden, aber es sollen wohl um die 65.000 sein. Diese Liste möchte ich verwenden, um sie in IntelliJ zu verwenden oder gibt es da eine fertige Bibliothek?

Mein Vorhaben wäre wie folgt:

Mit z. B.

case '\u00B6' -> altNumpad(robot, "20");

würde ich in einer Methode dieses Unicode-Zeichen schreiben lassen.

Nun möchte ich aber, dass dieses Programm alle Unicode-Zeichen unterstützt, denn normal über Robot robot = new Robot(); geht das nur mit sehr wenigen Zeichen.

Oder gibt es eine einfachere Lösung, alle Unicode-Zeichen von dem Programm automatisch schreiben zu lassen? 65.000+ Zeilen Code wären auch nicht sehr übersichtlich ...

...zur Frage

Unterschied zwischen ISO 8859 und UTF-8-Format?

Hallo Leute,

Es geht um folgende Frage:

Die ersten 256 Zeichen des Unicodes sind identisch mit dem Zeichensatz Latin-1 der ISO 8859 (ISO 8859-1). Entspricht damit jeder ISO-8859-codierter Text automatisch auch dem UTF-8-Standard?

Ich glaube nicht, denn beispielsweise hat der oberste Bit eines Bytes im UTF-8-Code eine andere Bedeutung, bin mir aber nicht sicher.

...zur Frage

Welches Textformat ist mit MS-DOS am kompatibelsten?

ANSI, Unicode oder UTF-8

...zur Frage

Unterschied zwischen - Asciii, Unicode und UTF-8?

Hab schon zig Seiten durch, dennoch verstehe ich den Unterschied zwischen ASCIII, Unicode und UTF-8 nicht.

ich weiß, dass ascii ein 7-Bit System benutzt bestehend aus dem englischen Alphabet aber wie genau steht es im Unterschied zu Unicode ? Wie werden da die Zeichen gespeichert?

...zur Frage

Arch Linux Sonderzeichen?

Mir ist aufgefallen das mir viele Sonderzeichen nicht angezeigt werden in meinem Terminal sieht es ca. so aus:

während es eigentlich so aussieht:

Ich habe mich weiter informiert und

Unicode Zeichen von 80-90 werden nicht wirklich dargestellt und einige andere Sachen auch ich habe überall UTF-8

Ich bitte um Hilfe

...zur Frage

phpmyadmin Fehler 500?

Hallo Liebe Mitmenschen

Ich habe heute Gesehen das meine Datenbank ein Fehler hat und ich weis nicht wie ich diesen Beheben soll ich würde gerne um rat von allen bitte

Fehler:

Server: Localhost via UNIX socket
Server-Typ: MySQL
Server-Version: 5.7.33-0ubuntu0.18.04.1 - (Ubuntu)
Protokoll-Version: 10
Benutzer: admin@localhost
Server-Zeichensatz: UTF-8 Unicode (utf8)

Verbindung: SSL also https://domain.de/phpmyadmin

hab ich etwas falsch eingestellt?

MFG

...zur Frage

Wie stellt euer Gerät dieses Unicode Zeichen dar?

🏴󠁵󠁳󠁴󠁸󠁿

...zur Frage

Wofür dient der Unicode und wie ist er aufgebaut?

Wie viele Bits besitzt der Unicode und mit welchen Zeichen wird dieser codiert?

...zur Frage

Unicode/ASCII in C mit printf() in der Konsole darstellen.

Servus, ich möchte mit der printf()-Funktion Unicode/ASCII in der Konsole darstellen (Programmiersprache: C). ASCII wird problemlos dargestellt, bei Unicode werden fehlerhafte Zeichen dargestellt bzw. nicht die Zeichen, die ich möchte.

#include <stdio.h>
#include <stdlib.h>

int main()
{
    printf("AE: \x8E\n");
    printf("OE: \x99\n");
    printf("UE: \x9A\n");
    printf("SS: \xE1\n");
    char h_doubleline = '\u2550';
    char v_doubleline = '\u2551';
    printf("Doppelte horizontale Linie: %c\n", h_doubleline);
    printf("Doppelte vertikale Linie: %c\n", v_doubleline);
    int input = getchar(); //Eingabeanfrage, damit das Programm nicht beendet wird.
    return 0;
}

Wie kann ich Unicode richtig einfügen, sodass die richtigen Zeichen angezeigt werden? MfG.

...zur Frage

Unicode Charakter erstellen?

Hallo,

Es gibt z.B. das inoffizielle Elbasan Alphabet bei U+10500 - U+1052F, wäre es möglich, dass ich bei (z.B.) U+11000 neue Zeichen einfüge, die bei Unicode verwendbar sind? Falls ja, wie wäre das möglich? Ich habe bereits die Buchstaben zur Verfügung, ich muss sie nur noch ins Unicode kriegen.

Liebe Grüße und Danke im Voraus

...zur Frage

ASCII und Zeichensatz herausfinden

Ich habe letztens in einem Forum ein besonderes Zeichen gesehen und möchte es öfters benutzen.

Es ist dieses > ☕ <

mit Cut&Paste lässt es sich kopieren und einfügen. Mit Unicode oder mit der Zeichentabelle von Windows komme ich ohne den richtigen Zeichensatz nicht weiter. Mich interessiert jetzt, wie bekomme ich den verwendeten Zeichensatz und den ASCII Code heraus?

...zur Frage

ASCII Erweiterung?

Warum wurde eigentlich ASCII mit dem Unicode Utf-8 erweitert?

Also die 0, um auf 8 Bits zu kommen.

...zur Frage

Was möchtest Du wissen?

Deine Frage stellen