Unicode ist ein internationaler Standard, dessen Ziel es ist, einen Code für jedes grafische Zeichen oder Element aller bekannten Schriftkulturen und Zeichensysteme festzulegen. Er will das Problem der verschiedenen inkompatiblenKodierungen in den unterschiedlichen Ländern beseitigen. Die bestehenden Standards erforderten einen hohen Konvertierungsaufwand beim Datenaustausch, wenn eine Konvertierung überhaupt möglich war. Dadurch, dass die meisten Zeichenkodierungen nur wenige Sprachen unterstützen, war es in der Praxis oft unmöglich, verschiedene Sprachen im selben Text zu verwenden.
Das Unicode Consortium (eine Vereinigung mit Domizil in Kalifornien) publizierte 1991 eine erste Fassung des Standards und hat seither regelmäßig neue Fassungen herausgegeben, die jeweils der geleisteten Standardisierungsarbeit entsprechen.
Das Konsortium arbeitet mit der ISO-Organisation zusammen, die den Standard ISO 10646 herausgibt. Unicode und ISO 10646 sind gleichwertig, was die entsprechenden Codes für die Zeichen betrifft, aber der Unicode-Standard enthält bedeutend mehr Angaben für die Implementierung von Textverarbeitungslösungen (Darstellung, Sortierreihenfolgen, Schriften, die von rechts nach links laufen etc). Unicode ist streng genommen eine Untermenge von ISO 10646: während ISO 10646 Zeichencodes mit bis zu 31 Bit zuläßt, sind bei Unicode maximal 21 Bit erlaubt. Zur Zeit ist das jedoch nur von theoretischem Interesse, da noch keine Zeichen definiert wurden, die über den 21 Bit Bereich hinausgehen. Dies soll sich laut eines Prinzipien-Dokuments der Arbeitsgruppe, die den ISO-Standard weiterentwickelt, auch in Zukunft nicht ändern.
Codes
Unicode-Zeichen werden oft in der Form U+XXXX angegeben, wobei das U für Unicode steht, und XXXX die hexadezimale Zahl ist, mit der das Zeichen kodiert ist.
Basic Latin
die ersten 128 Zeichen, U+0000 - U+007F, entsprechen dem ASCII-Zeichensatz
Ergänzende Zeichen für Sprachen, die das lateinische Alphabet benützen
Für die meisten Unicode-Zeichen gibt es frei erhältliche Schriftarten.
Es werden auch kommerziell erhältliche Schriftarten angeboten.
Zu beachten ist, dass für eine Schriftart, die dem Unicode-Standard folgt, nur gilt, dass die Zeichen, die vorkommen, an dem vom Unicode vorgeschriebenen Platz zu finden sind. Es heißt nicht, dass ein entsprechendes Zeichen tatsächlich vorhanden sein muss. Es gibt einige Schriftarten, die nur ca. 600 Zeichen implementieren, was aber für viele Zwecke bereits genügt und einen bedeutenden Fortschritt gegenüber den 255 Zeichen der 8-Bit-Schriftarten darstellt.
Versionen
1989 DP 10646 (Vorschlag für den Entwurf von ISO 10646, unabhängig von Unicode)
1990 DIS-1 10646 (Erster Entwurf für ISO 10646, unabhängig von Unicode)
Will man ein Unicode-Zeichen (z. B. ⊕) in HTML oder XML verwenden, sucht man es zunächst aus der entsprechenden Tabelle (hier: Mathematische Symbole). Dort ist seine Zeichennummer hexadezimal angegeben. Mit dieser Zeichennummer erstellt man dann eine Zeichenentität durch Voranstellen von "&#x" und Anfügen ";", eben "⊕", das ergibt dann das gewünschte Zeichen: "⊕". Die Zeichennummer kann in der Zeichenentität auch dezimal, dann ohne führendes "x", angegeben werden, z. B. "⊕" für das gleiche Zeichen.
Im Vi Improved kann man Unicode-Zeichen (Voraussetzung: Unicode-basierte Locale oder als Unicode, z. B. UTF-8, erkannte Datei) eingeben, indem man Strg+V,U und dann die hexadezimale Zeichennummer drückt, also z. B. Strg+V,U,2,0,A,C für das Euro-Zeichen.
Ob das entsprechende Unicode-Zeichen auch tatsächlich am Bildschirm erscheint, hängt davon ab, ob die verwendete Schriftart eine Glyphe für das gewünschte Symbol (also eine Grafik für die gewünschte Zeichennummer) enthält.
Unicode Transformation Formats
Für die Repräsentation der Unicode Zeichen, zum Zweck der elektronischen Datenverarbeitung, gibt es verschiedene so genannte Transformation Formats.
In jedem der Formate lassen sich alle in Unicode enthaltenen Zeichen darstellen und Zeichenketten lassen sich beliebig zwischen den Formaten umwandeln.
Jedes Zeichen wird durch einen 32 Bit langen Code repräsentiert. Das hat z.B. den Vorteil, dass man schon an der Länge einer Zeichenkette erkennen kann, wieviele Zeichen enthalten sind. Ein Nachteil ist, dass mehr Speicherplatz verbraucht wird als bei UTF-16.
UTF-8 ist auf Unix-Systemen die populärste Kodierung für Unicode. Der große Vorteil gegenüber fast allen anderen Formaten ist, dass alle ASCII-Zeichen unverändert gültige Zeichen in UTF-8 sind. So funktionieren viele Programme, die den ASCII-Zeichensatz verwenden, unverändert auch mit UTF-8.
RFC 2152 (UTF-7, A Mail-Safe Transformation Format of Unicode)
RFC 3629 (UTF-8, a transformation format of ISO 10646)
Konverter:
Unicode Characters to HTML Entities Converter - http://pioneer.stereo.lu/converter.html - konvertiert Unicode-Zeichen in dezimale und hexadizmale HTML-Entities (von Shaun Moss, adaptiert von "ASCII to HEX to Unicode Converter" von Mike Golding)
Dieser Beitrag ist aus der XML-Version der deutschen WikiPedia® entwickelt worden und unterliegt inhaltlich den GNU FDL-Lizenzbestimmungen. Linkziele außerhalb der wikipedia-Inhalte unterliegen den Urheberrechten der jeweiligen Anbieter
( DirectDownloads ) Kalenderblätter druckfertig aufbereitet für Schmuckblätter zum Selbstdrucken im Word DOC6/RTF Format, je Euro 5 über Click&BuyJAN | FEB | MÄRZ APRIL | MAI | JUNI JULI | AUG | SEPT OKT | NOV | DEZ
Das Geschenk für jeden Anlass, nicht nur bei 'runden' Jubiläen Andere Einzeltage oder Zahlungsarten bitte HIER bestellen
Diese Web Site verdient ihr Geld durch Produktverkäufe (CD-ROM, downloads) und in erster Linie durch Anzeigen. Wenn Sie als Webmaster zuverlässige Partner suchen für Ihr eigenes Anzeigenschäft, dürfen Sie sich gerne auf unsere Empfehlungen stützen:
z.B.: GigaCash & ProfiWin