wer ist, was ist, wo ist, wann war, was war - Lexikon / Chronik / Biografie / Wissen - Unicode


Werbung

Produkte / Services :|: Chronik CD :|: als Startseite | zu den | empfehlen :|: Impressum
Lexika @ InfoBitte.de :|: Universal-Lexikon | WeltKunst | Geteiltes Deutschland | Zweiter Weltkrieg
WeltChronik.de :|: Welt | Deutschland | Kultur/Kunst/Technik :|: BildDatenBank :|: Biografien

Navigation

WeltChronik
Deutsche Chronik
KulturChronik
Biografien
Bilddatenbank
Kalenderblatt
Epochen
Lexika @ InfoBitte.de
Produkte

Suchfunktionen
Chronik-Jahr direkt

Nur Zahl eingeben
Bereich: '0'-'2001'
PARTNER
Ahnenforschung

Quellen für die Schule

FREE 4 WebMasters

Wir haben eine ganze Palette kostenloser Angebote von uns
für WebMaster und HomePage Besitzer aufbereitet

Holen Sie sich hier ab

was Sie gerne einsetzen würden
Suchfunktionen, Kalenderblatt, uam
für Ihre WebSite



Unicode

ein InfoBitte / WeltChronik
Sach-Artikel (Enzyklopädie / Lexikon)

Entwickelt von ICA-D aus der XML-Version der deutschen WikiPedia
© 2004/2005 ff by de.wikipedia.org, teilw. by ICA-D
blättern» voriger Artikel | Hauptseite | nächster Artikel «blättern

Unicode ist ein internationaler Standard, dessen Ziel es ist, einen Code für jedes grafische Zeichen oder Element aller bekannten Schriftkulturen und Zeichensysteme festzulegen. Er will das Problem der verschiedenen inkompatiblen Kodierungen in den unterschiedlichen Ländern beseitigen. Die bestehenden Standards erforderten einen hohen Konvertierungsaufwand beim Datenaustausch, wenn eine Konvertierung überhaupt möglich war. Dadurch, dass die meisten Zeichenkodierungen nur wenige Sprachen unterstützen, war es in der Praxis oft unmöglich, verschiedene Sprachen im selben Text zu verwenden.


Inhaltsverzeichnis


1 Unicode Consortium

2 Codes

3 Schriftarten

4 Versionen

5 Anwendung der Tabellen

6 Unicode Transformation Formats

  6.1 UTF-32 - UCS-4

  6.2 UTF-16 - UCS-2

  6.3 UTF-8

  6.4 UTF-7

7 Siehe auch

8 Weblinks


Unicode Consortium

Das Unicode Consortium (eine Vereinigung mit Domizil in Kalifornien) publizierte 1991 eine erste Fassung des Standards und hat seither regelmäßig neue Fassungen herausgegeben, die jeweils der geleisteten Standardisierungsarbeit entsprechen.


Das Konsortium arbeitet mit der ISO-Organisation zusammen, die den Standard ISO 10646 herausgibt. Unicode und ISO 10646 sind gleichwertig, was die entsprechenden Codes für die Zeichen betrifft, aber der Unicode-Standard enthält bedeutend mehr Angaben für die Implementierung von Textverarbeitungslösungen (Darstellung, Sortierreihenfolgen, Schriften, die von rechts nach links laufen etc). Unicode ist streng genommen eine Untermenge von ISO 10646: während ISO 10646 Zeichencodes mit bis zu 31 Bit zuläßt, sind bei Unicode maximal 21 Bit erlaubt. Zur Zeit ist das jedoch nur von theoretischem Interesse, da noch keine Zeichen definiert wurden, die über den 21 Bit Bereich hinausgehen. Dies soll sich laut eines Prinzipien-Dokuments der Arbeitsgruppe, die den ISO-Standard weiterentwickelt, auch in Zukunft nicht ändern.


Codes

Unicode-Zeichen werden oft in der Form U+XXXX angegeben, wobei das U für Unicode steht, und XXXX die hexadezimale Zahl ist, mit der das Zeichen kodiert ist.


Basic Latin
die ersten 128 Zeichen, U+0000 - U+007F, entsprechen dem ASCII-Zeichensatz
Ergänzende Zeichen für Sprachen, die das lateinische Alphabet benützen
U+0080 - U+024F
IPA Ergänzungen
U+0250 - U+02FF
Kombinierende diakritische Zeichen
U+0300 - U+036F
Griechisch und Koptisch
U+0370 - U+03FF
Kyrillisch
U+0400 - U+052F
Armenisch
U+0530 - U+058F
Hebräisch
U+0590 - U+05FF
Arabisch
U+0600 - U+06FF
Syrisch
U+0700 - U+074F

....


Schriftarten

Für die meisten Unicode-Zeichen gibt es frei erhältliche Schriftarten.


Es werden auch kommerziell erhältliche Schriftarten angeboten.


Zu beachten ist, dass für eine Schriftart, die dem Unicode-Standard folgt, nur gilt, dass die Zeichen, die vorkommen, an dem vom Unicode vorgeschriebenen Platz zu finden sind. Es heißt nicht, dass ein entsprechendes Zeichen tatsächlich vorhanden sein muss. Es gibt einige Schriftarten, die nur ca. 600 Zeichen implementieren, was aber für viele Zwecke bereits genügt und einen bedeutenden Fortschritt gegenüber den 255 Zeichen der 8-Bit-Schriftarten darstellt.


Versionen

  • 1989 DP 10646 (Vorschlag für den Entwurf von ISO 10646, unabhängig von Unicode)
  • 1990 DIS-1 10646 (Erster Entwurf für ISO 10646, unabhängig von Unicode)
  • 1991 Unicode 1.0
  • 1992 Unicode 1.0.1 (Modifikationen um eine Zusammenführung mit ISO 10646 zu ermöglichen)
  • 1993 Unicode 1.1 (Unicode und ISO-Norm erstmals vereinigt: Codes identisch zu ISO 10646-1:1993)
  • 1996 Unicode 2.0 (Abgleich mit ISO 10646 Erweiterungen)
  • 1998 Unicode 2.1 (u.a. Einführung des Eurozeichens)
  • 2000 Unicode 3.0 (Abgleich mit ISO 10646-1:2000)
  • 2001 Unicode 3.1 (Abgleich mit ISO 10646-2:2001)
  • 2002 Unicode 3.2
  • 2003 Unicode 4.0 (Abgleich mit ISO 10646:2003)
  • 2004 Unicode 4.0.1


Anwendung der Tabellen

Will man ein Unicode-Zeichen (z. B. ⊕) in HTML oder XML verwenden, sucht man es zunächst aus der entsprechenden Tabelle (hier: Mathematische Symbole). Dort ist seine Zeichennummer hexadezimal angegeben. Mit dieser Zeichennummer erstellt man dann eine Zeichenentität durch Voranstellen von "&#x" und Anfügen ";", eben "⊕", das ergibt dann das gewünschte Zeichen: "⊕". Die Zeichennummer kann in der Zeichenentität auch dezimal, dann ohne führendes "x", angegeben werden, z. B. "⊕" für das gleiche Zeichen.


Im Vi Improved kann man Unicode-Zeichen (Voraussetzung: Unicode-basierte Locale oder als Unicode, z. B. UTF-8, erkannte Datei) eingeben, indem man Strg+V,U und dann die hexadezimale Zeichennummer drückt, also z. B. Strg+V,U,2,0,A,C für das Euro-Zeichen.


Ob das entsprechende Unicode-Zeichen auch tatsächlich am Bildschirm erscheint, hängt davon ab, ob die verwendete Schriftart eine Glyphe für das gewünschte Symbol (also eine Grafik für die gewünschte Zeichennummer) enthält.


Unicode Transformation Formats

Für die Repräsentation der Unicode Zeichen, zum Zweck der elektronischen Datenverarbeitung, gibt es verschiedene so genannte Transformation Formats.


In jedem der Formate lassen sich alle in Unicode enthaltenen Zeichen darstellen und Zeichenketten lassen sich beliebig zwischen den Formaten umwandeln.


Einige Formate:


UTF-32 - UCS-4

Jedes Zeichen wird durch einen 32 Bit langen Code repräsentiert. Das hat z.B. den Vorteil, dass man schon an der Länge einer Zeichenkette erkennen kann, wieviele Zeichen enthalten sind. Ein Nachteil ist, dass mehr Speicherplatz verbraucht wird als bei UTF-16.


UTF-16 - UCS-2

Dies ist das älteste Format. Die Zeichen sind entweder 16 oder 32 Bit lang. Die Zeichen der lebenden Sprachen lassen sich so in 2 Byte darstellen.


UTF-8

UTF-8 ist auf Unix-Systemen die populärste Kodierung für Unicode. Der große Vorteil gegenüber fast allen anderen Formaten ist, dass alle ASCII-Zeichen unverändert gültige Zeichen in UTF-8 sind. So funktionieren viele Programme, die den ASCII-Zeichensatz verwenden, unverändert auch mit UTF-8.


UTF-7

UTF-7 stellt Unicode Zeichen aus einer Reihe von ASCII-Zeichen mit jeweils nur 7 Bit dar.


Siehe auch: Alphabet


Siehe auch



Weblinks



Standards:


  • RFC 2152 (UTF-7, A Mail-Safe Transformation Format of Unicode)
  • RFC 3629 (UTF-8, a transformation format of ISO 10646)


Konverter:


  • Unicode Characters to HTML Entities Converter - http://pioneer.stereo.lu/converter.html - konvertiert Unicode-Zeichen in dezimale und hexadizmale HTML-Entities (von Shaun Moss, adaptiert von "ASCII to HEX to Unicode Converter" von Mike Golding)
minnan:Thong-iōng-bé
blättern» voriger Artikel | Hauptseite | nächster Artikel «blättern

Dieser Beitrag ist aus der XML-Version der deutschen WikiPedia® entwickelt worden und unterliegt inhaltlich den GNU FDL-Lizenzbestimmungen. Linkziele außerhalb der wikipedia-Inhalte unterliegen den Urheberrechten der jeweiligen Anbieter




Wörterbuch


Produkte
2000 Jahre
Chronik CD-ROM


Kalenderblatt in
Schmuckblatt
Ausführung


Geburtstags-Bios

Suchen/Google-Ads
Kalenderblatt
druckfertig
( DirectDownloads )
Kalenderblätter
druckfertig aufbereitet für Schmuckblätter
zum Selbstdrucken

im Word DOC6/RTF Format, je Euro 5
über Click&Buy
JAN | FEB | MÄRZ
APRIL | MAI | JUNI
JULI | AUG | SEPT
OKT | NOV | DEZ

Das Geschenk für jeden Anlass, nicht nur bei 'runden' Jubiläen
Andere Einzeltage
oder Zahlungsarten

bitte HIER bestellen


© 2000 ff by ICA-D, D-76751 Jockgrim, Germany
Verantwortlich im Sinne des Presse- und Multimedia-Rechts: Dipl.-Ing. Rainer Detering, Waidweg 18, 76189 Karlsruhe


| Immer | Unsere | InfoBitte weiterempfehlen
KALENDERBLATT von HEUTE | SUCH-Funktionen ALLE und nach BEREICHEN | Startseite
Welt-Chronik | Kunst-, Kultur-, Technik-Geschichte | Deutsche Chronik | 2000 Biografien | Bild-Datenbank
Gesetzestexte | SkateGuide | Online Jigsaw Puzzles | GeschenkTip | Produkte, Services, Impressum



*NEU* bei InfoBitte *NEU*



die deutsche WikiPedia
bei InfoBitte.de mit
650,000 Querverweisen zu
2000 Jahre Chronik



InfoBitte
Portal zu Portalen
Hauptseite


Suchfunktionen

Wissen, Biografien, Geschichte
besser gezielt suchen mit
domain-Filterung

die Links führen im neuen Fenster
zu den jeweiligen Hauptseiten,
das Anklicken eines Buttons zur
Filterung für die Google-Suche



Google
Lexika @ InfoBitte.de

ib InfoBitte.de (alle Lexika)
ib Universal-/Hand-Lexikon
die WikiPedia @ InfoBitte
ib L. WeltKunstGeschichte
ib L. Geteiltes Deutschland
ib L. Zweiter Weltkrieg

2000 Jahre Chronik

WeltChronik.de (Texte)
  
WeltChronik auf CDROM
deutsche Geschichte
Kultur-/TechnikGeschichte
WeltChronik Bilder
Chronik Biografien

Google
2000 Jahre Chronik
offline auf CDROM

Hier Kaufen


WeltChronik Jahr...
(eigene Suchfunktion)

Nur Zahl eingeben
Bereich: '0'-'2001'





Diese Web Site verdient ihr Geld durch Produktverkäufe (CD-ROM, downloads) und in erster Linie durch Anzeigen. Wenn Sie als Webmaster zuverlässige Partner suchen für Ihr eigenes Anzeigenschäft, dürfen Sie sich gerne auf unsere Empfehlungen stützen:
z.B.: GigaCash & ProfiWin