Dieser Artikel von Wikipedia ist u.U. veraltet. Die neue Version gibt es hier. Unicode ist ein internationaler Standard dessen Ziel es ist einen Code für jedes graphische Zeichen oder Element aller bekannten Schriftkulturen und festzulegen. Er will das Problem der verschiedenen inkompatiblen Kodierungen in den unterschiedlichen Ländern beseitigen. Die bestehenden Standards erforderten einen Konvertierungsaufwand beim Datenaustausch wenn eine Konvertierung überhaupt war. Dadurch dass die meisten Zeichenkodierungen nur Sprachen unterstützen war es in der Praxis unmöglich verschiedene Sprachen im selben Text zu
Das Unicode Consortium (eine Vereinigung mit Domizil in Kalifornien ) publizierte 1991 eine erste Fassung des Standards und seither regelmäßig neue Fassungen herausgegeben die jeweils geleisteten Standardisierungsarbeit entsprechen.
Das Konsortium arbeitet mit der ISO-Organisation die den Standard ISO 10646 herausgibt. Unicode und ISO 10646 sind was die entsprechenden Codes für die Zeichen aber der Unicode-Standard enthält bedeutend mehr Angaben die Implementierer von Textverarbeitungslösungen (Darstellung Sortierreihenfolgen Schriften von rechts nach links laufen etc).
Für die meisten Unicode-Zeichen gibt es erhältliche Schriftarten. Es werden auch kommerziell erhältliche angeboten.
Zu beachten ist dass für eine die dem Unicode-Standard folgt nur gilt dass Zeichen die vorkommen an dem vom Unicode Platz zu finden sind. Es heißt nicht ein entsprechendes Zeichen tatsächlich vorhanden sein muss. gibt einige Schriftarten die nur ca. 600 implementieren was aber für viele Zwecke bereits und einen bedeutenden Fortschritt gegenüber den 255 der 8-Bit-Schriftarten darstellt.
Will man ein Unicode-Zeichen (z.B. ⊕) HTML oder XML verwenden sucht man es zunächst aus entsprechenden Tabelle (hier: Mathematische Symbole). Dort ist Zeichennummer hexadezimal angegeben. Mit dieser Zeichennummer erstellt man eine Zeichenentität durch Voranstellen von "&#x" und ";" eben "⊕" das ergibt dann das Zeichen: "⊕". Die Zeichennummer kann in der auch dezimal dann ohne führendes "x" angegeben z.B. "⊕" für das gleiche Zeichen.
Im Vi Improved kann man Unicode-Zeichen (Voraussetzung: Unicode-basierte Locale als Unicode z.B. UTF-8 erkannte Datei) eingeben man Strg+V U und dann die hexadezimale drückt also z.B. Strg+V U 2 0 C für das Euro-Zeichen.
Ob das entsprechende Unicode-Zeichen auch tatsächlich Bildschirm erscheint hängt davon ab ob die Schriftart eine Glyphe für das gewünschte Symbol (also eine Grafik für die gewünschte enthält.
Für die Repräsentation der Unicode Zeichen Zweck der elektronischen Datenverarbeitung gibt es verschiedene genannte Transformation Formats. In jedem der Formate sich alle in Unicode enthaltenen Zeichen darstellen Zeichenketten lassen sich beliebig zwischen den Formaten Einige Formate:
Jedes Zeichen wird durch einen 32 langen Code repräsentiert. Das hat z.B. den dass man schon an der Länge einer erkennen kann wieviele Zeichen enthalten sind. Ein ist dass mehr Speicherplatz verbraucht wird als UTF-16.
UTF-8 ist auf Unix -Systemen die populärste Kodierung für Unicode. Der Vorteil gegenüber fast allen anderen Formaten ist alle ASCII-Zeichen unverändert gültige Zeichen in UTF-8 So funktionieren viele Programme die den ASCII-Zeichensatz unverändert auch mit UTF-8.
Unicode Characters to HTML Entities Converter -- http://pioneer.stereo.lu/converter.html -- konvertiert Unicode-Zeichen in dezimale und HTML-Entities (von Shaun Moss adaptiert von "ASCII HEX to Unicode Converter" von Mike Golding)