Kódy Unicode a UTF-8
- KOI-8
- Kameníci
- x-mac-ce – Apple
- CP852 – IBM na PC (DOS čeština)
- CP1250 – Microsoft (Windows čeština)
- ISO-8859-2 – mezinárodní standard (UNIX čeština) – podporovaná v sítích, e-mailech (MIME) a WWW (musí ji umět každý WWW klient)
- univerzálnost – musí být dostatečná kapacita pro všechny známé znaky
- jednotnost – konstantní šířka znaků dovoluje efektivní třídění, hledání, zobrazování a editaci
- jednoznačnost – jakákoliv 16bitová hodnota reprezentuje v jakémkoliv kontextu vždy tentýž znak
- větší (dvojnásobná) délka textů
- 256x větší znaková sada ve fontech (u Microsoftu mají Unicode fonty jen podmnožinu znaků, ale lze si pořídit i “plné” fonty)
(Arial 140KB, Times New Roman 185 KB, Lucida Sans Unicode 298 KB)- nekompatibilní s 8bitovým prostředím – nelze současně používat Unicode a libovolné 8bitové kódování (již vyřešeno v rámci jednotlivých aplikací – Java, Word)
znak Unicode |
max. |
kódování UTF-8 |
0000–007F |
7 |
0xxx xxxx |
0080–07FF |
11 |
110x xxxx 10xx xxxx |
0800–FFFF |
16 |
1110 xxxx 10xx xxxx 10xx xxxx |
Unicode |
UTF-8 |
|
B | 0000 0000 0100 0010 | 0100 0010 |
é | 0000 0000 1110 1001 | 1100 0011 1010 1001 |
ď | 0000 0001 0000 1111 | 1100 0100 1000 1111 |
a | 0000 0000 0110 0001 | 0110 0001 |
na disku, kdy jsou méně významové bajty na nižší adrese (Little Endian):
Unicode | UTF-8 | |||||||
FF FE | 42 00 | E9 00 | 0F 01 | 61 00 | 42 | C3 A9 | C4 8F | 61 |
B | é | ď | a | B | é | ď | a | |
značka dodaná editorem, podle,
které se pozná, že je to kódováno v Unicode |
Co s neznámým textem?
- je-li na začátku dvojice bajtů FF FE je to Unicode
- je-li každý druhý znak 00 nebo 01 je to Unicode (připsat binárním editorem na úplný začátek souboru dvojici bajtů FF FE )
- je-li text složený z neakcentovaných znaků normálně čitelný a místo předpokládaných akcentovaných znaků jsou dva nesmyslné znaky, pak se jedná o UTF-8
(soubor otevřít v Internet Exploreru a uložit jako CP1250)
Jak je to ve Windows NT
soubor b-1250.txt je v češtině CP1250
soubor b-unico.txt je v Unicode
soubor b-uni-u8.txt je v UTF-8 (vznikl z Unicode)
soubor b-1250-u.txt je v Unicode (vznikl z CP1250)
pro porovnání soubor b-unico.txt , který byl vytvořen Notepadem
kódování UTF-8 je při ukládání nutno explicitně zvolit
soubor b-1250.htm je v UTF-8 (vznikl z CP1250)
soubor b-1250-a.doc je ve fontu Arial (vznikl z CP1250)
soubor b-1250-l.doc je ve fontu Lucida Sans Unicode
Jak Word 97 pracuje s fonty v Unicode
Poslední změna: 14. 6. 1999
Počet přístupů od 14. 6. 1999:
Pavel
Herout