Unicode

Wikipedia
Ohjattu sivulta UTF-8
Loikkaa: valikkoon, hakuun

Unicode on tietokonejärjestelmiä varten kehitetty merkistöstandardi ja käytännössä sama kuin yleismaailmallisen merkistön (engl. Universal Character Set, UCS) määrittävä kansainvälinen standardi ISO/IEC 10646. Unicode määrittää yksilöivän koodiarvon yli 100 000 kirjoitusmerkille.

Maailmassa puhutaan tuhansia kieliä, jotka käyttävät kymmeniä erilaisia kirjoitusjärjestelmiä, ja kunkin kielen kirjoittamiseen tarvitaan sille ominainen merkkivalikoima. Useimmissa vanhemmissa tietokonemerkistöissä, kuten 7-bittisessä Asciissa ja 8-bittisessä ISO Latin 1:ssä, on tilaa enintään 128:lle tai 256:lle erilaiselle merkille, joten yhteen merkistöön eivät mahdu edes kaikkien Euroopan unionin virallisten kielten kirjoitusmerkit, puhumattakaan esimerkiksi kiinalaisista ja japanilaisista merkeistä. Unicode sen sijaan on 21-bittinen, mikä mahdollistaa yli miljoona merkkipaikkaa. Siinä on yllin kyllin tilaa kaikille maailman kielten käyttämille merkeille sekä erinäisille teknisille kontrolli- ja erityiskoodeille.

Unicode-merkkeihin voidaan viitata yksitarkoitteisilla merkkikoodeilla eli tunnuksilla. Tunnus kirjoitetaan tyypillisesti muodossa U+xxxx, jossa etuliite U+ viittaa Unicode-standardiin ja xxxx on numeroista 0–9 sekä kirjaimin esitettävistä numeroista A–F koostuva heksadesimaaliluku. Esimerkiksi suuraakkosen Y tunnus on U+0059, ja suuraakkosen Z tunnus on U+005A. Tunnuksen koodiarvo voidaan esittää myös tavallisena desimaalilukuna (esimerkiksi heksadesimaaliluku 59 vastaa desimaalilukua 89, ja 5A puolestaan vastaa desimaalilukua 90), mutta yleensä suositaan heksadesimaalista muotoilua. Heksadesimaalinen Unicode-tunnus esitetään vähintään nelinumeroisena, mutta tarvittaessa se voi koostua viidestä tai jopa kuudesta numerosta.

Historia[muokkaa | muokkaa wikitekstiä]

Ajatus yleismaailmallisesta ja mahdollisimman kattavasta merkistöstä alkoi itää 1980-luvulla useallakin taholla. Vuonna 1984 kansainväliset standardointijärjestöt ISO ja IEC perustivat yhdessä työryhmän valmistelemaan tällaista merkistöä, joka sai nimekseen ISO/IEC 10646. Ohjelmistoteollisuuden edustajat puolestaan perustivat samaan perustavoitteeseen pyrkivän intressiryhmän The Unicode Consortium vuonna 1990.

Muodollisesti Unicode ja ISO/IEC 10646 ovat erillisiä standardeja, mutta käytännössä ne on yhdenmukaistettu keskenään ja niitä kehitetään yhteistyönä. Unicode on saanut enemmän näkyvyyttä kuin ISO-standardi osin ilmeisesti siksi, että sanamainen nimi Unicode on helpommin muistettavissa ja käytettävissä kuin koodimainen numerosarja. Asiaan saattaa vaikuttaa myös se, että virallinen standardointityö mielletään jähmeäksi mutta teollisuuden edustaja Unicode dynaamiseksi.

Alun perin Unicode suunniteltiin 16-bittiseksi, mikä mahdollisti 65 536 merkkipaikan koodiavaruuden. Kun huomattiin, että se ei riitäkään kaikkien maailman nykyisten ja historiallisten kirjoitusjärjestelmien tarpeisiin, Unicoden versioon 2.0 rakennettiin mekanismi, joka laajensi standardin 21-bittiseksi ja näin mahdollisti yli miljoonan merkkipaikan koodiavaruuden. Valtaosa näistä merkkipaikoista on yhä tyhjiä. Unicoden versio 3.0 määritti yksilöivän koodiarvon 49 194 merkille, ja vuonna 2009 julkaistu versio 5.2 jo 107 361 merkille.

Unicoden rakenne[muokkaa | muokkaa wikitekstiä]

Yleiskaavio Unicode-merkistön tasosta 0 eli moni­kielisestä perus­tasosta erivärisine lohko­ryhmineen. Mustat lohkot sisältävät latinalais­peräisten kirjoitus­järjestelmien merkkejä. Suurimmat ryhmät muodostuvat itäaasialaisten kielten punaisista ja korallin­värisistä lohkoista. (Kaavioon on myös merkitty neli­numeroisten heksadesimaali­tunnusten kaksi ensimmäistä numeroa; kukin numeropari edustaa 256:ta merkki­paikkaa ja vastaa siis laajuudeltaan kahdeksan­bittistä merkistöä.)

Unicoden merkkiavaruus jakautuu 17 tasoon (engl. plane). Jokainen taso koostuu 65 536 merkkipaikasta, joten kaikkiaan mahdollisia merkkipaikkoja on 1 114 112. Ensimmäinen taso tai oikeammin nollataso on monikielinen perustaso (engl. Basic Multilingual Plane, BMP), joka koostuu nelinumeroisella heksadesimaaliluvulla esitettävistä merkkipaikoista (U+0000...U+FFFF) ja sisältää lähes kaikki nykyään käytössä olevien kirjoitusjärjestelmien merkit. Ylemmistä tasoista käytössä on toistaiseksi vain pieni osa. Tasolle 1 (U+10000...U+1FFFF) on sijoitettu lähinnä historiallisten kirjoitusjärjestelmien merkkejä, ja taso 2 (U+20000...U+2FFFF) sisältää joissakin kiinan murteissa käytettäviä harvinaisia merkkejä. Tasot 3–13 (U+30000...U+DFFFF) ovat tyhjiä, mutta tasolla 14 (U+E0000...U+EFFFF) on eräitä ei-graafisia teknisiä erikoismerkkejä. Tasot 15 ja 16 (U+F0000...U+10FFFF) on varattu yksityiseen käyttöön; näille tasoille voi periaatteessa kuka tahansa lisätä haluamiaan epävirallisia merkkejä, mutta ne toimivat vain samaa määrittelyä noudattavissa tietokonejärjestelmissä.

Tasot on jaettu edelleen erikokoisiksi lohkoiksi, joista kuhunkin on koottu yhden kirjoitusjärjestelmän merkkejä. Yhden kielen tarvitsemat merkit voivat kuitenkin jakaantua useaan lohkoon, koska Unicoden rakenne on pyritty pitämään mahdollisimman yhteensopivana vanhempien merkistöstandardien kanssa ja merkkivalikoimaa on lisäksi laajennettu vaiheittain. Esimerkiksi suomen oikeinkirjoituksessa tarvittavat suur- ja pienaakkoset A/a–Z/z (samoin kuin numerot 0–9 ja tavallisimmat välimerkit) ovat latinalaisessa perusosassa (Basic Latin: U+0000...U+007F), joka vastaa Ascii-merkistöä, mutta Ä/ä ja Ö/ö ovat latinalaisen merkistön täydennysosassa (Latin 1 supplement: U+0080...U+00FF). Š/š ja Ž/ž puolestaan ovat laajennusosassa A (Latin Extended-A: U+0100...U+017F). Vastaavasti muille merkkijärjestelmille, kuten kreikkalaisille, kyrillisille ja arabialaisille kirjaimille, on nimetty omat lohkonsa, ja muita lohkoja on varattu Asciista puuttuville välimerkeille sekä muun muassa matemaattisille ja kielitieteellisille erikoismerkeille.

Merkistökoodaukset[muokkaa | muokkaa wikitekstiä]

Teknisesti Unicode-merkit voidaan koodata tiedostoihin eri tavoin. Unicode-standardin tukemat kolme koodaustapaa ovat UTF-8, UTF-16 ja UTF-32, joista kullakin on omat vahvuutensa.

UTF-8[muokkaa | muokkaa wikitekstiä]

UTF-8 on Unicoden vaihtelevanpituinen koodaustapa. Sen etuna on osittainen yhteensopivuus vanhempien järjestelmien kanssa, jotka käsittelevät merkkejä kahdeksanbittisinä tavuina eli oktetteina. UTF-8 on rakennettu siten, että Ascii-merkistöä vastaavat eli latinalaiseen perusosaan kuuluvat merkit (mm. kirjaimet Aa–Zz) koodautuvat täsmälleen samoin kuin Asciissa käyttäen tavusta vain seitsemää bittiä. Kahdeksas bitti (jonka avulla Asciita on vanhastaan voitu laajentaa muun muassa Latin 1 ‑merkistöksi) puolestaan määrittää, edustaako tavu tiettyä merkkiä sellaisenaan vai onko se jonkin monitavuisena koodautuvan merkin alkuosa. Näin ne merkit, jotka eivät sisälly Asciihin, voidaan koodata kahden tai useamman tavun jonoina.

Tunnuksen koodipaikasta riippuen yksi merkki vie tallennettuna tilaa yhdestä neljään tavua. Merkin vaatima tavumäärä riippuu koodipaikasta seuraavasti:

  • U+0000...U+007F: yksi tavu (latinalainen perusosa eli Ascii)
  • U+0080...U+07FF: kaksi tavua (mm. Latin 1 ja suuri osa muista eurooppalaisista sekä Lähi-idän merkistöistä)
  • U+0800...U+FFFF: kolme tavua (loput monikielisen perustason merkit)
  • U+10000...U+10FFFF: neljä tavua (muiden tasojen merkit)

Latin 1 ‑lohkoon sisältyvät merkit (mm. Å/å, Ä/ä ja Ö/ö) koodautuvat siis kaksitavuisina ja muut monikielisen perustason merkit kaksi- tai kolmitavuisina. Koska latinalaisilla kirjaimilla kirjoitettu teksti vie tallennustilaa enimmäkseen vain yhden tai välillä kaksi tavua merkkiä kohti, tiedostojen koko ei kasva merkittävästi isommaksi kuin 8-bittistä merkistöä käytettäessä. Sen sijaan kolmitavuisin merkein kirjoitettavien itäaasialaisten kielten näkökulmasta UTF‑8 voi vaikuttaa tuhlailevalta koodaustavalta.

Perinteisiin kahdeksanbittisiin merkistöihin verrattuna UTF-8:n etuna on, että se on helppo tunnistaa automaattisesti. Toisin kuin Itä-Aasiassa perinteisesti käytetty ISO 2022 ‑koodaus, UTF‑8 on lisäksi tilaton,selvennä joten osin turmeltuneen tiedoston datasta menetetään vain turmeltunut osa, ei koko loppua tekstiä.

UTF-16[muokkaa | muokkaa wikitekstiä]

UTF-16:ssa yksittäinen merkki tallentuu aina vähintään tavuparina eli 16 bitin kokonaisuutena. Monikieliseen perustasoon sisältyvien merkkien (U+0000...U+FFFF) tallentamiseen riittää yksi tavupari, joten lähes kaikki nykyaikaisten kielten tarvitsemat merkit ovat koodattavissa kahdella tavulla. Tästä seuraa, että pääasiassa itäaasialaisia merkkejä sisältävät tiedostot vievät vähemmän tallennustilaa kuin UTF‑8:aa käytettäessä. Toisaalta sellaiset tiedostot, jotka pääosin koostuvat Ascii-merkeistä, vievät enemmän tallennustilaa kuin UTF‑8:aa käytettäessä.

Muilla kuin monikielisellä perustasolla sijaitsevien merkkien (U+10000...U+10FFFF) tallentamiseen tarvitaan kaksi tavuparia. Tällöin hyödynnetään monikieliseen perustasoon sisältyviä niin sanottuja sijaismerkkejä (engl. surrogate code points), joita on kaikkiaan 2048 jaettuina kahteen 1024 merkin ryhmään (high surrogates ja low surrogates). Niiden avulla muodostettavat yhdistelmät riittävät ylimpien 16 tason merkkien koodaamiseen (1024 × 1024 = 16 × 65 536 = 1 048 576).

UTF-16:sta on kolme versiota, joiden erot selittyvät tavujärjestyksen eroilla:

  1. UTF-16BE on big endian, jossa kukin tavupari alkaa enemmän merkitsevällä tavulla.
  2. UTF-16LE on little endian, jossa kukin tavupari alkaa vähemmän merkitsevällä tavulla.
  3. Kolmannessa vaihtoehdossa tavujärjestys on avoin, jolloin tekstin tulisi alkaa koodilla U+FEFF (engl. zero width no-break space tai epävirallisesti mutta osuvammin byte order mark eli BOM; kyseessä on vanhentunut sitovan tyhjeen merkki, jonka tehtävä Unicoden varhaisten versioiden mukaan oli automaattisen rivinvaihdon estäminen mutta jota nykyään käytetään ensisijaisesti tavujärjestyksen osoittimena). Tavujärjestykseltään käänteinen tunnus U+FFFE on pysyvästi määritelty niin sanotuksi epämerkiksi (engl. noncharacter). Jos siis aloitusmerkki näyttäisi olevan U+FFFE, joka on Unicodessa laiton, sen täytyy todellisuudessa olla U+FEFF, jonka vähemmän merkitsevä tavu (FF) on tallentunut ensin eli alempaan muistipaikkaan. Aloitusmerkin jälkeen muut merkit noudattavat samaa tavujärjestystä.[1]

UTF-32[muokkaa | muokkaa wikitekstiä]

Koodaustavoista suoraviivaisin on UTF-32. Siinä jokainen merkki tallentuu neljän tavun mittaisena eli kaikkiaan 32 bitin kokonaisuutena, mikä vaatii suhteellisen paljon tallennustilaa (koska 21-bittinen koodaus riittäisi kaikkien Unicode-merkkien yksilöimiseen, 32-bittistä koodausta käytettäessä on jokaisessa merkissä 11 ylimääräistä bittiä).

Kuten UTF-16:sta, myös UTF-32:sta on kolme versiota: UTF-32LE ja UTF-32BE sekä sellainen, jossa käytetään tavujärjestysmerkkiä.

Muut[muokkaa | muokkaa wikitekstiä]

  • UTF-7 on ehdotus Unicoden koodaamiseen 7-bittisten Ascii-merkistön merkkien avulla. Tarve koodaukselle on kuitenkin ollut vähäistä.
  • Punycode on RFC 3492:ssa määritelty koodaus Unicoden käytölle DNS-nimissä. Sitä käytetään mahdollistamaan ääkköset web-sivustojen nimissä.

Unicoden käyttö[muokkaa | muokkaa wikitekstiä]

UTF-8-koodaus on nykyään melko laajassa käytössä, koska se mahdollistaa erikielisten tekstielementtien esiintymisen samalla sivulla. Vuoden 2007 lopulla UTF-8 olikin noussut Googlen indeksoimien nettisivujen suosituimmaksi koodaustavaksi.[2]

Ennen Unicoden yleistymistä useimmat käyttöjärjestelmät tallensivat tekstin käyttäen omia ratkaisujaan, jotka eivät olleet keskenään yhteensopivia. Useimmissa merkistöissä oli tilaa korkeintaan 256 eri merkille. Tämän vuoksi yhdellä merkistöllä kyettiin tavallisesti tukemaan vain rajallista määrää eri kieliä. Unicode-tuki sisällytettiin Windows NT:hen jo vuonna 1993, mutta Windowsin 9x-versiot tarvitsivat vielä erillisen Unicode-laajennusosan. Linux-jakelijoista Red Hat asetti UTF-8-koodauksen ensimmäisenä järjestelmän oletusarvoksi syyskuussa 2002.[3]

Uudemmat käyttöjärjestelmät yleensä sisältävät Unicode-tuen. Osa Linux-käyttöjärjestelmien valmistajista asettaa järjestelmän oletuksena Unicode-tilaan (mukaan lukien ohjelmat, tiedostojärjestelmä jne.), ja muissakin siirtymisen voi halutessaan tehdä. Linuxissa tuki on kuitenkin yleensä epätäydellinen, koska esimerkiksi yleisimmät tiedostojärjestelmät eivät sisällä tietoa, missä muodossa nimet ovat.selvennä Ohjelmat saattavat siis näyttää nimet joko oikein tai väärin, riippuen asetuksista.lähde? Windowsissa taas sekä NTFS-tiedostojärjestelmä että itse käyttöjärjestelmä toimivat sisäisesti Unicoden mukaan, joten ongelmia ei synny.

Mobiililaitteista Unicodea tukevat muun muassa Symbian-laitteet. Kun mobiililaitteista yhä suurempi osa on älypuhelimia, niihinkin on mahdollista sisäänrakentaa monikielinen tuki.

Käyttöjärjestelmän lisäksi tarvitaan Unicodelle tukia myös ohjelmointikielissä. Vanhastaan C ja C++ ovat tukeneet ainoastaan Ascii-merkistöä tai muutamia käyttöjärjestelmän omia koodisivuja, mutta viime vuosina uusimmat standardit ovat lisänneet myös monitavuiset merkistöt näihin kieliin. Java käyttää kaiken tekstin tallentamiseen sisäisesti pelkästään Unicodea.

Viitteet[muokkaa | muokkaa wikitekstiä]

  1. Unicode Character 'ZERO WIDTH NO-BREAK SPACE' (U+FEFF) (HTML) FileFormat.Info. Viitattu 6.8.2010. (englanniksi)
  2. Aleksi Moisio: ASCII on kuollut, eläköön Unicode! (HTML) Digitoday. 6.5.2008. Viitattu 18.1.2012.
  3. http://www.cl.cam.ac.uk/~mgk25/unicode.html#linux

Aiheesta muualla[muokkaa | muokkaa wikitekstiä]