Koostemerkki

Wikipediasta
Siirry navigaatioon Siirry hakuun

Koostemerkki tarkoittaa erityisesti Unicode-termistössä kirjoitusmerkkiä, joka voidaan määritellä kahden tai useamman merkin yhdistelmäksi, vaikka teknisesti se on itsenäinen kokonaisuus, jolla on oma Unicode-tunnus. Tyypillisesti koostemerkki on tarkkeella varustettu kirjain, kuten š (U+0161 eli latinalainen pienaakkonen s ja hattu), joka voidaan muodollisesti hajottaa kantamerkiksi s (U+0073) ja yhdistyväksi hatuksi (U+030C). Tällainen niin sanottu hajotelma on ymmärrettävä yhtäläiseksi vastaavan koostemerkin kanssa.[1][2]

Vanhastaan tietokoneet ovat käsitelleet tarkkeellisia kirjaimia nimenomaan koostemerkkeinä. Vaikka Unicode on mahdollistanut myös hajotelmien käytön ja periaatteessa suosiikin niitä, jotkin ohjelmat voivat pyrkiä korvaamaan hajotelmat koostemerkeillä, joiden käsittely on teknisesti yksinkertaisempaa. Kaikki yhdistelmät eivät kuitenkaan ole saatavilla koostemerkkeinä.

Toisaalta kantamerkin erottaminen koostemerkistä helpottaa esimerkiksi tietokoneavusteista tiedonhakua, kun vaikkapa turkkilaista nimeä Erdoğan voi hakea pelkistetysti muodossa ”Erdogan” tarvitsematta miettiä, miten saisi suomalaisella näppäimistöllä g-kirjaimeen lisätyksi lyhyysmerkin.[3] Vastaavasti aakkostus tapahtuu usein ensisijaisesti kantamerkin perusteella,[4] joskin tällöin on otettava huomioon kielikohtaiset erot. Esimerkiksi suomen aakkosiin kuuluvat koostemerkit å, ä ja ö itsenäisinä kirjaimina, mutta englantilaisittain ne tulkitaan vain tarkkeellisiksi muunnelmiksi, jotka aakkostuvat samalla tavalla kuin kantamerkki a tai o. Koostemerkki š puolestaan aakkostuu suomalaisittainkin samalla tavalla kuin kantamerkki s, mutta virolaisittain erikseen tarkkeettoman s:n jälkeen.

Katso myös[muokkaa | muokkaa wikitekstiä]

Lähteet[muokkaa | muokkaa wikitekstiä]

  1. Jukka K. Korpela: Kirjainten tarinoita (PDF) (luku 4.1, ”Tarkennusta tarkkeen käsitteeseen”, s. 132–133) jkorpela.fi. 14.1.2011. Viitattu 8.4.2014.
  2. Unicode: Conformance (PDF) (luku 3.7, ”Decomposition”, s. 85) The Unicode Standard 5.2. 1991–2009. Viitattu 8.4.2014.
  3. Aaron Weiss: Composite and Precomposed Characters (Internet Archiveen 8.11.2011 arkistoitunut versio) 20.2.2001. Web Developer’s Virtual Library. Viitattu 12.9.2010.
  4. Defining a Character Set 8.4.2010. Microsoft. Viitattu 8.4.2014.
Tämä tietotekniikkaan liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia.