Ero sivun ”Koostemerkki” versioiden välillä

Wikipediasta
Siirry navigaatioon Siirry hakuun
[katsottu versio][katsottu versio]
Poistettu sisältö Lisätty sisältö
palautetaanpa äsken poistettu lähde ja ohjataan arkistoversioon, koska siinä on tietoa kantamerkistä tiedonhaussa
p tarkennus
Rivi 1: Rivi 1:
'''Koostemerkki''' tarkoittaa erityisesti [[Unicode]]-termistössä [[kirjoitusmerkki]]ä, joka voidaan määritellä kahden tai useamman merkin yhdistelmäksi. Tyypillisesti koostemerkki on [[Tarke|tarkkeella]] varustettu [[kirjain]], kuten [[š]] (U+0161 eli [[Latinalainen kirjaimisto|latinalainen]] pienaakkonen [[s]] ja [[Hattu (tarke)|hattu]]), joka voidaan teknisesti hajottaa kantamerkiksi s (U+0073) ja [[Yhdistyvä merkki|yhdistyväksi]] hatuksi (U+030C). Tällainen niin sanottu hajotelma on ymmärrettävä yhtäläiseksi vastaavan koostemerkin kanssa.<ref name="Korpela 2011"/><ref name="Unicode 2009"/>
'''Koostemerkki''' tarkoittaa erityisesti [[Unicode]]-termistössä [[kirjoitusmerkki]]ä, joka voidaan määritellä kahden tai useamman merkin yhdistelmäksi, vaikka teknisesti se on itsenäinen kokonaisuus, jolla on oma Unicode-tunnus. Tyypillisesti koostemerkki on [[Tarke|tarkkeella]] varustettu [[kirjain]], kuten [[š]] (U+0161 eli [[Latinalainen kirjaimisto|latinalainen]] pienaakkonen [[s]] ja [[Hattu (tarke)|hattu]]), joka voidaan muodollisesti hajottaa kantamerkiksi s (U+0073) ja [[Yhdistyvä merkki|yhdistyväksi]] hatuksi (U+030C). Tällainen niin sanottu hajotelma on ymmärrettävä yhtäläiseksi vastaavan koostemerkin kanssa.<ref name="Korpela 2011"/><ref name="Unicode 2009"/>


Vanhastaan tietokoneet ovat käsitelleet tarkkeellisia kirjaimia nimenomaan koostemerkkeinä. Vaikka Unicode on mahdollistanut myös hajotelmien käytön ja periaatteessa suosiikin niitä, jotkin ohjelmat voivat pyrkiä korvaamaan hajotelmat koostemerkeillä, joiden käsittely on teknisesti yksinkertaisempaa. Kaikki yhdistelmät eivät kuitenkaan ole saatavilla koostemerkkeinä.
Vanhastaan tietokoneet ovat käsitelleet tarkkeellisia kirjaimia nimenomaan koostemerkkeinä. Vaikka Unicode on mahdollistanut myös hajotelmien käytön ja periaatteessa suosiikin niitä, jotkin ohjelmat voivat pyrkiä korvaamaan hajotelmat koostemerkeillä, joiden käsittely on teknisesti yksinkertaisempaa. Kaikki yhdistelmät eivät kuitenkaan ole saatavilla koostemerkkeinä.


Toisaalta kantamerkin irrottaminen koostemerkistä helpottaa esimerkiksi tietokoneavusteista [[tiedonhaku]]a, kun vaikkapa [[Turkin kieli|turkkilaista]] nimeä [[Recep Tayyip Erdoğan|Erdoğan]] voi hakea pelkistetysti muodossa ”Erdogan” tarvitsematta miettiä, miten saisi suomalaisella näppäimistöllä [[g]]-kirjaimeen lisätyksi [[Lyhyysmerkki|lyhyysmerkin]].<ref name="Weiss 2001"/> Vastaavasti [[Aakkosjärjestys|aakkostus]] tapahtuu usein ensisijaisesti kantamerkin perusteella,<ref name="Microsoft 2010"/> joskin tällöin on otettava huomioon kielikohtaiset erot. Esimerkiksi suomalaisiin aakkosiin kuuluvat koostemerkit [[å]], [[ä]] ja [[ö]] itsenäisinä kirjaimina, mutta [[Englannin kieli|englantilaisittain]] ne tulkitaan vain tarkkeellisiksi muunnelmiksi, jotka aakkostuvat samalla tavalla kuin kantamerkki [[a]] tai [[o]]. Koostemerkki š puolestaan aakkostuu suomalaisittainkin samalla tavalla kuin kantamerkki s, mutta [[Viron kieli|virolaisittain]] erikseen tarkkeettoman s:n jälkeen.
Toisaalta kantamerkin erottaminen koostemerkistä helpottaa esimerkiksi tietokoneavusteista [[tiedonhaku]]a, kun vaikkapa [[Turkin kieli|turkkilaista]] nimeä [[Recep Tayyip Erdoğan|Erdoğan]] voi hakea pelkistetysti muodossa ”Erdogan” tarvitsematta miettiä, miten saisi suomalaisella näppäimistöllä [[g]]-kirjaimeen lisätyksi [[Lyhyysmerkki|lyhyysmerkin]].<ref name="Weiss 2001"/> Vastaavasti [[Aakkosjärjestys|aakkostus]] tapahtuu usein ensisijaisesti kantamerkin perusteella,<ref name="Microsoft 2010"/> joskin tällöin on otettava huomioon kielikohtaiset erot. Esimerkiksi suomalaisiin aakkosiin kuuluvat koostemerkit [[å]], [[ä]] ja [[ö]] itsenäisinä kirjaimina, mutta [[Englannin kieli|englantilaisittain]] ne tulkitaan vain tarkkeellisiksi muunnelmiksi, jotka aakkostuvat samalla tavalla kuin kantamerkki [[a]] tai [[o]]. Koostemerkki š puolestaan aakkostuu suomalaisittainkin samalla tavalla kuin kantamerkki s, mutta [[Viron kieli|virolaisittain]] erikseen tarkkeettoman s:n jälkeen.


== Katso myös ==
== Katso myös ==

Versio 9. huhtikuuta 2014 kello 17.51

Koostemerkki tarkoittaa erityisesti Unicode-termistössä kirjoitusmerkkiä, joka voidaan määritellä kahden tai useamman merkin yhdistelmäksi, vaikka teknisesti se on itsenäinen kokonaisuus, jolla on oma Unicode-tunnus. Tyypillisesti koostemerkki on tarkkeella varustettu kirjain, kuten š (U+0161 eli latinalainen pienaakkonen s ja hattu), joka voidaan muodollisesti hajottaa kantamerkiksi s (U+0073) ja yhdistyväksi hatuksi (U+030C). Tällainen niin sanottu hajotelma on ymmärrettävä yhtäläiseksi vastaavan koostemerkin kanssa.[1][2]

Vanhastaan tietokoneet ovat käsitelleet tarkkeellisia kirjaimia nimenomaan koostemerkkeinä. Vaikka Unicode on mahdollistanut myös hajotelmien käytön ja periaatteessa suosiikin niitä, jotkin ohjelmat voivat pyrkiä korvaamaan hajotelmat koostemerkeillä, joiden käsittely on teknisesti yksinkertaisempaa. Kaikki yhdistelmät eivät kuitenkaan ole saatavilla koostemerkkeinä.

Toisaalta kantamerkin erottaminen koostemerkistä helpottaa esimerkiksi tietokoneavusteista tiedonhakua, kun vaikkapa turkkilaista nimeä Erdoğan voi hakea pelkistetysti muodossa ”Erdogan” tarvitsematta miettiä, miten saisi suomalaisella näppäimistöllä g-kirjaimeen lisätyksi lyhyysmerkin.[3] Vastaavasti aakkostus tapahtuu usein ensisijaisesti kantamerkin perusteella,[4] joskin tällöin on otettava huomioon kielikohtaiset erot. Esimerkiksi suomalaisiin aakkosiin kuuluvat koostemerkit å, ä ja ö itsenäisinä kirjaimina, mutta englantilaisittain ne tulkitaan vain tarkkeellisiksi muunnelmiksi, jotka aakkostuvat samalla tavalla kuin kantamerkki a tai o. Koostemerkki š puolestaan aakkostuu suomalaisittainkin samalla tavalla kuin kantamerkki s, mutta virolaisittain erikseen tarkkeettoman s:n jälkeen.

Katso myös

Lähteet

  1. Jukka K. Korpela: Kirjainten tarinoita (PDF) (luku 4.1, ”Tarkennusta tarkkeen käsitteeseen”, s. 132–133) cs.tut.fi. 14.1.2011. Viitattu 8.4.2014.
  2. Unicode: Conformance (PDF) (luku 3.7, ”Decomposition”, s. 85) The Unicode Standard 5.2. 1991–2009. Viitattu 8.4.2014.
  3. Aaron Weiss: Composite and Precomposed Characters (Internet Archiveen 8.11.2011 arkistoitunut versio) 20.2.2001. Web Developer’s Virtual Library. Viitattu 12.9.2010.
  4. Defining a Character Set 8.4.2010. Microsoft. Viitattu 8.4.2014.
Tämä tietotekniikkaan liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia.