Ero sivun ”Koostemerkki” versioiden välillä

Wikipediasta
Siirry navigaatioon Siirry hakuun
[katsottu versio][katsottu versio]
Poistettu sisältö Lisätty sisältö
p Luokka:Kirjoitus → Tarkkeet
palautetaanpa äsken poistettu lähde ja ohjataan arkistoversioon, koska siinä on tietoa kantamerkistä tiedonhaussa
Rivi 1: Rivi 1:
'''Koostemerkki''' tarkoittaa erityisesti [[Unicode]]-termistössä [[kirjoitusmerkki]]ä, joka voidaan määritellä kahden tai useamman merkin yhdistelmäksi. Tyypillisesti koostemerkki on [[Tarke|tarkkeella]] varustettu [[kirjain]], kuten [[š]] (U+0161 eli [[Latinalainen kirjaimisto|latinalainen]] pienaakkonen [[s]] ja [[Hattu (tarke)|hattu]]), joka voidaan teknisesti hajottaa kantamerkiksi s (U+0073) ja [[Yhdistyvä merkki|yhdistyväksi]] hatuksi (U+030C). Tällainen niin sanottu hajotelma on ymmärrettävä yhtäläiseksi vastaavan koostemerkin kanssa.<ref name="Korpela 2011"/><ref name="Unicode 2009"/>
'''Koostemerkki''' tarkoittaa erityisesti [[Unicode]]-termistössä [[kirjoitusmerkki]]ä, joka voidaan määritellä kahden tai useamman merkin yhdistelmäksi. Tyypillisesti koostemerkki on [[Tarke|tarkkeella]] varustettu [[kirjain]], kuten [[š]] (U+0161 eli [[Latinalainen kirjaimisto|latinalainen]] pienaakkonen [[s]] ja [[Hattu (tarke)|hattu]]), joka voidaan teknisesti hajottaa kantamerkiksi s (U+0073) ja [[Yhdistyvä merkki|yhdistyväksi]] hatuksi (U+030C). Tällainen niin sanottu hajotelma on ymmärrettävä yhtäläiseksi vastaavan koostemerkin kanssa.<ref name="Korpela 2011"/><ref name="Unicode 2009"/>


Vanhastaan tietokoneet ovat käsitelleet tarkkeellisia kirjaimia nimenomaan koostemerkkeinä. Vaikka Unicode on mahdollistanut myös hajotelmien käytön ja periaatteessa suosiikin niitä, jotkin ohjelmat voivat pyrkiä korvaamaan hajotelmat koostemerkeillä, joiden käsittely on teknisesti yksinkertaisempaa. Kaikki yhdistelmät eivät kuitenkaan ole saatavilla koostemerkkeinä.
Vanhastaan tietokoneet ovat käsitelleet tarkkeellisia kirjaimia nimenomaan koostemerkkeinä. Vaikka Unicode on mahdollistanut myös hajotelmien käytön ja periaatteessa suosiikin niitä, jotkin ohjelmat voivat pyrkiä korvaamaan hajotelmat koostemerkeillä, joiden käsittely on teknisesti yksinkertaisempaa. Kaikki yhdistelmät eivät kuitenkaan ole saatavilla koostemerkkeinä.


Toisaalta kirjainten [[Aakkosjärjestys|aakkostuksen]] yksinkertaistamiseksi jotkin ohjelmat voivat hajottaa koostemerkit kantamerkiksi ja yhdistyväksi tarkkeeksi.<ref name="Microsoft 2010"/> Tällöin on tosin otettava huomioon kielikohtaiset erot. Esimerkiksi suomalaisiin aakkosiin kuuluvat koostemerkit [[å]], [[ä]] ja [[ö]] itsenäisinä kirjaimina, mutta [[Englannin kieli|englantilaisittain]] ne tulkitaan vain tarkkeellisiksi muunnelmiksi, jotka aakkostuvat samalla tavalla kuin kantamerkki [[a]] tai [[o]]. Koostemerkki š puolestaan aakkostuu suomalaisittainkin samalla tavalla kuin kantamerkki s.
Toisaalta kantamerkin irrottaminen koostemerkistä helpottaa esimerkiksi tietokoneavusteista [[tiedonhaku]]a, kun vaikkapa [[Turkin kieli|turkkilaista]] nimeä [[Recep Tayyip Erdoğan|Erdoğan]] voi hakea pelkistetysti muodossa ”Erdogan” tarvitsematta miettiä, miten saisi suomalaisella näppäimistöllä [[g]]-kirjaimeen lisätyksi [[Lyhyysmerkki|lyhyysmerkin]].<ref name="Weiss 2001"/> Vastaavasti [[Aakkosjärjestys|aakkostus]] tapahtuu usein ensisijaisesti kantamerkin perusteella,<ref name="Microsoft 2010"/> joskin tällöin on otettava huomioon kielikohtaiset erot. Esimerkiksi suomalaisiin aakkosiin kuuluvat koostemerkit [[å]], [[ä]] ja [[ö]] itsenäisinä kirjaimina, mutta [[Englannin kieli|englantilaisittain]] ne tulkitaan vain tarkkeellisiksi muunnelmiksi, jotka aakkostuvat samalla tavalla kuin kantamerkki [[a]] tai [[o]]. Koostemerkki š puolestaan aakkostuu suomalaisittainkin samalla tavalla kuin kantamerkki s, mutta [[Viron kieli|virolaisittain]] erikseen tarkkeettoman s:n jälkeen.


== Katso myös ==
== Katso myös ==
Rivi 17: Rivi 17:


<ref name="Unicode 2009">{{Verkkoviite | Osoite = http://www.unicode.org/versions/Unicode5.2.0/ch03.pdf | Nimeke = Conformance | Tekijä = Unicode | Tiedostomuoto = PDF | Selite = luku 3.7, ”Decomposition”, s. 85 | Julkaisu = The Unicode Standard 5.2 | Ajankohta = 1991–2009 | Julkaisupaikka = | Julkaisija = | Viitattu = 8.4.2014 | Kieli = }}</ref>
<ref name="Unicode 2009">{{Verkkoviite | Osoite = http://www.unicode.org/versions/Unicode5.2.0/ch03.pdf | Nimeke = Conformance | Tekijä = Unicode | Tiedostomuoto = PDF | Selite = luku 3.7, ”Decomposition”, s. 85 | Julkaisu = The Unicode Standard 5.2 | Ajankohta = 1991–2009 | Julkaisupaikka = | Julkaisija = | Viitattu = 8.4.2014 | Kieli = }}</ref>

<ref name="Weiss 2001">{{Verkkoviite | Osoite = http://web.archive.org/web/20111108105615/http://www.wdvl.com/Authoring/Unicode/composite.html | Nimeke = Composite and Precomposed Characters | Tekijä = Aaron Weiss | Tiedostomuoto = | Selite = [[Internet Archive]]en 8.11.2011 arkistoitunut versio | Julkaisu = | Ajankohta = 20.2.2001 | Julkaisupaikka = | Julkaisija = Web Developer’s Virtual Library | Viitattu = 12.9.2010 | Kieli = }}</ref>


}}
}}

Versio 8. huhtikuuta 2014 kello 22.57

Koostemerkki tarkoittaa erityisesti Unicode-termistössä kirjoitusmerkkiä, joka voidaan määritellä kahden tai useamman merkin yhdistelmäksi. Tyypillisesti koostemerkki on tarkkeella varustettu kirjain, kuten š (U+0161 eli latinalainen pienaakkonen s ja hattu), joka voidaan teknisesti hajottaa kantamerkiksi s (U+0073) ja yhdistyväksi hatuksi (U+030C). Tällainen niin sanottu hajotelma on ymmärrettävä yhtäläiseksi vastaavan koostemerkin kanssa.[1][2]

Vanhastaan tietokoneet ovat käsitelleet tarkkeellisia kirjaimia nimenomaan koostemerkkeinä. Vaikka Unicode on mahdollistanut myös hajotelmien käytön ja periaatteessa suosiikin niitä, jotkin ohjelmat voivat pyrkiä korvaamaan hajotelmat koostemerkeillä, joiden käsittely on teknisesti yksinkertaisempaa. Kaikki yhdistelmät eivät kuitenkaan ole saatavilla koostemerkkeinä.

Toisaalta kantamerkin irrottaminen koostemerkistä helpottaa esimerkiksi tietokoneavusteista tiedonhakua, kun vaikkapa turkkilaista nimeä Erdoğan voi hakea pelkistetysti muodossa ”Erdogan” tarvitsematta miettiä, miten saisi suomalaisella näppäimistöllä g-kirjaimeen lisätyksi lyhyysmerkin.[3] Vastaavasti aakkostus tapahtuu usein ensisijaisesti kantamerkin perusteella,[4] joskin tällöin on otettava huomioon kielikohtaiset erot. Esimerkiksi suomalaisiin aakkosiin kuuluvat koostemerkit å, ä ja ö itsenäisinä kirjaimina, mutta englantilaisittain ne tulkitaan vain tarkkeellisiksi muunnelmiksi, jotka aakkostuvat samalla tavalla kuin kantamerkki a tai o. Koostemerkki š puolestaan aakkostuu suomalaisittainkin samalla tavalla kuin kantamerkki s, mutta virolaisittain erikseen tarkkeettoman s:n jälkeen.

Katso myös

Lähteet

  1. Jukka K. Korpela: Kirjainten tarinoita (PDF) (luku 4.1, ”Tarkennusta tarkkeen käsitteeseen”, s. 132–133) cs.tut.fi. 14.1.2011. Viitattu 8.4.2014.
  2. Unicode: Conformance (PDF) (luku 3.7, ”Decomposition”, s. 85) The Unicode Standard 5.2. 1991–2009. Viitattu 8.4.2014.
  3. Aaron Weiss: Composite and Precomposed Characters (Internet Archiveen 8.11.2011 arkistoitunut versio) 20.2.2001. Web Developer’s Virtual Library. Viitattu 12.9.2010.
  4. Defining a Character Set 8.4.2010. Microsoft. Viitattu 8.4.2014.
Tämä tietotekniikkaan liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia.