Ero sivun ”Koostemerkki” versioiden välillä

Wikipediasta
Siirry navigaatioon Siirry hakuun
[katsottu versio][katsottu versio]
Poistettu sisältö Lisätty sisältö
EmausBot (keskustelu | muokkaukset)
p r2.7.3) (Botti lisäsi: fr:Caractère précomposé
p Botti poisti 2 Wikidatan sivulle d:q2422376 siirrettyä kielilinkkiä
Rivi 37: Rivi 37:
[[Luokka:Kirjoitus]]
[[Luokka:Kirjoitus]]
[[Luokka:Tekstinkäsittely]]
[[Luokka:Tekstinkäsittely]]

[[en:Precomposed character]]
[[fr:Caractère précomposé]]

Versio 5. huhtikuuta 2013 kello 06.30

Koostemerkki tarkoittaa erityisesti Unicode-termistössä kirjoitusmerkkiä, joka voidaan määritellä kahden tai useamman merkin yhdistelmäksi. Tyypillisesti koostemerkki on tarkkeella varustettu kirjain, kuten ä (U+00E4 eli latinalainen pienaakkonen a ja treema), joka voidaan muodollisesti hajottaa kantamerkiksi a (U+0061) ja yhdistyväksi treemaksi (U+0308). Tällainen niin sanottu hajotelma on ymmärrettävä identtiseksi vastaavan koostemerkin kanssa.

Vanhastaan tietokoneet ovat käsitelleet tarkkeellisia kirjaimia nimenomaan koostemerkkeinä. Vaikka Unicode on mahdollistanut myös hajotelmien käytön ja periaatteessa suosiikin niitä, jotkin ohjelmat voivat pyrkiä korvaamaan hajotelmat koostemerkeillä, joiden käsittely on teknisesti yksinkertaisempaa ja jotka vievät vähemmän tallennustilaa. Kaikki yhdistelmät eivät kuitenkaan ole saatavilla koostemerkkeinä.

Koostemerkkien ja hajotelmien vertailua

Seuraavassa esimerkissä on sukunimi Åström kirjoitettuna ensin käyttäen koostemerkkejä Å (U+00C5) ja ö (U+00F6) ja sitten hajotelmia, joissa A-kirjainta (U+0041) seuraa yhdistyvä yläpuolinen ympyrä (U+030A) ja o-kirjainta (U+006F) yhdistyvä treema (U+0308). Eron havainnollistamiseksi koostemerkit näkyvät tässä vihreinä ja kantamerkit mustina; selaimesta riippuen yhdistyvät tarkkeet voivat näkyä oransseina tai mustina.

  1. Åström (U+00C5 U+0073 U+0074 U+0072 U+00F6 U+006D)
  2. Åström (U+0041 U+030A U+0073 U+0074 U+0072 U+006F U+0308 U+006D)

Värityksen eroja lukuun ottamatta vaihtoehdot ovat muodollisesti identtisiä, ja niiden pitäisi näyttää samanlaisilta. Käytännössä yhdistyvät tarkkeet voivat kuitenkin aiheuttaa ongelmia joillekin sovelluksille, ja pahimmillaan ne jäävät kokonaan piiloon tai kantamerkin perässä näkyy neliskulmainen korvikekuvio osoittamassa, että tarke ei sisälly käytössä olevaan fonttiin.

Toisaalta koostemerkitkään eivät aina ole ongelmattomia, sillä kovin eksoottiset merkit eivät sisälly kaikkiin fontteihin. Seuraavassa esimerkissä on rekonstruoituna indoeurooppalaisen kantakielen sana ’koira’:

  1. ḱṷṓn (U+1E31 U+1E77 U+1E53 U+006E)
  2. ḱṷṓn (U+006B U+0301 U+0075 U+032D U+006F U+0304 U+0301 U+006E)

Joissain tilanteissa ensimmäisen vaihtoehdon harvinaisilla tarkkeilla varustetut k, u ja o voivat näyttää typografisesti aivan erilaisilta kuin tarkkeeton n, ja pahimmassa tapauksessa niiden paikalla näkyy pelkkä neliskulmainen korvikekuvio. Jälkimmäisessä vaihtoehdossa ainakin kantakirjainten pitäisi näkyä oikein, vaikka selain ei osaisikaan käsitellä yhdistyviä tarkkeita.

Katso myös

Lähteet

  • Jukka K. Korpela: Kirjainten tarinoita (PDF) (jakso 4.1: Tarkennusta tarkkeen käsitteeseen) cs.tut.fi. 18.1.2010. Viitattu 12.9.2010.
  • Conformance (PDF) (section 3.7: Decomposition) The Unicode Standard 5.2. 1991–2009. Viitattu 12.9.2010. (englanniksi)