ASCII
Ascii (akronyymi sanoista American Standard Code for Information Interchange) on 7-bittinen eli 128 merkkipaikan laajuinen tietokoneiden merkistö, joka sisältää ensisijaisesti amerikanenglannissa tarvittavat kirjaimet, numerot, väli- ja erikoismerkkejä sekä eräitä ohjauskoodeja. Lähes kaikkien nykyisin yleisessä käytössä olevien tietokonemerkistöjen 128 ensimmäistä merkkiä ovat samat kuin Asciissa, joten ne voidaan luokitella Asciin laajennuksiksi. Unicode-merkistön yhteydessä tätä ensimmäistä lohkoa kutsutaan latinalaiseksi perusosaksi.
Joskus kuulee virheellisesti puhuttavan ”8-bittisestä Asciista” tai ”high-Asciista”, jonka merkkipaikkojen määrä olisi kaksinkertaistettu 256:een ottamalla käyttöön Asciissa ylimääräiseksi jäänyt tavun kahdeksas bitti. Tällaisia merkistöjä on Asciin pohjalta kuitenkin kehitetty useita, eikä niistä yhteenkään ole asianmukaista viitata nimellä Ascii. Koska 8-bittiseenkään merkistöön eivät mahdu edes kaikkien latinalaisin aakkosin kirjoitettavien kielten kirjaimet, alueittain on pitänyt kehittää keskenään yhteensopimattomia laajennusversioita, joista länsieurooppalaisittain ja suomalaisittain tärkein on ISO 8859-1 eli niin sanottu Latin 1 ‑merkistö. Lisäksi esimerkiksi MS-DOS-järjestelmän käyttämien Ascii-pohjaisten merkistöjen laajennusosat poikkeavat täysin Windowsin merkistöistä, jotka ovat ISO 8859 ‑standardien muunnelmia.
Sisällysluettelo |
[muokkaa] Historia
Ascii kehitettiin 1960-luvulla paperille tulostavien kaukokirjoitinlaitteiden ja tietokonepäätteiden merkistöksi ja ohjauskoodistoksi. Aikaisemmat laitteet käyttivät yleensä 5-bittistä Baudot-koodia.
Asciin kehitti ja julkaisi American Standards Association, nykyiseltä nimeltään American National Standards Institute. Kehitystyöhön osallistuneista huomattavimpiin kuuluu Bob Bemer.
Merkkivalikoima perustuu lähinnä Yhdysvaltojen tarpeisiin. Tämä on aiheuttanut jatkuvia ongelmia ei-englanninkielisen tekstin käsittelyssä: esimerkiksi suomen kielen aakkosista kirjaimet A–Z sisältyvät kaikkiin Ascii-merkistön muunnoksiin ja näkyvät siis käytännössä aina oikein, mutta niin sanotut ääkköset (Å, Ä, Ö) aiheuttavat yllättävän usein yhteensopivuusongelmia vielä nykyäänkin.
[muokkaa] US-ASCII
ASCII-määritys julkaistiin Yhdysvalloissa ANSI X3.4 ‑standardina alun perin vuonna 1963. Hieman myöhemmin, 1967, sitä täydennettiin pienaakkosilla ja symboleilla. Yhdysvaltojen ASCII-standardista käytetään myös nimitystä US-ASCII. Sen nykyinen versio on määritelty standardissa ANSI X3.4-1986.
ISO-standardi merkistöstä tuli vuonna 1972. Kansainvälinen ISO-646-IRV (international reference version) ‑määritys erosi ASCII-merkistöstä sikäli, että dollarin merkin ($) tilalla oli valuuttamerkki (¤) ja aaltoviivan (~) tilalla oli yläviiva (¯). Vuonna 1991 kansainvälinen versio mukautettiin vallitsevaan käytäntöön korvaamalla valuuttamerkki dollarin merkillä. Se on nykyään aivan samanlainen kuin yhdysvaltalainen versio ISO-646-US eli US-ASCII.
ASCII-merkistö määrittää 128 merkkipaikkaa, joihin kuuluvat amerikanenglannin isot ja pienet kirjaimet A–Z, numerot 0–9, välilyönti sekä väli- ja erikoismerkkejä (!"#$%&'<>=?.,:;@{[|]}\^_`). Merkistön alkupäästä ja lopusta on yhteensä 33 merkkipaikkaa varattu ohjauskoodeille, joten erilaisia kirjoitusmerkkejä mahtuu ASCII-merkistöön 95.
ASCII ei sisällä Ä- ja Ö-kirjainten kaltaisia tarkkeellisia kirjaimia, joita tarvitaan muissa kuin englannin kielessä. Monet kansalliset kirjaimet sai kuitenkin paperipäätteillä ja kirjoittimilla aikaiseksi tulostamalla kaksi merkkiä päällekkäin, esimerkiksi ä ← a + " (a ja pystylainausmerkki) ja ñ ← n + ~ (n ja tilde). Eräät ASCII-merkit, nimittäin tilde ja sirkumfleksi (^), tarkoitettiinkin alun perin nimenomaan tarkkeiksi kansallisten kirjainten muodostusta varten. Alaviiva (_) puolestaan tarkoitettiin alleviivausten tuottamiseen. Usean merkin tulostaminen samaan kohtaan ei kuitenkaan ollut mahdollista näytöllä. Näyttöjen yleistyessä piti kansalliset kirjaimet viimeistään saada osaksi varsinaista merkistöä.
[muokkaa] Kansalliset muunnelmat
Euroopan maissa kansalliset merkit saatiin käyttöön korvaamalla niillä osa erikoismerkeistä. Esimerkiksi ASCII-merkistön suomalainen versio (ISO-646-SF) korvasi merkit [\]^ merkeillä ÄÖÅÜ ja {|}~ merkeillä äöåü. @ korvattiin é:llä. Tämä merkistö tunnetaan myös suomalaisella nimellä SF-2.
Ratkaisu oli kömpelö etenkin, jos merkistöä käytettiin ohjelmointiin. Tällöin oli usein tehtävä valinta ääkkösten ja ohjelmoinnissa välttämättömien hakasulkujen välillä. Tällaiset merkistöt olivat kuitenkin yleisiä vielä 1980-luvulla, kun käytössä oli paljon järjestelmiä, joiden merkistökoodauksen leveys rajoittui 7 bittiin.
[muokkaa] Ascii-merkit
| 00 nul| 01 soh| 02 stx| 03 etx| 04 eot| 05 enq| 06 ack| 07 bel| | 08 bs | 09 ht | 0a nl | 0b vt | 0c np | 0d cr | 0e so | 0f si | | 10 dle| 11 dc1| 12 dc2| 13 dc3| 14 dc4| 15 nak| 16 syn| 17 etb| | 18 can| 19 em | 1a sub| 1b esc| 1c fs | 1d gs | 1e rs | 1f us | | 20 sp | 21 ! | 22 " | 23 # | 24 $ | 25 % | 26 & | 27 ' | | 28 ( | 29 ) | 2a * | 2b + | 2c , | 2d - | 2e . | 2f / | | 30 0 | 31 1 | 32 2 | 33 3 | 34 4 | 35 5 | 36 6 | 37 7 | | 38 8 | 39 9 | 3a : | 3b ; | 3c < | 3d = | 3e > | 3f ? | | 40 @ | 41 A | 42 B | 43 C | 44 D | 45 E | 46 F | 47 G | | 48 H | 49 I | 4a J | 4b K | 4c L | 4d M | 4e N | 4f O | | 50 P | 51 Q | 52 R | 53 S | 54 T | 55 U | 56 V | 57 W | | 58 X | 59 Y | 5a Z | 5b [ | 5c \ | 5d ] | 5e ^ | 5f _ | | 60 ` | 61 a | 62 b | 63 c | 64 d | 65 e | 66 f | 67 g | | 68 h | 69 i | 6a j | 6b k | 6c l | 6d m | 6e n | 6f o | | 70 p | 71 q | 72 r | 73 s | 74 t | 75 u | 76 v | 77 w | | 78 x | 79 y | 7a z | 7b { | 7c | | 7d } | 7e ~ | 7f del|
[muokkaa] Katso myös
[muokkaa] Aiheesta muualla
- Jukka Korpela: Merkit ja koodaukset
- http://ascii.cl/htmlcodes.htm Lista Ascii- ja HTML-symboolien koodeista (englanniksi).
Sivulta puuttuu