Tekstintunnistus

Wikipedia
Loikkaa: valikkoon, hakuun

Tekstintunnistus (engl. Optical character recognition, OCR) on teknologia, jonka avulla tunnistetaan koneellisesti tai käsin tuotettua tekstiä sähköisesti muokattavaan muotoon. Tunnistettava teksti on usein paperilla esim. erilaisissa asiakirjoissa tai lehdissä.

Sisällysluettelo

Historiaa [muokkaa]

CMC-7 -kirjasin
OCR-A -kirjasin

OCR-teknologia syntyi vuonna 1929, jolloin Gustav Tauschek haki Saksassa ensimmäisen patenttinsa hahmojen tunnistamiseen. Tekstin tunnistamisen teknologia lähti varsinaisesti kehitykseen 1950-luvulla, jolloin sitä käytettiin aluksi pankkishekkeihin painettujen kirjasimien tunnistamiseen. Tätä kutsuttiin MICR-teknologiaksi (Magnetic Ink Character Recognition) ja sille tyypillisiä kirjasimia olivat E-13B ja CMC-7. Tässä shekkien MICR-kirjasimet painettiin musteella, joka sisälsi rautaoksidia. Sitten shekit luettiin erityisellä laitteella, jossa lukupää tunnisti merkit niiden magneettisuuden perusteella. Merkkien optinen tunnistaminen eli varsinainen OCR-teknologia yleistyi 1960-luvulla. Tätä varten kehitettiin erityiset kirjasimensa OCR-A ja OCR-B. Vakiomuotoisten kirjasimien tunnistaminen oli helpompaa ja luennan oikeellisuus pysyi luotettavana.

Teknologia [muokkaa]

Merkintunnistuksessa kootaan skannatusta asiakirjasta havaittuja pikseleitä (pisteitä) ja verrataan niiden muodostamia hahmoja olemassaoleviin kirjainhahmoihin ja pyritään näin tunnistamaan oikea merkki, joka voi olla esim. kirjain, numero tai jokin erikoismerkki.

Merkkien muodostaessa ryhmän voidaan tätä ryhmää vertailla kieliopin mahdollisiin sanoihin, jolloin voidaan automatisoidusti päätellä tunnistuksen oikeellisuus, ja siten vähentää ohjelmallisen tunnistuksen oikeellisuuden tarkistamiseen pääsääntöisesti liittyvää työtä.

Tätä tunnistuksen oikeellisuutta voidaan oleellisesti tarkentaa jos luettu tieto voidaan jollakin tavoin tarkistaa (kuten esimerkiksi henkilötunnus, passin numero, ajokortin numero, pankkitilin numero, pankkiviitteen numero jne, joissa esiintyy matemaattisen algoritmin avulla tarkistettavissa oleva tarkistetieto).

Tekstin tunnistamista helpottaa, jos skannattavassa asiakirjassa käytetään tasavälistä kirjasintyyppiä kuten Courier, mutta ohjelmistot ja laitteet kykenevät tunnistamaan myös useita muita kirjasintyyppejä.

Skannattavan kuvan suoristamisella ja tekstisuunnan samanmuotoisuudella (kaikki sivut samansuuntaisiksi) nostetaan lopputuloksen tarkkuutta. Useissa ohjelmistoissa on myös kuvanparannustoimintoja, joilla skannattavasta kuvasta voidaan poistaa ylimääräisiä pisteitä ja muita häiriöitä.

Tekstintunnistamisen oikeellisuuteen vaikuttaa asiakirjasta digitoimalla (skannaamalla) aikaan saadun kuvan laatu sekä sen lukutarkkuus. Erityisesti kontrasti vaikuttaa suuresti tunnistuksen toimivuuteen (selkeästi valkoinen tausta ja teräväreunaiset mustat kirjaimet). Lopputuloksen oikeellisuus paranee käytettäessä optimaalista lukutarkkuutta (dpi, dots per inch). Perinteisen merkintunnistuksen lukutarkkuutena käytetään yleisesti resoluutiota 300 dpi (Dots Per Inch). Viivakoodeja – kuten laskuissa esiintyvä pankkiviivakoodi – luettaessa voidaan käyttää myös 200 dpi resoluutiota.lähde? Liian suuri resoluutio tuo yleensä kuvaan liikaa informaatiota ("kohinaa", taustavärin pisteitä, jotka sumentavat luettavien merkkien reunoja ja siten huonotavat merkintunnistusohjelmiston toiminnan edellytyksiä).

Tekstintunnistusteknologiaa hyödynnetään erilaisissa sovellutuksissa, joissa erimuotoisista asiakirjoista pyritään automatisoidusti hakemaan ja löytämään ja lukemaan niissä olevaa ja/tai niitä yksilöiviä tietoja joko käytettäväksi ko. asiakirjojen indeksitietoina (hakutekijöinä), tai ko. asiakirjojen sisältämänä tietona joka viedään eteenpäin johonkin vastaanottavaan järjestelmään. Esimerkkejä tällaisista ovat laskut, sopimukset, tilaukset, pankkien maksupalvelutoimeksiannot, kyselylomakkeet, markkinatutkimukset tms asiakirjat, joissa esiintyy sisältöä, joka halutaan tallentaa hallittavaan muotoon.

Käyttökohteet [muokkaa]

Tekstintunnistuksella pyritään vähentämään manuaalisia työvaiheita asiakirjojen käsittelyssä ja automatisoimaan erilaisia prosesseja. Teknologiaa hyödynnetään sellaisissa tarkoituksissa, joissa paperilla oleva asiakirja halutaan täysin muokattavaan muotoon siihen tehtävien muutosten vuoksi. Tekstintunnistamisella on merkittävä rooli suurten asiakirjamäärien, kuten lomakkeiden ja laskujen yhteydessä. Tekstintunnistamista hyödynnetään lomakkeiden sisällön tulkkaamiseen, jossa osa sen sisällöstä kirjoitetaan suoraan johonkin järjestelmään arkistointia varten. Tekstintulkkaus on käytetty menetelmä, kun halutaan käsitellä suuria määriä kuponkeja, palautelomakkeita ja lomakkeita, joissa on ns. ”rasti ruutuun” –kohtia. OCR-toimintoja on myös boteissa jotka kiertelevät keskustelupalstoilla ja lähettelevät roskapostia. OCR-toiminto antaa botille mahdollisuuden läpäistä kuvavarmennustesti (CAPTCHA).lähde?

Ohjelmistoja [muokkaa]

Tekstintunnistamiseen erikoistuneita ohjelmia ovat mm.

  • ABBYY FineReader
  • ReadIris
  • IRISCapture
  • IRISDocument
  • Omnipage
  • ReadSoft
  • Nicomsoft OCR

Aiheesta muualla [muokkaa]

Tämä tietotekniikkaan liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia tai samankaltaisia artikkeleita.