Perusmuotoistaminen

Wikipediasta
Siirry navigaatioon Siirry hakuun

Perusmuotoistamisella (lemmatization), synonyymejä lemmaus ja lemmatisointi, tarkoitetaan tiedonhaussa hakutermin muuttamista sen perusmuotoon. Tiedonhakuprosessissa haun kohteelle ja hakijan kyselylle tehdään kielellinen normalisointiselvennä.

Kielitieteellinen perusmuotoistaminen[muokkaa | muokkaa wikitekstiä]

Kielitieteessä perusmuotoistaminen on osa leksikaalista morfologiaa. Sanan taivutusmuoto koostuu vartalosta ja taivutustunnuksesta. Vartalo on siis se osa sananmuotoa, joka jää jäljelle kun taivutustunnukset erotetaan. Vartalo voi olla kaikissa sanan taivutusmuodoissa sama, tai sitten se vaihtelee. Esimerkiksi: puhu-a : puhu-n : puhu-taan : puhu-nut ja keppi : kepi-n : keppe-jä. [1]

Perusmuotoistaminen ja stemmaus[muokkaa | muokkaa wikitekstiä]

Perusmuotoistaminen on läheistä sukua stemmaukselle. Perusmuotoistamisessa indeksiin tallennetaan sanan perusmuoto, kun taas stemmauksessa indeksiin tallennetaan sanan vartalo.[2] Toisin kuin perusmuoto-ohjelmat, stemmerit eivät ymmärrä sanojen kontekstia ja osa sanoista joilla on useita merkityksiä eri asiayhteyksissä jää löytämättä.[3]

Perusmuotoistamisen ja erilaisten perusmuoto-ohjelmien toimintaperiaatteena on palauttaa sanat niiden perusmuotoon ja tunnistaa yhdyssanoista osasanat.[4] Ne pohjautuvat morfologisiin sääntöihin sekä laajaan perusmuodot sisältävään sanakirjaan.[5]

Perusmuotoistamista pidetään stemmausta tarkempana ja perusteellisempana tapana käsitellä tekstiä tiedonhakua varten. Vertailtaessa perusmuotoistamista ja stemmausta, eroja niiden välillä on kuitenkin lähes mahdotonta havaita. [6]

Perusmuotoistamisen etuja ja ongelmia[muokkaa | muokkaa wikitekstiä]

Perusmuotoistamisen etuna on se, että sen avulla indeksiin saadaan luotua sanakirjamuoto. Perusmuotoistamista pidetään parhaana vaihtoehtona luonnollisen kielen käsittelyyn laajan morfologian omaavissa kielissä, kuten suomen kielessä.[5]

Perusmuotoistamisen huonona puolena on hakujen tarkkuutta heikentävä ylitulkinta. Ylitulkintaa tapahtuu, koska perusmuotoistamismenetelmät löytävät kaikki mahdolliset tulkintavaihtoehdot,[4] esimerkiksi Kokkola-sanan taivutusmuoto kokkolasta on tulkittu kokko- ja lasta-sanojen perusmuodoista koostuvaksi yhdyssanaksi.[7] Ongelmia aiheuttavat myös sanakirjasta puuttuvat sanat, kuten ulkomaalaiset erisnimet.[5]

Lähteet[muokkaa | muokkaa wikitekstiä]

  1. Hakulinen et al: Iso suomen kielioppi. Suomalaisen Kirjallisuuden Seura, 2004, Helsinki.
  2. Airio, Eija 2009: Morphological problems in IR and CLIR. Applying linguistic methods and approximate string matching tools. Tampere University Press, Tampere.
  3. O'Neil, John: Doing things with words, Part three: Stemming and lemmatization attivio.com. 20.1.2009. Viitattu 30.11.2013.
  4. a b Järvelin, Kalervo & Kekäläinen, Jaana: Tiedonhaun menetelmät oppiaineisto oppimateriaalit.internetix.fi. Arkistoitu 17.12.2013. Viitattu 30.11.2013.
  5. a b c Kettunen, Kimmo: Reductive and generative approaches to morphological variation of keywords in monolingual information retrieval. Tampere University Press, 2007, Tampere.
  6. Kettunen, Kimmo, Tuomas Kunttu & Järvelin, Kalervo: To stem or lemmatize a highly inflectional language in a probabilistic IR environment?. Journal of Documentation, 2005, 61. vsk, nro 4 (INT), s. 476-496. (englanniksi)
  7. Alkula, Riitta: Merkkijonoista suomen kielen sanoiksi, 2000.

Aiheesta muualla[muokkaa | muokkaa wikitekstiä]