Kielimalli

Wikipediasta
Siirry navigaatioon Siirry hakuun

Tilastollinen kielimalli on sanajonon sanojen todennäköisyysjakauma tai sellainen todennäköisyysfunktio, joka tuottaa jakauman. Jos sanajonossa, esimerkiksi lauseessa, on sanaa, antaa kielimalli koko sanajonolle todennäköisyyden . Kielimalli voidaan määritellä myös sanan osille, kuten morfeemeille.

Esimerkiksi N-grammimalli ennustaa sanasekvenssin – esimerkiksi lauseen – seuraavan odotettavissa olevan sanan, kun edellistä sanaa tunnetaan.

Kielimallin perustana käytetään olemassaolevaa tekstiaineistoa eli korpusta, jonka avulla malli opetetaan. Aineisto voi olla peräisin kirjoista, sanomalehdistä, tv-ohjelmien transskripteistä tai vaikka internetistä. Mitä suurempi opetusaineisto, sitä parempi yleensä mallin ennustuskyky.

Tämä tekniikkaan liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia.