Tiedonhaku

Wikipediasta
Siirry navigaatioon Siirry hakuun

Tiedonhaku (engl. information retrieval) on tietojenkäsittelytieteen ja informaatiotutkimuksen osa-alue, jossa tutkitaan tiedon esittämisen, tallettamisen ja etsimisen prosesseja, joita tarvitaan, jotta haluttu tieto saadaan hakutehtävän esittäneen ihmisen käyttöön.[1]. Tiedonhaun tutkimuksen perimmäisenä tavoitteena on kehittää muun muassa järjestelmiä, joiden avulla tieto saadaan helposti sitä tarvitsevan ulottuville mahdollisimman hyödyllisessä muodossa.

Tiedonhakua suoritettaessa tiedonhakija esittää hakutehtävänsä kyselynä, joka laaditaan tiedonhakujärjestelmän kysely- tai hakukielen avulla. Tiedonhaun tavoitteena on tyydyttää tiedon tarve ja tiedonhaussa pyritään löytämään tiedontarpeen mahdollisimman hyvin tyydyttävä dokumentti tai dokumenttien joukko. Löydettävien dokumenttien tulee olla rakenteensa, sisältönsä ja ulkoasunsa puolesta tiedontarvitsijoille hyödyllisiä[2]. Tähän tavoitteeseen on vielä mahdotonta päästä nykyisten tiedonhakujärjestelmien avulla. Tiedon tallennus- ja hakujärjestelmät ovatkin tällä hetkellä yksinkertaisia järjestelmiä, joiden tuloksellinen käyttö edellyttää älykkäitä käyttäjiä.[3]

Tiedon tallentamisen ja tiedonhaun tasoperiaate[muokkaa | muokkaa wikitekstiä]

Tiedonhaussa hakukyselyt ja niiden kohteina olevat dokumentit voidaan esittää kolmella tasolla: käsitetasolla, ilmaisutasolla ja merkkijonotasolla. Ensinnäkin dokumentit koostuvat merkkijonoista, jotka esittävät luonnollisen kielen ilmaisuja. Nämä ilmaisut puolestaan edustavat dokumentin käsitteellistä sisältöä. Vastaavasti tiedonhakijan tiedontarpeella on käsitteellinen sisältö, joka voidaan ilmaista luonnollisella kielellä ja esittää hakukyselyssä kirjoitusmerkkien avulla.[4]

Käsitetasolla tarkastellaan hakukyselyn ja kohdedokumenttien sisältämiä käsitteitä ja näiden välisiä suhteita. Tiedon tallennuksessa ja tiedonhaussa käsiteanalyysiä pidetään usein tarpeellisena välivaiheena ennen dokumentin tai hakukyselyn muotoilua indeksointitermeiksi tai lopulliseksi hakukyselyksi. Käsitteellistä sisältöä ei voida välittää suoraan, vaan tekijä ilmaisee sen aina luonnollisen kielen avulla.[4] Ilmaisutasolla eli kielellisellä tasolla tarkastellaan käsitteiden muotoilua ilmaisuiksi luonnollisessa kielessä tai jossain keinotekoisessa erikoiskielessä, kuten dokumentaatiokielessä. Hakukyselyn käsitteiden esityksiä kutsutaan ilmaisutasolla hakuavaimiksi. Esiintymätaso on aina läsnä tiedonhaussa. Tietotekniikkaa hyödyntävä tiedonhaku tapahtuu aina esiintymätasolla, koska tietokoneet käsittelevät vain merkkijonoja eivätkä ne ymmärrä luonnollista kieltä.[2]

Tiedonhakujärjestelmä[muokkaa | muokkaa wikitekstiä]

Tiedonhakujärjestelmä on elektronisten tietoyksiköiden tallentamiseen, etsintään, jälleenhakuun ja jakeluun käytettävä järjestelmä, jossa käytetään tietokantoja. Tiedonhakujärjestelmää käytettäessä käyttäjälle haetaan automaattisesti hänen tiedontarvettaan vastaavaa tietoa laajasta tietovarastosta.[5] Tiedonhakujärjestelmän tarkoitus on tyydyttää tiedonhakijan tiedontarpeita etsimällä ja löytämällä tietoa annetusta aiheesta. Vaikka tiedonhakujärjestelmä hakee konkreettisesti tietoa esimerkiksi elektronisista teksteistä tai kuvista, järjestelmä pyrkii tietoyksiköiden pintarakenteiden sijaan löytämään niihin sisältyvää informaatiota.[2]

Tiedonhakujärjestelmän määritelmään sisältyy hyvin erilaisia järjestelmiä. Niitä ovat esimerkiksi väestörekisteri, kirjaston tietokanta, elektroninen artikkelitietokanta ja Googlen ja Yahoon kaltaiset verkossa toimivat hakukoneet. Informaatiotutkimuksen alalla tiedonhakujärjestelmän ollessa kyseessä tietoyksiköillä tarkoitetaan yleensä tekstidokumentteja tai niitä kuvaavia kirjallisuusviitteitä tai toisaalta hypermediadokumentteja.[2]

Käyttäjän kannalta tiedonhakujärjestelmän näkyvin ja tärkein osa on sen hakukieli ja käyttöliittymä. Hakutapahtuma alkaa aina tiedonhakijan tiedontarpeesta ja tietämyksestä. Tiedonhakija ilmaisee tämän tiedontarpeensa hakukyselynä, joka jäsennetään tiedonhakujärjestelmän käyttöliittymässä järjestelmän käyttämän kyselykielen mukaiseksi. Sitten tiedonhakujärjestelmä tulkitsee kyselyn algoritmiksi, joka kohdistetaan haluttuihin tietokantoihin. Haun tuloksena tiedonhakija saa listan hänen hakukyselynsä kriteerit täyttävistä ja tiedontarvetta vastaavista dokumenteista.[6]

Hakumenetelmät[muokkaa | muokkaa wikitekstiä]

Täsmäytysmenetelmät[muokkaa | muokkaa wikitekstiä]

Täydellinen täsmäytys[muokkaa | muokkaa wikitekstiä]

Täydellisessä täsmäytyksessä käytetään englantilaisen matemaatikon George Boolen kehittämää Boolen algebraa. Boolen algebrassa käytetään operaattoreita AND, OR ja NOT. AND-operaattoria käytettäessä saadaan tulokseksi hakusanat yhdistäviä dokumentteja, esimerkiksi haulla ”hevoset AND ponit” saadaan tulokseksi dokumentteja, jotka käsittelevät sekä hevosia että poneja. OR-operaattoria käytettäessä saadaan tulokseksi dokumentteja, jotka käsittelevät jompaakumpaa annetuista hakusanoista, esimerkiksi haulla ”hevoset OR ponit” saadaan tulokseksi kaikki joko hevosia tai poneja käsittelevät dokumentit. NOT-operaattoria käytetään haluttaessa erottaa hakusanoja toisistaan, esimerkiksi haulla ”hevoset NOT ponit” saadaan tulokseksi hevosia käsittelevät dokumentit, mutta poneja käsittelevät dokumentit jäävät tulosten ulkopuolelle. Täydellisessä täsmäytyksessä voidaan yhdistellä operaattoreita, jos halutaan käyttää useampia hakusanoja. Tällöin operaattorien suoritusjärjestys on NOT, OR, AND.

Osittaistäsmäytys[muokkaa | muokkaa wikitekstiä]

Osittaistäsmäytyksessä hakutulos pyritään järjestämään relevanssijärjestykseen eli niin, että hakua parhaiten vastaava dokumentti olisi hakutuloksissa ensimmäisenä ja toiseksi parhaiten vastaava dokumentti toisena jne. Eri osittaistäsmäytystä käyttävät hakujärjestelmät perustuvat erilaisiin menetelmiin, joita ei aina haluta paljastaa, joten hakija ei välttämättä tunne osittaistäsmäyttävän hakujärjestelmän toimintaperiaatteita yhtä hyvin kuin täystäsmäyttävän hakujärjestelmän. Erilaisia osittaistäsmäytyksen menetelmiä ovat muun muassa vektorimalliin, sumeisiin joukkoihin ja todennäköisyyslaskelmiin perustuvat mallit. Osittaistäsmäyttävien hakujärjestelmien perusperiaatteena on että kyselyssä esiintyville hakusanoille lasketaan dokumenttikohtainen paino eli luku, joka kuvaa sitä kuinka hyvin hakusana kuvaa löydettyä dokumenttia. Hakusanojen saamien painojen perusteella lasketaan dokumentille arvo, jonka mukaiseen relevanttiusjärjestykseen löydetyt dokumentit järjestetään. Monessa osittaistäsmäyttävässä hakujärjestelmässä on käytössä myös Boolen operaattorit, mutta niiden tulkinta saattaa olla löyhempi kuin täystäsmäyttävissä hakujärjestelmissä.

Hakusanojen katkaiseminen ja merkkien korvaaminen[muokkaa | muokkaa wikitekstiä]

Tiedonhaussa sanojen taipuminen ja yhdyssanat voivat aiheuttaa ongelmia, joita on pyritty ratkaisemaan kehittämällä hakujärjestelmiin mahdollisuus katkaista hakusanoja ja korvata merkkejä katkaisumerkillä. Eri hakujärjestelmissä on omat katkaisumerkkinsä, kuten asteriski (*), ristikkomerkki (#) tai kysymysmerkki (?). Lisäksi monesti voidaan käyttää läheisyysoperaattoria.

Katkaisu vasemmalta

Sanan alusta eli vasemmalta tapahtuva katkaisu on käytössä vain harvoissa hakujärjestelmissä. Haulla #koira saadaan tulokseksi pelkän koiran lisäksi esimerkiksi myös muodot opaskoira, ajokoira, sylikoira.

Katkaisu oikealta

Sanan lopusta eli oikealta tapahtuva katkaisu on yleisin sanankatkaisumuoto. Haulla talous# saadaan tulokseksi esimerkiksi myös talouselämä, talousarvio, talousrikokset, taloustieteet.

Merkkien korvaaminen

Merkkien korvaamisessa katkaisumerkillä korvataan jokin sanan merkeistä sanan sisältä. Esimerkiksi haulla col#r tulee tulokseksi sekä muodossa color että colour olevat saman sanan eri kirjoitusasut.[7]

Läheisyysoperaattori

Tällä tavalla voidaan hakea tuloksia, joissa haetut sanat esiintyvät toistensa läheisyydessä.[8]

Hakustrategiat[muokkaa | muokkaa wikitekstiä]

  • Pikahakua käytetään haluttaessa löytää vain muutama viite. Pikahaulla minimoidaan hakuaika sillä hakutermejä on yleensä 1-3 ja haulla saadaankin nopeasti käsitys tietokannan sisällöstä.
  • Lohkostrategiaa käytetään kun hakuongelma on selkeä ja hakija pyrkii kattavaan tulokseen. Lohkostrategiassa hakuaihe analysoidaan huolellisesti ja vaihtoehtoisia hakutermejä yhdistetään OR-operaattorilla, jonka jälkeen lohkot yhdistetään AND-operaattorilla.
  • Helmenkasvatusstrategia lähtee relevantista viitteestä, jonka sisällönkuvailu analysoidaan. Löydettyjen hakutermien perusteella tehdään uusi haku. Helmenkalastusstrategia sopii hakuihin, joissa hakuaihe on epäselvä eikä hakutermejä tunneta, mutta käytettävissä on johtolanka jota seuraamalla hakua voidaan lähteä kehittämään.
  • Peräkkäisten fasettien strategia hakeminen aloitetaan fasetilla eli hakusanojen yhdistelmällä, joka takaa suuren saannin ja tulosta tarkennetaan vähitellen lisäämällä rajaavia fasetteja. Strategia muistuttaa lohkostrategiaa mutta erona siihen on että peräkkäisten fasettien strategiassa fasetteja muotoillaan haun aikana tarpeen mukaan.
  • Spesifein fasetti ensin –strategiassa useammasta hakusanasta muodostuva haku aloitetaan hakupyynnön spesifeimmällä fasetilla. Jos tulosjoukko on liian laaja, lisätään toiseksi spesifein fasetti jne.
  • Pareittain yhdistettyjen fasettien strategiassa hakusanoja yhdistetään pareittain ja vähintään kahden hakusanan pitää esiintyä saaduissa hakutuloksissa.
  • Vuorovaikutteinen selailu –strategiassa haetaan erikseen haun jokaisella hakusanalla, saatujen tulosten otsikot selaillaan läpi ja relevantteja dokumentteja tarkastellaan lähemmin. Strategia sopii käytettäväksi, jos tarkentava rajaus ei käy ja hakija haluaa varmistaa, ettei mitään olennaista jäänyt löytymättä. Selailustrategia on kuitenkin menetelmänä työläs ja kallis.[7]

Tiedonhaun ongelmia[muokkaa | muokkaa wikitekstiä]

Tiedonhaun keskeinen ongelma on luonnollisen kielen monimuotoisuus ajatusten ilmaisussa. Luonnollisen kielen ominaisuudet pitää ottaa huomioon niin dokumenttien tallennuksessa, hakukyselyjen muotoilussa kuin myös hakutulosten arvioinnissa.[4]

Seuraavat luonnollisen kielen piirteet, jotka aiheuttavat ongelmia tiedonhaussa, ovat yhteisiä kaikille kielille. Ensimmäinen niistä on se, että luonnollinen kieli on vain osittain yhteistä saman kulttuurin jäsenille. Kielenkäyttäjät muodostavat useita erilaisia kielen alakulttuureja, jotka ilmenevät vaihteluna esimerkiksi sanastossa ja niiden taustalla olevissa käsitteissä. Tämän lisäksi kielenkäyttäjät muokkaavat kieltä tarkoituksiinsa sopivaksi, ja siten kieli kehittyy ilman tietoista suunnittelua monella eri taholla samanaikaisesti. Myös monitulkintaisuus on yksi luonnollisen kielen perusominaisuuksista, ja sen avulla kielenkäyttäjän on mahdollista muodostaa suuri määrä ilmaisuja pienellä määrällä alkioita.[2]

Suomen kielessä tiedonhakuun liittyviä erityisiä ongelmia aiheuttavat muun muassa sanojen ja niiden vartaloiden taipuminen, yhdyssanat ja sanaliitot, sanojen johtaminen sekä monitulkintaisuus, erityisesti taivutusmuotohomografia (joka on esimerkki kielen homonymiasta, kuten sanoissa "hauissa" ja "puhelin").[9]

Internetiin liittyvässä tiedonhaussa on myös monenlaisia ongelmia, koska internet-verkkoa ei ole alun perin rakennettu järjestelmällistä tiedonhakua ajatellen. Internetissä sijaitseva aineisto on hajautetusti tuotettua, globaalia ja vain harvakseltaan linkitettyä hypermediaa, ja sen vuoksi esimerkiksi dokumentin määrittely voi olla vaikeaa.[4] Oleellisia internet-tiedonhaun ongelmia ovat informaation suuri määrä ja sen järjestämättömyys. Lisäksi tiedon luotettavuuden ja ajantasaisuuden arviointi on usein vaikeaa, koska internet on vapaa julkaisukanava, mistä johtuen internet-sivujen julkaisutiedot ovat usein puutteelliset. Lisäksi tekijänoikeudet aiheuttavat käyttäjille usein ongelmia.[10]

Tiedonhaun arviointi[muokkaa | muokkaa wikitekstiä]

Relevanssi[muokkaa | muokkaa wikitekstiä]

Pääartikkeli: Relevanssi

Tiedonhaun tarkoituksena on löytää tiedonhakijalle relevanttia tietoa. Haluttaessa mitata tiedonhaun onnistumista, täytyy päätellä mitkä löydetyistä dokumenteista on relevantteja hakutehtävään nähden. Relevanssia on kahta lajia: aiherelevanssi ja käyttäjärelevanssi.

Aiherelevanssi[muokkaa | muokkaa wikitekstiä]

Aiherelevanssissa on nimensä mukaisesti kyse hakukysymyksen ja löydettyjen dokumenttien välisestä täsmäävyydestä. Aiherelevanssi ei kuitenkaan ota huomioon tiedontarvitsijaa ja onko löydetty dokumentti hänen näkökulmastaan relevantti. Aiherelevanssia voidaan testata määrittelemällä joukko hakukysymyksiä ja tunnistamalla tuloksista joukko dokumentteja jotka vastaavat hakukysymystä. Eri hakujärjestelmillä voidaan testata kuinka suuren osan relevanteista dokumenteista ne löytävät.

Käyttäjärelevanssi[muokkaa | muokkaa wikitekstiä]

Käyttäjä ei välttämättä kaipaa suurinta mahdollista hakutulosta vaan ainoastaan yksi tietty dokumentti saattaa kiinnostaa häntä. Käyttäjä saattaa etsiä tietyntyyppistä dokumenttia tai hänellä saattaa olla tehtävä, jonka suorittamiseksi hän etsii tietoa. Käyttäjä haluaa siis löytää dokumentteja, jotka ovat hänelle käyttökelpoisia ja hyödyllisiä. Käyttäjälle ennestään tutut dokumentit saattavat olla hänelle epärelevantteja, sillä ne eivät tuo hänelle mitään uutta tietoa eikä käyttäjän tiedontarve näin ollen tyydyty. Käyttäjärelevanssia on vaikeampi tutkia, sillä käyttäjän reaktioita ei voi toistaa laboratorio-olosuhteissa samalla tavalla kuin aiherelevanssia.[7]

Hakutuloksen arviointi[muokkaa | muokkaa wikitekstiä]

Saanti[muokkaa | muokkaa wikitekstiä]

Saanti kuvaa sitä, kuinka suuri osa tietokannan kaikista relevanteista dokumenteista löytyi. Saanti voidaan laskea jakamalla relevanttien dokumenttien määrä löydettyjen ja ei-löydettyjen relevanttien dokumenttien summalla. Saannin arviointi on vaikeaa ja ei välttämättä edes mahdollista sillä on hyvin vaikea tietää kuinka moni relevantti dokumentti jäi löydettyjen ulkopuolelle.

Tarkkuus[muokkaa | muokkaa wikitekstiä]

Tarkkuus kuvastaa sitä, kuinka suuri osa löydetyistä dokumenteista on relevantteja. Tarkkuus voidaan laskea jakamalla relevanttien dokumenttien määrä löydettyjen relevanttien ja epärelevanttien dokumenttien summalla. Tarkkuutta voi arvioida melko helposti käymällä läpi hakutuloksia ja erottelemalla niistä relevantit ja epärelevantit dokumentit. Saanti ja tarkkuus ovat toisilleen vastakkaiset siten että saannin kasvaessa tarkkuus huonontuu ja päinvastoin. Hakija ei voi koskaan saavuttaa parasta mahdollista saantia ja parasta mahdollista tarkkuutta yhtä aikaa.[7]

Tiedonhaun tutkimuksen osa-alueita[muokkaa | muokkaa wikitekstiä]

Käsitteitä[muokkaa | muokkaa wikitekstiä]

  • tietokanta
  • hakukieli
  • hakuavain
  • hakukone
  • hakukomento tai hakukysely
  • hakuelementti
  • hakuprofiili
  • hakuhistoria
  • vapaatekstihaku
  • suorakäyttöinen tiedonhakujärjestelmä
  • hakuistunto
  • tiedontarve

Lähteet[muokkaa | muokkaa wikitekstiä]

  1. Ingwersen, P.: Information retrieval interaction.. London: Taylor Graham, 1992. ISBN 0-947568-54-9.
  2. a b c d e Järvelin, Kalervo; Kekäläinen, Jaana: Tiedonhaun menetelmät opintoaineisto Internetix. 2002. Arkistoitu 5.8.2010. Viitattu 12.10.2010.
  3. Doszkocs, T.E.: IR, NLP, AI and UFOs: Or IR-relevance, Natural Language Problems, Artful Intelligence and User-Friendly Online Systems.. Proceedings of the 1986 ACM Conference on Research and Development in Information Retrieval, 1986, s. 49 – 57. (englanniksi)
  4. a b c d Järvelin, Kalervo; Sormunen, Eero: Tiedon tallennus ja haku. Informaatiotutkimuksen valintakokeen materiaali, 2009, s. 37-76. Tampere: Informaatiotutkimuksen laitos, Tampereen yliopisto.
  5. Susi, Petteri: Tekstikatkelmahakumenetelmien toteuttaminen tiedonhakujärjestelmässä (pdf) Helsinki 22.3.2007 Pro gradu -tutkielma. 22.3.2007. Helsinki: Helsingin yliopisto, Tietojenkäsittelytieteen laitos. Viitattu 9.11.2010. [vanhentunut linkki]
  6. Järvelin, Kalervo; Sormunen, Eero: Dokumentit kateissa? Tiedon tallennus ja haku avuksi. Teoksessa: Tiedon tie: johdatus informaatiotutkimukseen. Mäkinen, Ilkka (toim.). Helsinki: BTJ Kustantamo, 1999. ISBN 9789516924482.
  7. a b c d Alaterä, Anu; Halttunen, Kai: Tiedonhaun perusteet opintoaineisto Internetix. 2001-2003. Arkistoitu 5.8.2010. Viitattu 13.11.2010.
  8. Tiedonhankintakurssi (Arkistoitu – Internet Archive) Oulun yliopisto
  9. Alkula, Riitta: Merkkijonoista suomen kielen sanoiksi (pdf) 2000. Tampere: Acta Electronica Universitatis Tamperensis. Arkistoitu 14.4.2005. Viitattu 23.10.2010.
  10. Tiedonhaku internetistä Oulun seudun ammattikorkeakoulu, Raahen tekniikan ja talouden yksikkö. Viitattu 30.10.2010.

Kirjallisuutta[muokkaa | muokkaa wikitekstiä]

  • Alaterä, Anu & Halttunen, Kai: Tiedonhaun perusteet – osa lukutaitoa. Julkaisijat: Tampereen yliopiston täydennyskoulutuskeskus ja Otavan opisto/Internetix. Helsinki: BTJ Kirjastopalvelu, 2002. ISBN 951-692-527-8.
  • Haasio, Ari: Löydä! Opas helppoon tiedonhakuun. Helsinki: Avain, 2015. ISBN 978-952-304-051-9.
  • Heikkinen, Risto ym.: Tiedonhakijan teho-opas. 6. uudistettu painos. Jyväskylä: Docendo, 2005. ISBN 951-846-258-5.
  • Serola, Sami (toim.): Ote informaatiosta. johdatus informaatiotutkimukseen ja interaktiiviseen mediaan. Helsinki: BTJ Kustantamo, 2010. ISBN 978-951-692-773-5.

Aiheesta muualla[muokkaa | muokkaa wikitekstiä]

Commons
Commons
Wikimedia Commonsissa on kuvia tai muita tiedostoja aiheesta Tiedonhaku.