Automaattinen sisällönkuvailu

Wikipediasta
Siirry navigaatioon Siirry hakuun

Automaattinen sisällönkuvailu on yleiskäyttöinen, alasta ja dokumenttityypeistä riippumaton menetelmä, jolla voidaan tuottaa yksityiskohtaisia kuvailuja nopeasti ja kustannustehokkaasti.[1] Tunnettuja esimerkkejä automaattista sisällönkuvailua käyttävistä palveluista tai teknologioista ovat Googlen hakukone ja Facebookin automaattinen kasvojentunnistus.[2][3] Automaattisen sisällönkuvailun ongelmakohtia ovat luonnollisen kielen monitulkintaisuus sekä merkitysten tulkinnan vaikeus.[1]

Automaattisen sisällönkuvailun menetelmät[muokkaa | muokkaa wikitekstiä]

Automaattinen sisällönkuvailu voidaan jakaa kolmeen osaan kuvailtavan sisällön mukaan: keinotekoiseen kieleen, luonnolliseen kieleen ja ei-kielelliseen välineeseen.[4] Tutkijat ovat väitelleet manuaalisen ja automaattisen sisällönkuvailun paremmuudesta, sillä molemmille menetelmille löytyy käyttökelpoisia kohteita.[1] Automaattisten kuvailumenetelmien käyttö on perusteltua erityisesti silloin, kun manuaalinen kuvailu ei paranna hakutuloksia riittävästi suhteessa sen tuottamiin lisäkustannuksiin.

Taulukko 1. Automaattisen sisällönkuvailun vaihtoehtoja[4]

Automaattisen sisällönkuvailun vaihtoehtoja

Keinotekoinen kieli Tietokonetuettu asiasanoitus
Luonnollinen kieli Kokoteksti-indeksointi
Klusterointi
Automaattiset tiivistelmät
Ei-kielellinen väline Viittausindeksointi
Linkki-indeksointi
Hahmoindeksointi

Keinotekoinen kieli[muokkaa | muokkaa wikitekstiä]

Tietokonetuettu asiasanoitus[muokkaa | muokkaa wikitekstiä]

Tietokonetuettu asiasanoitus tarkoittaa viitetietokantojen käyttöön kehitettyä algoritmista asiasanojen alustavaa valintaa.[4]

Luonnollinen kieli[muokkaa | muokkaa wikitekstiä]

Kokoteksti-indeksointi[muokkaa | muokkaa wikitekstiä]

Kokoteksti-indeksointi (eng. Full text indexing) on automaattinen menetelmä, jolla dokumentin jokainen sana voidaan viedä tietokannan hakemistoon mahdollistaen sen hakemisen minkä tahansa sisältöön kuuluvan sanan perusteella.[4] Kokoteksti-indeksointia sovelletaan Boolen malliin perustuvissa tiedonhakujärjestelmissä, ja sitä hyödynnetään seuraavasti:

  1. Indeksointiohjelma tunnistaa dokumentista erilliset merkkijonot.
  2. Kuhunkin merkkijonoon liitetään osoitetiedot, kuten dokumentin tunniste, niin sanottu kenttätieto (esiintyikö otsikossa, tiivistelmässä, leipätekstissä, tekijänimenä, tai vastaavana) sekä sijainti kentän sisällä (esimerkiksi 3. merkkijono).
  3. Merkkijonot osoitetietoineen aakkostetaan hakemistoksi eli käänteistiedostoksi (inverted file).

Painokerroin (kokoteksti-)indeksointimenetelmä ottaa huomioon sanojen painoarvon dokumentin sisällönkuvaajina. Tällöin sanan tärkeys määräytyy yleensä termifrekvenssin (kuinka monta kertaa sana esiintyy dokumentissa) sekä käänteisen dokumenttifrekvenssin (verrannollinen sanan harvinaisuuteen koko tietokannassa) mukaan. Täsmäytysalgoritmi laskee eri dokumenteille vertailuluvut hakukyselyssä esiintyvien sanojen painokerrointen mukaan ja tuottaa hakutuloksen lajittelun vertailulukujen perusteella.[5]

Klusterointi[muokkaa | muokkaa wikitekstiä]

Klusterointi (eng. Clustering) on automaattinen luokitusmenetelmä, jolla kootaan toisiaan muistuttavat dokumentit yhteen klustereiksi.[4] Se perustuu ryhmiteltävien dokumenttien samankaltaisuuden mittaamiseen niissä esiintyvien sanojen perusteella.[6]

Erikseen säädetään myös kynnysarvo, joka toimii samankaltaisuuden raja-arvona. Mikäli kahden dokumentin samankaltaisuus ylittää asetetun kynnysarvon, ne voidaan sijoittaa samaan ryhmään. Jos samaan ryhmään sijoitetaan useita dokumentteja, eri ryhmittelymenetelmät asettavat erilaisia vaatimuksia sille, kuinka monen muun ryhmään kuuluvan dokumentin kanssa kultakin dokumentilta vaaditaan samankaltaisuutta ja kuinka suurta sen tulee olla. Vähimmillään vaaditaan kynnysarvon ylittävä yhteys edes yhteen muuhun ryhmän dokumenttiin, enimmillään kaikkiin.[7]

Tekstin automaattinen tiivistäminen[muokkaa | muokkaa wikitekstiä]

Tekstin automaattinen tiivistäminen (engl. Automatic summarization) on kuvailumenetelmä, jossa tekstidokumentin sisällöstä tuotetaan automaattisesti lyhyempi tiivistelmä pyrkien samalla säilyttämään sen kannalta oleellinen sisältö. Tietokoneohjelman avulla tekstistä pyritään löytämään sitä parhaiten kuvaavat osiot, joista muodostetaan koherentteja lauserakenteita esimerkiksi valitsemalla sisällön kannalta merkitykselliseksi sijoitettuja avainsanoja. Lisäksi turhia siirtymäsanoja, lausekkeita ja pitkiä kuvailu- ja tarkennusketjuja poistetaan.[8]

Pääosin automaattisesti tuotetut tiivistelmät ovat luettavia, tiiviitä, ja niistä löytyy keskeisiä asioita. Ongelmia saattaa esiintyä: esimerkiksi useita aiheita sisältävistä teksteistä, joissa on monikollinen otsikko, tuotetut automaattiset tiivistelmät saattavat sisältää lauseita vain yhdestä aiheesta. Usein tiivistelmän lauserakenteen yhtenäisyys voi kärsiä pääosin anaforisten viittausten johdosta.[9]

Ei-kielellinen väline[muokkaa | muokkaa wikitekstiä]

Viittausindeksointi[muokkaa | muokkaa wikitekstiä]

Viittausindeksoinnissa analysoidaan tieteellisissä julkaisuissa käytettyjä viittauksia.[4] Tunnettu esimerkki on Thomson Reutersin Web of Science -tietokanta, johon on indeksoitu 2,6 miljoonaa dokumenttia yli 100 vuoden ajalta.[10]

Linkki-indeksointi[muokkaa | muokkaa wikitekstiä]

Linkki-indeksointi on tekniikka, jolla verkkosivulla olevien linkkien avulla määritellään sivun suhde muihin verkkosivuihin.[4] Hakupalvelu voi käyttää näin muodostunutta kuvailutietoa hyödyksi.

Hahmoindeksointi[muokkaa | muokkaa wikitekstiä]

Piirrepohjainen kuva-analyysi tuottaa kuvan sisältöä, kuten värisisältöä ja tekstuuria edustavat piirrevektorit, joita voidaan verrata verrokkikuvasta valmiiksi laskettuihin malleihin, eli piirrevektoreihin.[11]

Piirrepohjaisten algoritmien ongelmana on ollut se, että ne ovat pystyneet tunnistamaan kuvista vain suhteellisen matalan abstraktiotason piirteitä. Aiemmin piirrevektoreita sovellettiinkin sisällön luokittelussa vain erityistarpeisiin, kuten kuvahakuun lääketieteen kuvajärjestelmistä. Sosiaalisen median suosion myötä piirrepohjaisen kuva-analyysin, etenkin kasvojentunnistuksen sovellusalueella tutkimus on edennyt huomattavasti. Esimerkiksi Facebookin kasvojentunnistusominaisuudet tulivat käyttäjien saataville vuonna 2011.[12]

Kasvojentunnistustehtävä voidaan määritellä yksinkertaisesti: etsitään ennalta tunnettujen henkilökuvien joukosta tiedonhaussa määriteltyä tuntematonta henkilöä vastaava kuva.[13]

Taulukko 2. Kasvojentunnistusprosessin eteneminen

Kasvojentunnistusprosessin eteneminen

0. kuva
1. havaitseminen
2. normalisointi
3. erottaminen
4. tunnistaminen
5. tunniste

1. Syötekuvasta arvioidaan kasvojen sijainti
2. Kuva normalisoidaan kääntämällä kasvot suoraan ja mahdollisesti poistamalla ylimääräinen tausta kuvasta.
3. Algoritmiriippuvaiset piirrevektorit eristetään kuvasta. Näin jäljelle jää vain tunnistusalgoritmin kannalta tarpeellinen informaatio. Ihannetapauksessa muodostunut piirrevektori on yleispätevä, immuuni muutoksille valaistuksessa, kasvojen ilmeessä tai asennossa.
4. Syötekuvan tunnistevektoreita verrataan hakutietokannan tunnistevektoreihin ja etsitään vastaavuus.
5. Tulokset, eli tunnisteet järjestetään vastaavuusjärjestykseen. Parhaimman vastaavuuden saanut hakutietokannan kuva on todennäköisesti samasta henkilöstä kuin syötekuva. Hakutietokannasta voidaan osuman tai lähimmän vastaavuuden kohdalta palauttaa indeksoitu tieto, yleensä nimi.

Piirrepohjaisilla videoanalyysimenetelmillä on samoja rajoituksia kuin kuva-analyysissa, mutta kameran ja kohteen liike antavat lisää mahdollisuuksia. Liikkuvalla kuvalla on aikaan perustuva rakenne, joka koostuu yksittäisistä kuvista, otoista sekä kohtauksista.[11] Tämän rakenteen tunnistaminen ja merkitseminen on yksi prosessin vaiheista. Kuvien lisäksi videosta voidaan analysoida ääntä, erityisesti puhetta.

Jatkuvan puheen puheentunnistin on menetelmä, jossa puhe tunnistetaan ja puretaan kirjoitetuiksi sanoiksi. Tunnistusvirheitä vähennetään käyttämällä useampia tunnistusalgoritmeja rinnakkain, jotka voivat tunnistaa sekä erillisiä sanoja että sanaliittoja. Jos tunnistin ei tunnista sanaa tai tunnistaa sen väärin, voi virhe levitä ja vaikeuttaa puhedokumentin muidenkin sanojen tunnistamista. Ongelmana on myös se, että sanojen taivutusmuodot kasvattavat nopeasti tunnistettavan sanaston määrää. Foneemien tunnistaminen perustuu puhutun kielen pienimpien merkityksiä erottavan yksikön tunnistamiseen. Koska menetelmä ei yritä tunnistaa sanoja, tuntemattomat sanat tai taivutusmuodot eivät muodosta tunnistukselle ongelmia. Tunnistuksen mielekkyyttä on tosin mahdotonta tarkastaa. Puhesyöte käännetään äänneasuesitykseksi, jota verrataan sumeiden merkkijonomenetelmien avulla hakukantaan. Puhujariippumattomuus on haaste puheentunnistukselle käytetystä menetelmästä riippumatta.

Katso myös[muokkaa | muokkaa wikitekstiä]

Lähteet[muokkaa | muokkaa wikitekstiä]

  • Informaatiotutkimus 1 (HTML) (Tiedon organisointi, luku 5) 2005. Tampereen yliopisto, Otavan Opisto / Internetix. Arkistoitu 22.12.2015. Viitattu 2.12.2015. (suomeksi)
  • Järvelin, Sormunen: ”Tiedon tallennus ja haku”, Ote informaatiosta. Johdatus informaatiotutkimukseen ja interaktiiviseen mediaan, s. 155-207. BTJ Kustannus, 2010.
  • Patosalmi: ”Organisaatioiden ratkaisut ongelmiin”, Sosiaalisen median uhat yksittäisille käyttäjille - yliopisto-opiskelijan näkökulma, s. 30-32. Oulun yliopisto, 2014.
  • Web of Science (HTML) (Etusivu) 2015. Thomson Reuters. Viitattu 2.12.2015. (englanniksi)

Viitteet[muokkaa | muokkaa wikitekstiä]

  1. a b c Järvelin, Sormunen: ”Tiedon tallennus ja haku”, Ote informaatiosta. Johdatus informaatiotutkimukseen ja interaktiiviseen mediaan, s. 188. BTJ Kustannus, 2010.
  2. How Google Search Works google.com. Viitattu 22.3.2018.
  3. Patosalmi, Matias: Sosiaalisen median uhat yksittäisille käyttäjille - yliopisto-opiskelijan näkökulma, s. 31. Oulun yliopisto. Teoksen verkkoversio (pdf).
  4. a b c d e f g Alaterä, Halttunen, Sormunen, E:"Internetix, 2001-2005, Osa 5. Sisällönkuvailun perusteet.
  5. Järvelin, Sormunen: ”Tiedon tallennus ja haku”, Ote informaatiosta. Johdatus informaatiotutkimukseen ja interaktiiviseen mediaan, s. 184-185. BTJ Kustannus, 2010.
  6. Korenius: "Hierarkkinen klusterointi tiedonhaussa" Tampereen yliopisto, 2003, https://tampub.uta.fi/handle/10024/91015[vanhentunut linkki]
  7. Järvelin, Sormunen: ”Tiedon tallennus ja haku”, Ote informaatiosta. Johdatus informaatiotutkimukseen ja interaktiiviseen mediaan, s. 191-192. BTJ Kustannus, 2010.
  8. http://smmry.com/about
  9. Rintala: "Automaattinen tekstin tiivistäminen" Tampereen yliopisto, 2001, https://tampub.uta.fi/handle/10024/88688 (Arkistoitu – Internet Archive)
  10. Thomson Reuters: ”Web of Science” Thomson Reuters, 2015, http://wokinfo.com/
  11. a b Järvelin, Sormunen: ”Tiedon tallennus ja haku”, Ote informaatiosta. Johdatus informaatiotutkimukseen ja interaktiiviseen mediaan, s. 202-205. BTJ Kustannus, 2010.
  12. Patosalmi: "Sosiaalisen median uhat yksittäisille käyttäjille - yliopisto-opiskelijan näkökulma" Oulun yliopisto, 2014, s. 31, http://herkules.oulu.fi/thesis/nbnfioulu-201405281529.pdf
  13. Driessen, Dürmuth: "Achieving Anonymity Against Major Face Recognition Algorithms" Ruhr-University Bochum, 2013, s. 1,10, https://eprint.iacr.org/2013/009.pdf