Hakurobotti

Wikipedia
Loikkaa: valikkoon, hakuun

Hakurobotti on tietokantaohjelma, joka hakee selaimen tapaan webin palvelimissa olevia verkkosivuja, indeksoi eli tallentaa niistä tiedonhakua varten tiettyjä kenttiä. Robotin tallentamien tietojen pohjalta luodaan tai päivitetään tietokanta, josta Internetin käyttäjä voi tehdä hakuja.

Robotti voi käydä läpi kaikkia palvelimia tai vain esimerkiksi suosituimpien palvelimien dokumentteja. Robotit voivat indeksoida koko tekstin tai otsikon ja pari ensimmäistä lausetta tai URL-osoitteet tai META-elementin. Ne poistavat tekstistä yleiset sanat (prepositiot, artikkelit jne.) ja sanojen päätteet ja muodostavat tietokannan, jossa jokainen termi viittaa ko. termiin viittaavaan dokumenttiin.

Koska jotkin hakurobotit antavat liian paljon linkkejä, on kehitetty rypästäviä eli klusteroivia hakurobotteja, jotka eivät ilmoita samaa linkkiä kahdesti ja jotka ryhmittelevät hakemansa linkit.

Hakurobottien toimintaa voidaan rajoittaa robots.txt-tiedostolla. Tunnettujen hakukoneiden hakurobotteja voidaan sen avulla estää hakemasta yksittäisiä verkkosivuja, niitä sisältäviä hakemistoja tai kaikkia verkkotunnuksella olevia sivuja.

Tunnettuja hakurobotteja[muokkaa | muokkaa wikitekstiä]

Ryhmitteleviä hakurobotteja[muokkaa | muokkaa wikitekstiä]

Aiheesta muualla[muokkaa | muokkaa wikitekstiä]