Hakukoneiden arviointi

Hakukone

Arvioinnin metodit

Arvioidut hakukoneet


Hakukone

Hakukoneet (search engines) ovat palveluita, jotka palvelun käyttäjän antamien hakukomentojen perusteella etsivät sivujen URL -osoitteita robottinsa keräämistä indekseistä. Hakukone on siis eri asia kuin hakurobotti, hakurobotti indeksoi tietoja tietokantaan, hakukone on taas käyttöliittymä ja mekanismi, jolla tiedonhakija hakee tietoja tietokannasta. Niin sanotut meta -hakukoneet hyödyntävät useita yksittäisiä hakukoneiden tietokantoja yhtä aikaa. Niiden käyttö voi tuntua tehokkaalta ja yksinkertaiselta, mutta erilaisten hakumenetelmien, verkon kuormituksen ja tulosten rajoitetun näyttömahdollisuuden vuoksi ne eivät ole suositeltavia. [5]

WWW:ssä on myös useita alan-, paikan- ja aiheenmukaisia hakemistoja (esim. Yahoo , WWW Virtual Library ja suomalainen Serveri), jotka ovat ihmisten lajittelemia, toisin kuin hakukoneiden tiedostot, jotka ovat puhtaasti hakurobottien indeksoimia. Tämä tekee hakemistojen tiedoista luotettavampia, mutta toisaalta tiedon etsiminen voi pitkien hierarkioiden vuoksi olla työlästä, eivätkä hierarkiat aina ole loogisia. Lisäksi indeksit ovat paljon suppeampia kuin robottien keräämät, ja tietojen päivittäminen hidasta. Usein hakemistojen yhteydessä on sanahakumahdollisuus, ja monissa sanahakupalveluissa tarjotaan myös aiheenmukaisia luetteloita haun tueksi. Hakemistot ja hakukoneet kuitenkin painottavat eri asioita, hakemistot lisäävät kaiken indeksoimansa hakemistoon ja sanahaulla on mahdollista etsiä tietoa sieltä. Hakukoneet taas hakevat sanahaulla laajasta tietokannastaan, josta vain hyvin pieni osa on järjestetty hierarkiseksi hakemistoksi. Hakukoneiden ja hakemistojen yhteistyö ja sulautuminen yhdeksi palvelusivuksi lisääntyy jatkuvasti, kumpikaan hakutapa ei yksinään näytä riittävän.


Sivun alkuun | Sisällysluetteloon



Arvioinnin metodit

Hakurobotteja on arvioitu suorittamalla koehakuja. Osan koehauista tein "syvempänä". Muotoilin haut niin tarkoiksi, että tulosjoukon pienuuden ansiosta pystyin käymään kaikki dokumentit läpi. Tällä tavalla halusin arvioida haun tarkkuutta ja tulosten relevanssia. Loput hauista tein saannin arvioimiseksi. Näiden hakujen tuloksia vertailin vain tulosjoukon koon mukaan.

Toisaalta arvoin hakukoneita kvalitatiivisesti, kiinnitin huomiota hakumahdollisuuksiin, käytön opastukseen, tulosten esittämiseen, haun uudelleenmuotoilumahdollisuuteen, indeksoinnin monipuolisuuteen ja dokumentin tekijän mahdollisuuksiin vaikuttaa siihen. Kvalitatiivinen arviointi on seuraavana hakukoneiden esittelyn yhteydessä.

Koehakujen lisäksi tein myös koedokumentin. Dokumentti on Virtuaalikirjaston sivu saamen kielestä ja kulttuurista. Seurasin, milloin dokumentti löytyi eri hakupalveluista ja miten robotit olivat indeksoineet sen. Koedokumentista enemmän.


Sivun alkuun | Sisällysluetteloon



Arvioidut hakukoneet

Ihmemaa

Ihmemaa -hakupalvelun omistaa PiiPää Oy. Ihmemaan hakurobotin Hämähäkin tavoitteena on kerätä indeksi kaikista .fi -loppuisten palvelimien www-dokumenteista. Lisäksi on indeksoitu uutisryhmien artikkeleita. Kesäkuussa -96 dokumentteja on indeksoitu noin 350 000. Hämähäkki indeksoi dokumentin koko tekstin (kaiken container -tagien sisällön). Se poistaa html-tagit ja korvaa ne sanaväleillä ja indeksoi kaiken mitä jää jäljelle, myös META -tagien sisällön. Kuvien alt -tekstejä ei indeksoida. Tietokantaa päivitetään noin kerran kahdessa kuukaudessa. Muuttuneita tai uusia kotisivuja voi ilmoittaa Ihmemaan yhteydessä olevalla lomakkeella tai sähköpostin kautta, ja ilmoitetut muutokset päivitetään viikottain. Hämähäkki käy palvelimet läpi seuraamalla linkkejä niin pitkälle kuin niitä palvelimessa on, ja seuraa sitten URL -osoitteita muihin palvelimiin. [6][7]

Ihmemaan haku

Hakulauseketta voi muotoilla seuraavasti [8]:

Isot ja pienet kirjaimet katsotaan samoiksi. Haussa voi käyttää kaikkia kirjaimia ja numeroita, muttei joitain erikoismerkkejä kuten @.

Käyttöliittymä on selkeä ja apua hakuun löytää helposti. Haun tuloksissa ei ole tiivistelmää, ainoastaan dokumentin nimi, koko merkkeinä ja URL -osoite. Lisäksi näkyy milloin dokumentti on indeksoitu. Haun uudelleenmuotoilu onnistuu, hakuruutu näkyy tulosjoukon yllä. Viitteet on järjestetty hakusanan/-sanojen esiintymismäärän mukaan.

Ihmemaa -hakuun

Sivun alkuun | Sisällysluetteloon


Alta Vista

Alta Vista on Digitalin kehittämä hakupalvelu. Alta Vistan päämääränä on kerätä kaikki WWW:n ja Usenet -ryhmien dokumentit tiedostoonsa. Alta Vistan indeksi kattaa tällä hetkellä (kesäkuu -96) yli 30 miljoonaa dokumenttia 275 000 palvelimesta ja 3 miljoonaa artikkelia 14 000 uutisryhmästä. Hakurobottina on Scooter, jota mainostetaan maailman nopeimpana hakurobottina.

Alta Vistan robotti indeksoi koko tekstin, myös "stopword":it ja käyttää dokumentin muutamaa ensimmäistä lausetta dokumentin tiivistelmänä esittäessään viitteitä. Alta Vista suosittelee kuitenkin kirjoittamaan itse dokumentin kuvauksen META -kenttään. Tällöin se ottaa dokumentin kuvausta tiivistelmäksi ja indeksoi myös mahdolliset META:an kirjoitetut avainsanat. Scooter indeksoi lisäksi dokumentin URL:n, koon ja linkit muualle.

Alta Vista tarjoaa kahdentasoista hakumahdollisuutta; yksinkertaista ja edistyneempää. Hakua voi muotoilla seuraavasti [9]:

Yksinkertainen haku:

Edistyneempi haku:

Alta Vista tekee eron isojen ja pienten kirjainten välillä ja ymmärtää myös skandit. Edistyneemmässä haussa dokumentit ovat relevanssijärjestyksessä vain, jos määrittää toiseen hakuruutuun sanat, joiden mukaan relevanssi arvioidaan. Muuten järjestys on mielivaltainen. Jokin sana kannattaa siis ruutuun kirjoittaa löytääkseen haluamiaan dokumentteja mahdollisesti useiden tuhansien viitteiden joukosta.

Alta Vistan hakumahdollisuudet ovat todella monipuoliset. Käyttöliittymä on selkeä ja yksinkertainen ja hakuohjeet löytyvät suhteellisen helposti. Ehkä yksinkertaisessa haussa haun muotoilun voisi tehdä enemmän valikkopohjaiseksi jotta hakua tulisi muotoiltua myös siinä. Alta Vistan tulosjoukot ovat yleensä niin suuria pelkillä sanoilla haettaessa, että järkevään tulokseen päästään vasta kun hakua on muotoiltu. Hakutulokset saa joko tiiviissä muodossa, standardina tai yksityiskohtaisina, mutta standardiviitteellä ja yksityiskohtaisella ei näytä olevan mitään eroa. Tiivistelmät ovat hiukan kömpelöitä suoraan dokumentin alusta otettuna, mutta tähänhän dokumentin tekijä voi vaikuttaa kirjoittamalla kuvauksen dokumentin sisällöstä. Kuvauksen lisäksi Alta Vista kertoo dokumentin nimen, URL:n, koon tavuina ja päivämäärän jolloin dokumenttia on viimeksi modifioitu. Haun uudelleenmuotoilu on helppoa, hakuruutu näkyy jokaisen sivun ylälaidassa. Alta Vistan linkit ovat yleensä ajantasalla ja toimivia, ja haku sujuu nopeasti.

Alta Vista -hakuun

Kirjoituksia Alta Vistasta:

Sivun alkuun | Sisällysluetteloon


Excite

Excite (entinen Architext) on Standfordin yliopiston opiskelijanuorukaisten vuonna 1993 kehittämä hakupalvelu. Hakurobottina on Architext -spider. Exciten tietokantaan on indeksoitu yli 50 miljoonaa web-sivua, sekä parin viimeisen viikon uutisryhmien artikkelit.Tietokannan koon kasvaessa haku on hiukan hidastunut. Haun ohessa Excite tarjoaa kommentoidun aiheenmukaisen hakemiston ja uutisartikkeleita. Excite indeksoi sivuja niiden suosituimmuuden perusteella; mitä enemmän sivulle osoittaa linkkejä toisilta sivuilta, sitä varmemmin Exciten robotti indeksoi sivun.

Excite indeksoi koko tekstin, ei kuitenkaan META -tageja, uskoen niitä käytettävän väärin, yritettäessä manipuloida hakukonetta. [10] Exciten erikoisuus on indeksoiminen käsitteen mukaan (by concept). Excitella ei käännettyä tietokantaa kuten hakukoneilla yleensä, vaan vektoritietokanta, joka mahdollistaa erilaisten käsiteklustereiden muodostamisen. Exciten robotti tekee tilastollista analyysiä sanojen välisistä suhteista indeksoidessaan dokumentteja ja luo näin mahdollisuuden hakea käsitteellisesti läheisiä sanoja. Robotti valitsee dokumentin avainsanat ja kuvauksen käsitepohjaisen indeksoinnin avulla; se etsii dokumentin hallitsevat termit ja teemat ja etsii muutaman lauseen joissa eniten esiintyy näitä termejä dokumentin kuvaukseksi. Termit ja niiden läheiset käsitteet toimivat dokumentin avainsanoina.

Exciten tarjoamat hakumahdollisuudet :

Excite kehoittaa hakemaan luonnollisen kielen lauseilla. Exciten hakumahdollisuudet ovat todella niukat, ja tietokannan koon kasvaessa hakulauseen muotoilumahdollisuuksia täytyy lisätä. Excite ei huoli ääkkösiä, vaan korvaa ne tyhjällä merkillä. Isot kirjaimet erotetaan pienistä. Excite näyttää hakutulokset arvioidussa relevanssijärjestyksessä, johon vaikuttaa hakusanojen esiintymismäärä suhteessa kaikkiin dokumentin sanoihin. Tiivistelmä käsittää muutaman dokumentin sisältämän lauseen, eikä ole useinkaan kovin osuva. 29.7. 1996 Exciten kotisivu muutti muotoaan, ja haun valikko by concept/by keywords oli poistettu, tämä valinta ei ollutkaan vaikuttanut haun tuloksiin millään tavalla. Samalla hakuohjeiden löytäminen oli muuttunut mutkikkaammaksi. Excite näyttääkin tarjoavan entistä enemmän hakemistoja tiedonhakuun.

Excite -hakuun

Enemmän Excitesta:

Sivun alkuun | Sisällysluetteloon


Infoseek

Infoseekin perusti Steven Kirsch vuonna 1994. Infoseek kertoo indeksoineensa yli 50 miljoonan sivun kokotekstin. Se indeksoi www-sivuja, Usenet-keskusteluryhmiä (FAQ -ryhmiä voi hakea erikseen), e-mail -osoitteita, kuvia ja java-appleteja.

Infoseek tarjoaa kahdenlaista hakusivua; Ultrasmart tai Ultraseek. Oletussivuna oleva Ultrasmart on tarkoitettu tiedonhakijoille, jotka eivät ole tottuneet tekemään tarkkoja tiedonhakuja, haun yhteyteen on liitetty hakemistoja ja Ultrasmart tarjoaa tulosten yhteydessä hakuun liittyviä aiheita ja uutisia. Ultraseek taas tarjoaa mahdollisuuden muodostaa spesifimpia hakulauseita, hakea kuvatietokannasta tai rajata haku tiettyyn elementtiin. Infoseek suosittelee META -kenttien käyttöä. Dokumentin kuvaus otetaan ensisijaisesti META -kentästä, jos sitä ei ole, kuvaukseksi tulee dokumentin 200 ensimmäistä merkkiä. Infoseek huomioi myös META:ssa olevat avainsanat muun tekstin lisäksi. Kuitenkin jos toistaa jotain avainsanaa enemmän kuin 7 kertaa, Infoseek jättää koko avainsanakentän huomiotta. Infoseek indeksoi myös kuvien alt -kentän, mutta kehottaa kuvailemaan kehyksien sisällön META -kentässä. Jos Javascript muodostaa ensimmäiset 200 merkkiä dokumentista, kuvaus on syytä tehdä META:an, koska Infoseek ei indeksoi sitä. Infoseek indeksoi yleensä ylimmän tason dokumentit, ei hierarkiassa syvemmällä olevia sivuja.[11][12]

Infoseek antaa seuraavanlaisia mahdollisuuksia muotoilla hakulausetta [13].

Ultrasmart:

Ultraseek:

Muuten sama kuin Ultrasmart, hakemistot vain puuttuvat sivulta ja haun voi kohdistaa tiettyyn elementtiin; LINK-, URL- tai TITLE -kenttään. Ultraseek -sivulta pääsee kuvahakusivulle. Smart info -linkin kautta löytää java-applet -haun.

Infoseek järjestää dokumentit oletetun relevanssin mukaiseen järjestykseen, johon vaikuttaa avainsanojen esiintymismäärä dokumentissa ja avainsanojen harvinaisuus tietokannan kaikissa dokumenteissa, harvinaisemmille sanoille annetaan enemmän painoa. Jokaisesta viitteestä on lyhyt tiivistelmä. Haun uudelleenmuotoilu onnistuu, hakulause näkyy jokaisen tulossivun alalaidassa. Haun voi kohdistaa myös jo saatuun tulosjoukkoon. Hakukone huomioi isot kirjaimet erikseen, muttei erottele skandeja a:sta ja o:sta. Infoseek katkaisee sanat automaattisesti. Kaikilla sanoilla voi hakea, Infoseek ei poista ns. stopwordseja ja numeroita hakulauseista tai dokumenttien tekstistä indeksoidessaan niitä. Käyttöliittymä on selkeä ja yksinkertainen. Infoseek on ympännyt vähän kaikenlaista hakusivulleen ja kokonaisuus on hiukan sekava.

Infoseek -hakuun

Enemmän Infoseekista

Sivun alkuun | Sisällysluetteloon


Lycos

Lycos on Carnegie-Mellon yliopistossa kehitetty hakurobotti, nykyisin itsenäinen yritys, Lycos Inc. Lycosin robotti käy läpi www-, gopher- ja ftp -palvelimet. Robotti selaa palvelimet korkeintaan kaksi kertaa kuukaudessa. Robotti ei indeksoi koko tekstiä, vaan dokumentin URL:n, nimen, ensimmäiset 200 merkkiä pää- ja alaotsikoista, linkit, 20 ensimmäistä riviä tai 20% dokumentista, dokumentin koko tavuina ja sanoina, päiväys jolloin dokumenttia on viimeksi päivitetty ja 100 dokumentin merkitsevintä sanaa. Nämä 100 sanaa robotti selvittää algoritmilla, jossa otetaan huomioon sanan sijainti ja frekvenssi. Lycos -hakupalvelun yhteydessä on monenlaisia aiheenmukaisia hakemistoja ja linkkilistoja, sekä kuva- ja äänihaku. Lycosiin on indeksoitu yli 50 miljoonaa dokumenttia. Mukaan on otettu myös ääni-, video- ja ohjelmisto-osoitteita.

Lycosin indeksoinnista kerrottiin 28.6 alla olevat tiedot.[14]

Lycosin robotti indeksoi ainoastaan lukijalle www-dokumentista näkyvän tekstin. Näitä se ei indeksoi:

Jos dokumentissa on paljon yllä mainittuja osia, Lycos ehdottaa tekemään text-only -version dokumentista robotteja ja tekstipohjaisia selaimia varten. Lycosin robotti indeksoi sanat avainsanoiksi sitä varmemmin, mitä lähempänä dokumentin alkua ne ovat. Siksi TITLE -kenttään kannattaa kirjoittaa mahdollisimman kuvaava otsikko, samoin dokumentin pääotsikko ja ensimmäiset lauseet kannattaa kirjoittaa harkiten. "Spamming" tai "spamdex" eli sanojen toistaminen moneen kertaan vain jotta sijoittuisi tulosjoukon alkupäähän näillä sanoilla haettaessa, ei enää onnistu Lycosissa. Sana voi toistua kuitenkin luonnostaan useita kertoja dokumentissa ja robotin voi olla vaikea erottaa tämä tarkoituksellisesta sanojen toistosta. Dokumenttiin viittaavien linkkien määrä kasvattaa dokumentin arvioitua relevanssia.[15][16][17]

Lycos tarjoaa seuraavia hakumahdollisuuksia [18]:

Hakulausetta voi muotoilla näpäyttämällä "customize your search" -tekstiä. Lycos järjestää tulosjoukon relevanssijärjestykseen, relevanssi on arvioitu prosenttiluvulla (100 % parhaalle). Dokumentin sijoituksen tulosjoukossa ratkaisee hakusanojen esiintymismäärä dokumentissa, niiden läheisyys toisiinsa ja sijainti dokumentissa sekä dokumentin suosittuvuus. Haun muotoileminen valikoista on yksinkertaista, mutta rajoittaa esimerkiksi Boolen operaattoreiden monipuolista käyttöä; yhdessä hakulauseessa ei voi käyttää kaikkia operaattoreita. Lycos näyttää hakusanan/-sanojen kaikki löytyneet muodot. Sanoista voi valita jonkun taivutusmuodon ja etsiä vain ne dokumentit joissa sanamuoto esiintyy. Tiivistelmä saadaan muista dokumenteista ko. dokumenttiin löytyvien linkkien teksteistä. Haun uudelleenmuotoilu onnistuu, hakulause on tulossivun alalaidassa. Lycos tunnistaa skandit. Kuva- ja äänitiedostoja haetaan yksinkertaisella sanahaulla.

Lycos -hakuun

Sivun alkuun | Sisällysluetteloon


WebCrawler

WebCrawler on America Onlinen omistuksessa oleva hakukone, hakurobotin nimi on sama kuin palvelunkin. WebCrawler oli ensimmäinen koko tekstin indeksoiva hakurobotti WWW:ssä. Robotin on kehittänyt Brian Pinkerton.

Hakukoneeseen on indeksoitu 145 166 palvelinta (huhtikuu -96). WebCrawlerin kerrotaan keräävän vain suosituimmat sivut indeksiinsä, sivu on suosittu jos siihen osoittaa suuri määrä linkkejä muista dokumenteista.WebCrawler pyrkii indeksoimaan mahdollisimman monta palvelinta, mutta indeksoi niistä vain hierarkian ylimmän tason dokumentit. Robotti indeksoi koko tekstin, ei kuitenkaan META -tageja. WebCrawler esittää tulosjoukon arvioidussa relevanssijärjestyksessä. Se laskee relevanssia kuvaavan luvun jakamalla avainsanojen esiintymismäärän dokumentin kaikkien sanojen määrällä ja järjestää dokumentit prosenttiluvun mukaan, suurin ensin.[19][17][20]

WebCrawler tarjoaa seuraavat hakulauseen muotoilumahdollisuudet [20]:

WebCrawler ei tee eroa isojen ja pienten kirjainten välillä, mutta tunnistaa skandit. Halutessaan linkeistä tiivistelmän ne saa näkyviin painamalla "show summaries". Dokumentin kohdalla voi lukea silloinkin "no summaries available", mihin on yleensä syynä se, että URL:n takana on vain 404 -ilmoitus, tai dokumentin alussa on kuvia ja otsikoita, joita WebCrawler ei huoli tiivistelmäksi. Tiivistelmät ovat usein hiukan kummallisia, ne on nähtävästi mudostettu niistä sanoista ja lauseista, jotka ovat keskimäärin dokumenteissa harvinaisia. Käyttöliittymä on yksinkertainen ja apua hakuun löytää helposti. WebCrawlerin Help on laaja ja perusteellinen.

WebCrawler -hakuun

Sivun alkuun | Sisällysluetteloon