Indeksointi WWW:ssa

2. Indeksointi WWW:ssa

2.1. Hakurobotit

2.2. Metadata

2.1. Hakurobotit

Hakurobotit (robots, spiders, webcrawlers) ovat ohjelmia, jotka automaattisesti selaavat WWW-sivuja ja indeksoivat niitä omiin tiedostoihinsa. Alunperin niitä kehitettiin kartoittamaan WWW:n tietoavaruuden laajuutta laskemalla dokumentit palvelin palvelimelta. Tehokkaan tiedonhaun työvälineen tarve kuitenkin hiukan muutti robottien tarkoitusta, nykyisin niiden päätehtävä on kerätä indeksiä WWW-sivuista tiedonhakua varten. Osa roboteista kiertää palvelimia edelleen vain kerätäkseen tilastoja tai tarkistaakseen onko palvelimen dokumenteissa tapahtunut muutoksia.

Indeksoidessaan WWW-sivuja hakurobotit käyttävät eri periaatteita. Robotti voi käydä läpi kaikkia palvelimia, tai vain esimerkiksi suosituimpien palvelimien dokumentteja. Toiset robotit indeksoivat koko tekstin, toiset otsikon ja pari ensimmäistä lausetta tai dokumentissa olevat URL-osoitteet, ja muutamat indeksoivat myös META-elementin tai muita piiloelementtejä. Myös indeksoinnin syvyydessä on eroja. Toiset robotit indeksoivat vain "ylimmän tason" dokumentit (breadth-first), toiset taas kaikki dokumentit syvimmästä tasosta lähtien (depth-first). Robotit siirtyvät dokumentista toiseen linkkejä pitkin, ja sen seurauksena eniten viitatut dokumentit tulevat varmimmin indeksoiduksi. Internet -dokumenttien indeksoinnissa on useita ongelmia fyysisten dokumenttien indeksointiin verrattuna; dokumenttien valtava määrä, dokumenttien lyhytikäisyys ja dynaamisuus, dokumenttien vaihteleva laatu ja uusien dokumenttien määrän jatkuva kasvu.[1] Robotit poistavat tekstistä yleensä ns. stopword:t eli yleiset sanat (prepositiot, artikkelit jne.) ja sanojen päätteet ja muodostavat jäljelle jääneistä sanoista käännetyn tietokannan, jossa jokainen termi viittaa dokumentteihin, jotka sisältävät ko. termin. Excitella on vektoritietokanta, jossa jokainen dokumentti on ilmaistu vektorina moniulotteisessa avaruudessa. Vektorien välisiä kulmia vertailemalla voidaan verrata niiden samankaltaisuutta, ja palauttaa hakuun myös hakutermejä lähellä olevat dokumentit, ei ainoastaan hakutermeihin täysin täsmääviä dokumentteja. Exciten käsite -haku tarkoittaa juuri sitä, että Excite etsii vektorien samankaltaisuuden perusteella myös dokumentit, joissa esiintyy hakusanojen läheisiä termejä.

Hakurobotit ovat tällä hetkellä ainoa tarpeeksi tehokas keino Internetissä olevan tiedon indeksointiin. Eri hakupalvelut käyvät kovaa kilpailua keskenään siitä, kuka on indeksoinut suurimman palan WWW:stä ja näin pystyy palauttamaan suurimman hakutuloksen. Kattavuus on vain yksi puoli hakupalvelun laatua, valtavat tulosjoukot ilahduttavat harvoin. Siksi hakumahdollisuuksien tulisi kehittyä tietokannan koon kasvaessa. Hakukoneiden hakumahdollisuudet vaihtelevat yksinkertaisesta sanahausta Boolen logiikkaan ja haun kohdistamiseen tiettyn kenttään. Yleensä haku on pyritty tekemään mahdollisimman yksinkertaiseksi, ja mahdollisuudet tehdä tarkempia hakuja joko puuttuvat kokonaan tai edistyneempi hakusivu tarjotaan linkin takana. Dokumenttien määrä (tietysti hakurobotin tehokkuudesta ja tietokannan koosta riippuen) on usein yksittäisillä sanoilla haettaessa niin suuri, ettei edes dokumenttien järjestäminen oletetun relevanssin mukaan aina auta löytämään osuvia sivuja tulosjoukon ensimmäisten viitteiden joukosta. Siksi eri tapoihin muotoilla hakua kannattaa kiinnittä huomiota ja nähdä hiukan vaivaa hakulauseen muotoilussa. Mahdollisen metadatan indeksoiminen voi tulevaisuudessa parantaa hakujen tarkkuutta.

Robotit kuormittavat palvelimia selatessaan niiden dokumentteja, hiukan vastaavasti kuin jos iso ihmisryhmä haluaa yhtä aikaa selata yhden palvelimen dokumentteja. Robotteja ei tarvitse olla kuin yksi, mutta selailu on nopeaa ja palvelimen toiminta usein hidastuu robotin vierailun ajaksi. Robotit indeksoivat kohteena olevasta palvelimesta yleensä kaiken julkisesti esillä olevan. Toisinaan tieto on sellaista, ettei sillä ole mitään merkitystä kenellekään organisaation ulkopuoliselle, toisinaan nopeasti muuttuvaa tai vanhentunutta. Palvelimen ylläpitäjä voi suojata haluamiaan dokumentteja tai vaikka koko palvelimen robottien vierailulta käyttämällä Martijn Kosterin kehittämää Standard for Robot Exclusion-tiedostoa (puhutaan myös robots.txt -tiedostosta). Tiedostossa voi määritellä robotin selailumahdollisuudet palvelimessa. Se on lyhyt ja helppo tehdä, ohjeet löytyvät em. dokumentista. Yksityiskohtaisempia ohjeita on dokumentissa Robot Exclusion Standard Revisited. Kaikki hakukoneet eivät kuitenkaan vielä tottele tiedostoa, Robottitietokannasta voi tarkistaa, mitkä robotit noudattavat ehdotettua standardia. Kaikki tässä tutkimuksessa mukana olevat hakurobotit noudattavat standardia tällä hetkellä, ja todennäköisesti yhä useammat robotit tulevat niin tekemään tulevaisuudessa.

Tietoa hakuroboteista

Web-robottien kotisivu

Agents and Robots

CS-HKUST WWW Index Server: FAQ

Web Developer's Virtual Library: Robots

David Echmann: Ethical Web Agents

Robot and Search Engine FAQ

PC Magazine -lehden artikkeli Crawling the Web

Sivun alkuun | Sisällysluetteloon

2.2. Metadata

Koko tekstin indeksoiminen on varmaankin kaikkein informatiivisin tapa indeksoida teksti, mutta robotit eivät aina onnistu muodostamaan osuvaa kuvausta dokumentin sisällöstä, eivätkä pelkkä dokumentin otsikko, sijainti ja lyhyt automaattisesti muodostettu kuvaus anna tarpeeksi tietoja dokumentista. Lisäksi muiden kuin tekstidokumenttien indeksointi jää kovin epäinformatiiviseksi, jos niihin ei liitetä tietoja jotka kuvaavat dokumentin sisältöä ja muita piirteitä. Dokumenttien sisällönkuvailuun ja muidenkin dokumenttia koskevien tietojen ilmoittamiseen käytetään metadataa. Metadata tai metainformaatio tarkoittaa tiedoa dokumentista; tietoa dokumentin sisällöstä, muodosta, sijainnista ja ylläpidosta. Metadatan tarkoitus on helpottaa tiedonhakua, -hallintaa ja paikantamista.

Metadata voidaan esittää kolmella tavalla suhteessa dokumenttiin[2]:

Metadata talletetaan erilleen dokumentista. Se voidaan tarvittaessa noutaa erikseen.

Metadata ja dokumentti on sisällytetty yhteen objektiin, joka identifioi ja tarjoaa dokumentin pyydettäessä.

Metadata on upotettu dokumenttiin.

META -tag on html-dokumentin osa, jota käyttämällä voi upottaa metatietoja itse dokumenttiin. Sivun tekijä voi esittää META -elementissä tietoja esimerkiksi dokumentin muodosta ja sisällöstä. Siihen voi esim. kirjoittaa dokumentin avainsanat ja lyhyen kuvauksen dokumentin sisällöstä. Metatietoja voi esittää myös muilla tavoilla, mutta META -elementti on yksinkertainen ja robottien vähitellen tunnistama tapa esittää kuvailutietoja dokumentista. META -tageja voi luoda esimerkiksi Dublin Core META Tag Builderin avulla, lomakkeisiin kirjoitetaan vain haluttu tieto ja ohjelma luo Dublin Core formaatin mukaiset metatiedostot.

Dublin Core Metadata Element Set on ehdotus Internet -dokumenttien metadatan sisällön formaatiksi. Se on pyritty pitämään tarpeeksi yksinkertaisena että sen käyttö tulisi yleiseksi WWW -dokumenteissa, mutta toisaalta se tarjoaa laajennus- ja tarkennusmahdollisuuksia haluttaessa muodostaa kattavampi ja informatiivisempi metatiedosto. Dublin Core on vain metadatan sisällön formaatti, se voidaan liittää HTML -dokumenttiin joko LINK -tagin avulla itsenäisenä tiedostona, META -tagien sisälle upotettuna dokumenttiin, ja se voidaan liittää myös muihin kuin HTML -dokumentteihin. Dublin Core kuvaa siis vain metadatan kaavan, eikä rajoitu johonkin tiettyyn esitystapaan. Dublin Core:n puutteeksi voi lukea sen, ettei sen perusrakenteeseen ole sisällytetty usean robotin jo indeksoimia "description"- ja "keywords" -kenttiä. "Descrtiption" -kentän sijaan Dublin Core käyttää "subject" -kenttää.

HTML ei tarjoa tarpeeksi rakennetta dokumentiin, jotta siitä voitaisiin automaattisesti löytää dokumentin sisältö ja konteksti. Vaihtoehdoksi on tarjottu SGML:n käyttämistä, se on "rakenteisempi" ja tarjoaisi enemmän informaatiota automaattista indeksointia varten.

Metadatan yhteydessä esille nousee myös URN:n käyttö URL:N sijasta. URN (Uniform Resource Name) on dokumentin tunniste. Kuten ISBN kirjoille, URN on uniikki dokumentin nimi, ja voi esiintyä useita identtisiä dokumentteja joilla on sama URN mutta eri URL. URN voisi olla kuvaavampi ja helpompi muistaa kuin URL. Toisin kuin URL, joka identifioi dokumentin sijainnin tietyssa palvelimessa ja hakemistossa tietyn nimisenä tiedostona, URN ei kerro dokumentin sijaintia. Haettaessa dokumenttia käyttämällä URN:a pyyntö menee resoluutiopalvelimelle, joka muuttaa URN:n URL:ksi, valiten mahdollisesti useista URL:sta hakijalle parhaiten soveltuvan, eli mahdollisimman lähellä hakijaa sijaitsevan dokumentin, ja jos sen saamisessa on ongelmia, kokeilee toista URL:a. Käyttäjä ei huomaa eroa verrattuna URL:n käyttöön. URN:n dokumentille antaisi esimerkiksi resoluutiopalvelimen ylläpitäjä, ei dokumentin tekijä. Nimi voisi olla kuvaava, ja informoida jo sellaisenaan dokumentin sisällöstä. Toisaalta URN:n on suositeltu olevan mahdollisimman "neutraali" eikä sen siis tulisi kuvata dokumentin sisältöä, vaan mahdollinen metainformaatio tulisi tarjota jollain muulla mekanismilla.[3] Todennäköisesti URN:t tulevat näyttämään samanlaisilta kuin URL:t. Hakukoneita ajatellen tulosten laatu paranisi koska URN:n käyttö poistaisi päällekkäiset ja vanhentuneet linkit. Ongelmia URN:n käyttöönotossa voi tuottaa dokumenttien julkaisijoiden valtava määrä ja resoluutiopalvelinten ajantasalla pitäminen. Lisäksi hakurobottien tulisi muuttaa indeksointiaan, ja indeksoida dokumentin URL:n sijasta URN. Vaikka URN on useilla tahoilla hyväksytty ja odotettu ratkaisu, sen soveltaminen käytäntöön ei ole vielä onnistunut. Käynnissä on kuitenkin useita kokeiluja, esimerkiksi TURNIP -projekti ja PURL.[4] URC (Uniform Resource Characteristics, joskus Catalogue) sisältää metadataa URN:lle. Jos ja kun URN:t tulevat käyttöön, URC on mahdollinen tapa ilmaista dokumentin sisältö ja muita piirteitä kunkin URN:n kohdalla ennen haun osoittamista varsinaiseen dokumenttiin.

Metadatan esittämisessä on ongelmia, kuten eri versiot samasta dokumentista. Esimerkiksi sama teksti voi esiintyä HTML-, ASCII- tai postscript-muodossa, on vielä avoin kysymys voiko näille dokumenteille antaa saman URN:n ja metatiedot. Vaikka metadatan esittämisessä saavutettaisiin yksimielisyys standardeista, niiden soveltaminen käytäntöön laajassa mitassa voi olla vaikeaa. Julkaisijoiden laajan kirjon vuoksi metadata ei tule olemaan yhdenmukaista, eikä aina edes totuudenmukaista. Tavoitteena on kuitenkin erottaa metadatan avulla laadukkaat dokumentit vähemmän tärkeistä, ja helpottaa niiden löytämistä.

Tietoa metatietojen käytöstä WWW-dokumenteissa

Embedding Metadata in HTML 2.0

Robot.txt:n upottaminen META -tageihin

OCLC/NCSA Metadata Workshop Report

"meta2" -postituslistan arkisto

Issues of Document Description in HTML

Metadata Resources

Heery, Rachel: Review of Metadata Formats

Sivun alkuun | Sisällysluetteloon