Hakukoneiden vertailu koehakujen perusteella


Hakukoneiden hakumahdollisuudet ovat hyvin kirjavia, haun tavoitteesta riippuu, mikä hakukone on parhain. Mahdollisimman paljon dokumentteja löytää hakemalla Excitesta tai Alta Vistasta, Excitessa myös viive dokumentin julkaisemisen ja löytymisen välillä on pienin. Jos haluaa nopeasti löytää jotain, Lycos ja Infoseek ovat hyviä ja yksinkertaisia valintoja. Jos näkee vähän vaivaa opetellakseen hakutavat, Alta Vista tarjoaa ehdottomasti parhaat hakumahdollisuudet, esimerkkinä haun kohdistaminen tietyyn dokumentin kenttään. Tiedonhakuihin perehtymättömälle hakuvaihtoehdot voivat kuitenkin tuntua monimutkaisilta ja työläiltä. WebCrawler tuntuu olevan osoitteiden päivityksessä hiukan jäljessä, mutta sillä voi löytää haluamastaan aiheesta muutaman dokumentin ja valitsemalla "similar pages" löytää ehkä lisää relevantteja sivuja. Haku on yksinkertainen, eikä tulosjoukon läpikäyminen hiukankin rajatuilla hakulauseilla haettaessa ole mahdotonta. Lycos ja Infoseek tarjoavat monipuolisia tietokantoja indeksoidessaan myös multimedia -tiedostoja. Ihmemaa ja Trampoliini kattavat molemmat suomalaiset dokumentit kohtalaisen hyvin ja tarjoavat myös hyvät hakumahdollisuudet.

Hakukoneet painottavat dokumentin sanoja ja arviovat dokumentin relevanssia eri tavoin. Hakusanojen esiintymistä dokumenteissa painotetaan jollain seuraavista tavoista tai yhdistelemällä niitä:

Näistä ominaisuuksista seuraa, että tulosjoukot rakentuvat eri tavoin. Suomalainen Ihmemaa järjestää dokumentit sen mukaan, montako kertaa sana esiintyy dokumentissa. Tämä on yksinkertainen ja selkeä valinta, joka toimii kohtalaisen hyvin silloin kun tulosjoukot eivät ole suuria ja dokumenttien tekijät eivät kokeile spammingia. Alta Vistassa spamming ei tuota yhtä hyviä tuloksia kuin Infoseekissa ( esim. sanalla "olympics" Infoseekin ensimmäisen kymmenen viitteen joukossa oli neljä versiota samasta, raivokkaasti muutamia sanoja toistavasta mainoksesta). Toisaalta Excitessa voi sijoittua hyvin spammingin avulla, mutta onnistua voi myös karulla dokumentilla jossa ei ole kuvien ulkopuolella kuin pari sanaa, joiden joukosta hakusana sattuu löytymään. Tämä näyttää jossain määrin vaikuttavan myös WebCrawlerissa. Alta Vistassa hakuavaimen löytyminen TITLE -kentästä tai aivan dokumentin alusta voi nostaa sijoitusta, mutta siihen vaikuttavat myös muut tekijät, selvää nimittäjää tulosjoukon alkupään dokumenteille on vaikea löytää. Hakukoneet muuttavat rankkauskriteereitään silloin tällöin, ettei manipulointi tietyllä tavalla onnistuisi.

Alta Vista tuotti suurimmat tulosjoukot ennen Exciten tietokannan uudistusta. Senkin jälkeen Alta Vista on kuitenkin hyvänä kakkosena. Alta Vistan ehdoton etu on haun nopeus ja hyvat hakulauseen muotoilumahdollisuudet. Relevanssijärjestys ei aina ole paras mahdollinen, mutta miettimällä hyvää hakulausetta Advanced -haussa voi parantaa järjestystä huomattavasti. Alta Vista onnistuu muita paremmin yhdistelmähauilla ja monimutkaisemmilla hakulauseilla haettaessa. Viive dokumentin julkaisemisen ja tietokannasta löytymisen välillä on yllättävän pitkä, koedokumenttia ei löytynyt Alta Vistan tietokannasta vielä kun kolme kuukautta oli kulunut sen julkaisemisesta ja ilmoittamisesta Alta Vistalle.

Excite voi ylpeillä suurimmilla saantiluvuilla, mutta heikoilla hakumahdollisuuksilla on vaikea löytää haluamaansa. Jos esimerkiksi hakee sanalla jossa on skandeja, Excite korvaa ne tyhjillä merkeillä ja katkaisee siis hakusanan siihen. Excite ei tarjoa mahdollisuutta korvata mitään merkkiä vapaalla muuttujalla, joten hakusana voi jäädä muutamaksi kirjaimeksi. Exciten tietokanta on kasvanut yhtäkkiä ja hakujen tulosjoukon koko kasvoi moninkertaiseksi samantien. Esimerkiksi koedokumentti saamen kielestä ja kulttuurista löytyi ensimmäisenä Exciten sivuilta 8.7. , jolloin haulla saame + kieli + kulttuuri löytyi parikymmentä dokumenttia. 17.7. dokumentteja löytyi samalla haulla jo yli 10.000. Koedokumentti oli 53 % todennäköisyydellä relevantti, eli se löytyy jostain noin 5000 relevantimmaksi arvioidun dokumentin jälkeen. Toisaalta dokumentti oli ensimmäisenä haettaessa dokumentissa olevalla otsikolla "saamen kielen ja kulttuurin tiedonlähteitä" (dokumenttia ja sen otsikoita on muutettu tämän jälkeen). Excite siis painottaa myös dokumentissa olevia otsikoita. Koedokumentin alussa oleva kuva todennäköisesti vähensi dokumentin painoarvoa, vaikka avainsanat esiintyivät dokumentin pääotsikossa ja nimessä. Relevanttien dokumenttien löytyminen on tuskin helpottunut Exciten uudistuksen myötä koska tulosjoukko on kasvanut kovin suureksi. Lisäksi Exciten robotti määrittää relevanssiuden sen mukaan, kuinka paljon hakusanoja on dokumentissa suhteessa muihin dokumenteissa oleviin sanoihin. Tästä seuraa, että tulosjoukon kärkeen voivat nousta dokumentit, joissa ei ole tekstiä juuri ollenkaan, vaan esimerkiksi ainoastaan muutama otsikko jossa hakusana esiintyy, sekä spammingin täyttämät dokumentit. Nämä eivät useinkaan ole olennaisimpia asiaa koskevia dokumentteja, ja relevanttien etsiminen selailemalla tuhansien dokumenttien tulosjoukkoa on työlästä. Exciten käsitepohjainen indeksointi laajentaa tulosjoukkoja hiukan hatarin perustein, esimerkiksi sanalla "fungicid" löytyi kyllä ensin dokumentteja, jotka käsittelivät sienimyrkkyjä, mutta 24 dokumentista viimeiset kymmenisen dokumenttia sisälsivät vain sanan Amundsen; Amundsenin taidetta, nimilistoja joissa oli mainittu Amundsen jne. Nämä oli arvioitu relevanteiksi (ei tosin kovin suurella todennäköisyydellä) koska yhden sienimyrkkyjä käsittelevän kirjan kirjoittaja oli T. Amundsen. Tällaisten dokumenttien odottaisi tulevan esiin vasta kun hakee haulla "similar pages".

Exciten ilmoittama tulosjoukon koko ei ollut luotettava. Hakusanalla fungicid Excite ilmoitti kahdella ensimmäisellä tulossivulla löytäneensä 27 dokumenttia. Viimeisellä sivulla luku oli muuttunut 24 löydetyksi dokumentiksi, ja sivulla olikin vain 4 viitettä edellisten sivujen 20 viitteen lisäksi. Katsoessani edelliselle sivulle painamalla "previous documents" Excite edelleen yritti uskotella dokumentteja löytyneen 27. Samoin haulla hydrophone & dolphins (Excitessa hakulauseena "+hydrophone +dolphins") Excite kertoi kuudella ensimmäisellä tulossivulla viitteitä löytyneen 80, mutta seitsemännellä sivulla dokumentteja kerrottiin löytyneen 63, ja sivulla oli 3 viimeistä viitettä. Tämä oli kuitenkin syksyn kuluessa korjaantunut, ja nyt tulosjoukot ovat sen kokoiset, kuin Excite ilmoittaa.

Haku luonnollisen kielen lauseilla toimii Excitessa kohtalaisen hyvin. Käsitepohjaisella indeksoinnilla on hyvät ja huonot puolensa; toisinaan se voi auttaa löytämään olennaisia dokumentteja, jotka muuten eivät olisi löytyneen, mutta toisaalta hälyn määrä on Exciten tulosjoukossa suuri. Suunta on kuitenkin oikea, hakurobottien on tulevaisuudessa opittava tunnistamaan jollain lailla käsitteiden semanttisia yhteyksiä.

Infoseekin tietokanta oli koehakujen aikaan pienempi kuin Alta Vistaan, Lycosiin tai Exciteen verrattuna, mutta Infoseek sai palautettua relevantteja dokumentteja ja on edistyksellinen META -kentän indeksoinnissa. Dokumentin tekijä voi saada tekeleelleen järkevän tiivistelmän ja avainsanatkin näyttävät stemmaavan aika hyvin. Infoseek indeksoi sivun kohtalaisen nopeasti julkaisemisen ja ilmoituksen jälkeen. Vaikka tulosjoukko oli pienempi kuin kolmessa isommassa hakukoneessa, useat löydetyistä ovat relevantteja, eikä vanhentuneita linkkejä juuri ole. Infoseekin hakutavat eivät kuitenkaan tarjoa tarpeeksi monipuolisia vaihtoehtoja vaativampaan tiedonhakuun. Infoseek -haussa ei voi käyttää tavallisia Boolen operaattoreita, hakumahdollisuudet ovat samantapaiset kuin Alta Vistan yksinkertaisessa haussa. Infoseek katkaisee sanat automaattisesti, esimerkiksi englannin kielen sanassa olympics ei karsinut tulosjoukosta dokumentteja joissa on vain sana olympic, samoin se haki dokumentit joissa hakusana oli esim. yhdyssanan ensimmäisenä osana. Usein tästä voi olla hyötyä, mutta myös haittaa jos haluaa nimenomaan hakea vain tietylla sanamuodolla. Piste sanan perässä ei muuttanut tulosta.

Lycos yllätti huonoilla tuloksilla koehauissa. Yhtenä syynä on Lycosin indeksointi; Lycos ei indeksoi koko tekstiä, vaan etsii dokumentistä merkitseviä sanoja. Kriteerinä on luultavasti sanan erikoisuus, ja esimerkiksi haulla Hawking and entropy and theory of relativity Lycos ei löytänyt yhtään, koska sana theory on niin yleinen ettei sitä ole indeksoitu. Hakusanoilla Hawking and entropy and relativity löytyi lukuisia relevantteja dokumentteja joissa esiintyi myös sana theory. Samoin hakulauseella zone therapy löytyi vain muutama dokumentti, koska sana therapy ei ole tarpeeksi "painava" että se olisi indeksoitu. Lycosilla haettaessa kannattaa siis ehdottomasti käyttää vain erikoisia ja mahdollisimman kuvaavia sanoja. Lycos on valikkopohjaisena helppo käyttää, joskin hakumahdollisuudet ovat aika rajoitetut.

WebCrawler on hidas päivittämään uusia dokumentteja. Onkin huhuttu, että sen ensisijaisena tehtävänä olisi indeksoida America Onlinen omia dokumentteja, eikä resursseja riitä käymään läpi muita www -palvelimia [21]. WebCrawlerin tulosjoukot olivat selvästi pienimmät, ja hitaan päivitystiheyden vuoksi vanhoja linkkejä on paljon. Toisaalta WebCrawlerin muita pienemmissä tulosjoukossa on joskus relevantteja dokumentteja. WebCrawler indeksoi ensin ylimmän tason dokumentit, ja indeksoidessaan seuraavan kerran samaa palvelinta seuraa linkkejä syvemmille tasoille. Tämän vuoksi paljon relevantteja dokumentteja jää indeksoimatta, mutta toisaalta hakutulokset voivat olla vähemmän "repaleiset". WebCrawlerin tiivistelmät eivät ole kovin kuvaavia. Boolen ja läheisyysoperaattoreilla voi jo muodostaa kohtalaisen hyviä hakulauseita, mutta tulosjoukko jää monimutkaisemmilla hakulauseilla usein tyhjäksi. Yksittäisillä sanoilla yleisistä aiheista WebCrawler tuo hyvän tulosjoukon, mutta spesifimmät haut kannattaa tehdä esimerkiksi Alta Vistalla.

Ihmemaan ja Trampoliinin välillä ei ollut suuria eroja. Hakutuloksia vertaillessa Trampoliinin tulosjoukko on dokumentin tai pari suurempi, mutta usein sama dokumentti toistuu (eri URL -osoitteella) useita kertoja. Esimerkiksi haulla "Leibniz & monad*" 4 sivua 14 löydetystä oli yksi ja sama dokumentti. Nämä eivät näy päällekkäisinä taulukoissa, päällekkäisiksi olen katsonut vain samat URL -osoitteet. Hämähäkki on indeksoinut saman dokumentin vain muutamassa tapauksessa. Robottien algoritmia voisi todennäköisesti kehittää niin, että ne tunnistaisivat identtiset sivut vaikka URL on eri, eivätkä indeksoisi samaa sivua useaan kertaan tietokantaansa. Indeksoinnin eroja tuli esiin vain muutamassa tapauksessa. Esimerkiksi haulla fungisidi Trampoliini löysi 2 dokumenttia, Ihmemaa ei yhtään. Sana esiintyi dokumenteissa (jotka olivat yksi ja sama dokumentti eri URL:n takana) olevan linkin URL:ssa. Ihmemaa indeksoi vaan leipätekstin, ei dokumentista lähteviä URL -osoitteita, siksi se ei löytänyt yhtään viitettä suomenkielisellä sanalla, mutta englanninkielinen fungicide tuotti paremman tuloksen. Kotimaisista hakupalveluista kannattaa etsiä aina myös englanninkielisillä hakusanoilla, tulosjoukot olivat jatkuvasti suurempia kuin suomalaisilla sanoilla haettaessa.

Hakukoneet eivät enää tyydy tarjoamaan pelkkää avainsanahakua laajennettuna Boolen logiikalla. Todennäköisyyslogiikka sovelletaan esimerkkihauissa (Query-By-Example, QBE) [22]. Excite ja WebCrawler tarjoavat hakijalle mahdollisuuden saada lisää tietynlaisia dokumentteja tarvitsematta muodostaa uutta hakulausetta tai tarkentaa entistä. QBE tuottaa usein suuren hakutuloksen, mutta toisaalta onnistuu löytämään tulosjoukon alkupäähän olennaisia dokumentteja esimerkkidokumentin sanoilla. Hakemistot ovat suosittu tapa etsiä tietoa ja hakukoneet tarjoavat entistä enemmän niitä avainsanahaun lisäksi. Hakupalvelun monipuolisuus ja tietokannan hyödyntäminen usealla tavalla on hyvä asia, mutta hakemistot laahaavat auttamatta ajasta jäljessä, ja valitut dokumentit ovat usein hyvin U.S.A. -keskeisiä.

META -elementti on hyödyllinen jos haluaa kirjoittaa itse lyhyen kuvauksen dokumentistaan, tosin Alta Vista ja Infoseek ainoastaan käyttävät sitä dokumentin tiivistelmänä tuloslistauksessa. Robottien muodostamat tiivistelmät eivät kuvaa dokumentteja kovin osuvasti. Kirjoittamalla itse kuvauksen, avainsanoja ja mahdollisesti muita tietoja META -elementtiin voi lisätä avainsanojen synonyymeja, taivutusmuotoja ja esiintymismäärää dokumentissaan. Vaikkei META:ssa olevia tietoja kovin painokkaasti oteta huomioon, useat robotit indeksoivat ne kuitenkin muun tekstin mukana. Näin voi harjoittaa pienimuotoista spammingia, joka ei hypi dokumentin lukijan silmille.

Viive dokumentin julkaisemisesta sen löytymiseen tietokannasta on pienin Excitessa, sen indeksointi on selvästi nopeinta. Vaikka roboteille voi ilmoittaa uuden URL -osoitteen, on kyseenalaista, lähtevätkö robotit erikseen hakemaan jotain tiettyä sivua palvelimesta. Todennäköisesti useimmat indeksoivat uudet sivut samalla kun ovat tekemässä kierrostaan palvelimen kohdalla. Infoseek ilmoittikin suoraan tekevänsä näin, muut arvioivat ajan jonka sisään todennäköisesti dokumentti löytyy tietokannasta. Useat robotit ovat kyllä käyneet hakemassa dokumentin palvelimesta muutaman viikon sisällä ilmoituksesta, mutta hakukoneiden tietokannan päivittäminen tapahtuu harvemmin ja lisää viivettä.


Sivun alkuun | Sisällysluetteloon


Hakurobottien toimintaa on testattu ja arvioitu aiemminkin, tässä muutamia julkaisuja:

Sisällysluetteloon