Liite 1: Koehaut

Tarkkuus

Saanti

Koedokumentti

Koehakujen tulokset eivät kerro, mikä hakukone on paras, ne kertovat ainoastaan, mitkä olivat näissä hauissa ja näillä kriteereillä parhaita. Tiedontarpeen vaihdellessa viihteestä tieteelliseen tietoon ja spesifistä yhden dokumentin hausta yleiseen selailuun ei hakukoneita voi asettaa yleispätevään paremmuusjärjestykseen. Tämän tutkimuksen tulokset pätevät vain näillä hakulausekkeilla vain tällä hetkellä. Suomalaisten hakukoneiden antamia tuloksia ei luonnollisestikaan voi verrata ulkomaisista hakukoneista saatujen tulosten kanssa muuten kuin tarkastelemalla indeksoinnin eroavuuksista aiheutuvia tasoeroja tulosjoukoissa, ei relevanttien dokumenttien määrän suhteen. Tein koehaut kolmella ensimmäisellä hakulauseella 8. - 12.7.1996 ja kahdella jälkimmäisellä 26. ja 29.7.1996.

Tarkkuus

Hakutuloksia on arvioitu seuraavilla mittareilla [7][12][16]:

Haun tulosten tarkkuus

Vaikka dokumenttien relevanssin määrittely on hyvin subjektiivinen mittari, en halunnut kuitenkaan luopua siitä, koska uskon että se sellaisenakin antaa arvokasta tietoa hakukoneen löytämien dokumenttien tiedon laadusta. Olen pisteyttänyt löydetyt dokumentit relevanssiasteen mukaan. Olen miettinyt kriteerit pisteytykselle kunkin haun kohdalla. Vaikka relevanssin määrittely pysyy näinkin subjektiivisena, niin ainakin se on mahdollisimman yksiselitteinen kaikkien dokumenttien kohdalla. Kahdessa kotimaisessa hakukoneessa olen hakenut suppeammilla hakulauseilla jotka ovat luettelossa ennen englanninkielistä hakulausetta.

Hakukoneiden vaihtelevat hakulauseen muotoilumahdollisuudet pakottivat muotoilemaan koehakulauseista hyvin yksinkertaisia, eivätkä ne tee oikeutta hakukoneille, joissa hakua olisi voinut muotoilla paljon monipuolisemmin ja hakutulokset olisivat näinollen parantuneet. Koehauissa käytetyt hakulausekkeet ja relevanssin pisteytyksen kriteerit (suluissa olevat lisäykset koskevat vain ulkomaisista hakukoneista tehtyjä hakuja):

Koska hakulauseissa on käytetty Boolen AND -operaattoria, ei dokumentti useinkaan ole saanut 0 pistettä (joku hakuehto puuttuu dokumentista) muuten kuin jos osoite on ollut väärä tai se on esiintynyt useaan kertaan tulosjoukossa. Niissä hakukoneissa, joissa AND on valikossa esimerkiksi "match all words" -valintana olen luonnollisesti käyttänyt sitä vaihtoehtoa, ja AND -operaattorin puuttuessa pseudo -Boolen operaattoria + sanojen edessä.

Valitsemani pisteytys on vain yksi mahdollinen, eikä missään nimessä ainoa oikea. Oletin tilanteen, jossa tiedonhakija haluaa tietoa nimenomaan hakuaiheensa sisällöstä, dokumentteja joista voi saada asiasta tietoa mahdollisimman paljon. Monille hakijoille voi olla kuitenkin tärkeää esimerkiksi asiaa koskeva faktatieto (esim. oppilaitosten kurssiohjelmat, radion ohjelmisto) tai asiasta keksityt vitsit ja runot. Niitä ei ole tässä arvioinnissa katsottu kovin relevanteiksi.

Taulukot 1.1 ja 1.2. Löydetyt dokumentit / päällekkäiset tai toimimattomat dokumentit

Alta VistaExciteInfoseekLycosWebCrawler
Hawking and entropy and
"theory of relativity"
28 / 2 9 / - 5 / - 0 2 / -
"zone therapy"38 / 510 / 25 / -2 / -5 / -
Leibniz and monads60 / 29 / -5 / -11 / 12 / 1
fungicid 25 / 127 / 32 / -1 / -1 / -
hydrophone and dolphins48/ 463 / 88 / 16 / -2 /


IhmemaaTrampoliini
entropia and Hawking4 / 21 / -
vyöhyketerapia22 / 123 / 1
Leibniz and monad*11 / 112 / 2
fungisidi02 / -
delfiini 9 / 314 / -


Taulukot 2.1 ja 2.2. Dokumenttien relevanssipisteet yhteensä / löydetyt dokumentit (ensin on mainittu pisteiden summa, sitten se jaettuna löytyneiden dokumenttien määrällä)

Alta VistaExcite InfoseekLycos WebCrawler
Hawking and entropy and
"theory of relativity"
30
1,07
11
1,22
7
1,4
03
1,5
"zone therapy"48
1,26
5
0,5
6
1,2
1
0,5
8
1,6
Leibniz and monads80
1,33
18
2
7
1,4
14
1,27
1
0,5
fungicid30
1,2
18
0,67
3
1,5
1
1
2
1
hydrophone and dolphins63
1,31
72
1,14
13
1,63
10
1,67
2
1


IhmemaaTrampoliini
entropia and Hawking1
0,25
1
1
vyöhyketerapia 25
1,14
20
0,87
Leibniz and monad*13
1,18
8
0,67
fungisidi02
1
delfiini 10
1,11
20
1,43


Taulukot 3.1 ja 3.2. Relevanttien dokumenttien määrä / löydetyt dokumentit(ensin relevanttien määrä, sitten se jaettuna kaikkien löydettyjen dokumenttien määrällä).

Alta VistaExciteInfoseekLycosWebCrawler
Hawking and entropy and
"theory of relativity"
10
0,36
4
0,44
2
0,4
01
0,5
"zone therapy"12
0,32
01
0,2
02
0,4
Leibniz and monads 19
0,32
7
0,78
1
0,2
3
0,27
0
fungicid6
0,24
4
0,14
1
0,5
0 1
1
hydrophone and dolphins21
0,44
19
0,30
4
0,5
4
0,67
0


IhmemaaTrampoliini
entropia and Hawking01
1
vyöhyketerapia 3
0,14
1
0,04
Leibniz and monad*3
0,27
1
0,08
fungisidi00
delfiini 2
0,22
3
0,21


Taulukko 4. Relevanttien määrä / relevanttien määrä hakukoneessa joka löysi niitä eniten

En ole nähnyt tarpeelliseksi tehdä taulukkoa kotimaisista hakukoneista, ko. lukuja voi verrata taulukosta 3.2.

Alta VistaExciteInfoseekLycosWebCrawler
Hawking and entropy and
"theory of relativity"
1 (10/10)0,4 (4/10)0,2 (2/10)00,1 (1/10)
"zone therapy" 1 (12/12)00,08 (1/12)00,17 (2/12)
Leibniz and monads1 (19/19)0,37 (7/19)0,05 (1/19)0,16 (3/19)0
fungicid1 (6/6)0,67 (4/6)0,17 (1/6)00,17 (1/6)
hydrophone and dolphins1 (21/21)0,90 (19/21)0,19 (4/21)0,19 (4/21)0


Sivun alkuun | Sisällysluetteloon


Saanti

Dokumenttien saantia ja hakukoneiden tietokannan kattavuutta arvioidaan seuraavilla luvuilla:

Taulukot 5.1 ja 5.2. Löydetyt dokumentit / löydetyt dokumentit hakukoneessa joka löysi eniten dokumentteja(Ulkomaisten hakukoneiden taulukossa ensin tulosjoukon koko, sitten tulosjoukon koko jaettuna eniten dokumentteja löytäneen hakukoneen tulosjoukon koolla, kotimaisten hakukoneiden kohdalla ilmoitettu vain tulosjoukon koko.)

Alta VistaExciteInfoseekLycosWebCrawler
petrologyn.5000
0,5
9766
1
411
0,04
2088
0,21
200
0,02
devaluationn.5000
0,5
9911
1
344
0,03
1613
0,16
85
0,01
puhelinkoppi 31
1
19
0,61
5
0,16
6
0,19
0
olympicsn. 40000
0,42
95135
1
13259
0,14
14889
0,16
3128
0,03
Russell & paradox123
0,28
440
1
11
0,03
15
0,03
15
0,03
virtuaalikirjastoprojekti 4
0,4
10
1
1
0,1
2
0,2
0


IhmemaaTrampoliini
petrologia
(petrology)
2
(16)
1
(17)
devalvaatio
(devaluation)
11
(34)
10
(37)
puhelinkoppi1011
olympialaiset
(olympics)
77
(204)
90
(183)
Russell & paradoksi
(Russell & paradox)
2
(7)
2
(4)
virtuaalikirjastoprojekti 00


Sivun alkuun | Sisällysluetteloon


Koedokumentti

Koedokumenttina on saamen kielen ja kulttuurin virtuaalikirjastosivu. Julkaisin sen 27.6.1996 ja ilmoitin siitä samana päivänä kaikille hakupalveluille, paitsi Trampoliinille, jonne ei voi ilmoittaa yksittäisiä sivuja, ainoastaan kokonaisia palvelimia. Dokumentissa on kaksi metatiedostoa, lyhyt dokumentin kuvailu ("Virtual Library page of the culture and language of Sami. Virtuaalikirjastosivu saamen kielestä ja kulttuurista.") sekä avainsanat ("saame saamelaiset kieli kulttuuri sami culture language links"). Julkaistuani dokumentin tarkistin sen löytymistä hakukoneilla joka toinen päivä.

WebCrawler kertoi uutta sivua ilmoittaessa, että sen tavoitteena on indeksoida uudet (ilmoitetut) sivut joka päivä. Lycos kertoi ensin uuden sivun löytyvän parin viikon päästä, lähetettyäni osoitteen ilmoitti kuitenkin että se voi viedä kuusikin viikkoa. Alta Vista päivittää sivujaan epäsäännöllisin väliajoin, ja varoittaa että uuden sivun löytyminen voi viedä useita viikkoja. Excite lupasi indeksoida sivun kahden viikon sisällä. Infoseek ilmoitti indeksoinnin tapahtuvan seuraavan kerran kun robotti selaa kyseistä palvelinta. Ihmemaa hakee lisäsivuja n. kerran viikossa, tietokannan päivitystiheys vaihtelee. Infoseek on ainoa hakukone joka vahvistaa saaneensa tiedon uudesta URL:sta, ja antaa ohessa vielä neuvoja META:n käytöstä ja toimenpiteistä jos sivun URL muuttuu tai sivu poistetaan.

  1. Excite

    Ensimmäisenä koedokumentti löytyi Exciten kautta hakusanoilla saame + kieli + kulttuuri. Päivämäärä oli 8.7.96, eli dokumentti löytyi 11 päivän kuluttua siitä, kun dokumentti julkaistiin ja ilmoitettiin hakukoneille. Exciten käsitepohjainen indeksointi tuotti kuitenkin alla olevan tiivistelmän, joka ei alkuunkaan vastaa dokumentin sisältöä. Yhtenä syynä on se, ettei Excite indeksoi META -tagien sisältöä eikä kuvan alt -tekstiä. Excite ei näytä kiinnittävän paljon huomiota myöskään linkkien kohdalla olevaan tekstiin. Excite oli määritellyt dokumentin relevantiksi 53 % todennäköisyydellä, vaikka kaikki hakusanat esiintyvät dokumentin nimessä. Valinnalla find similar Excite kertoi löytäneensä reilut 12 miljoonaa dokumenttia, Query-By-Example hakuvaihtoehto hakeekin luultavasti lähes kaikilla dokumentissa esiintyneillä sanoilla. Ensimmäisen parinkymmenen dokumentin joukossa oli kuitenkin useita samanaiheisia kuin esimerkkidokumentti.

    53% Saamen kieli & kulttuuri Summary: Sivun kautta voi asentaa ohjelmia, jotka helpottavat saamen kirjaimiston käyttöä. Hiukan tietoa saamelaisista ja heidän Pohjois-Amerikkalaisista jälkeläisistään, muutamia linkkejä muualle Saamen kieli ja kulttuuri Oulun yliopistossa.

  2. Infoseek

    Koedokumentti löytyi 22.7. Infoseekin tietokannasta hakusanoilla +saame +kieli +kulttuuri. Tiivistelmänä on METAan kirjoitettu kuvaus. Vaihtoehdolla similar pages ei löytynyt muita dokumentteja.

  3. Ihmemaa

    Ihmemaa -haulla koedokumentti löytyi 9.8.1996. Dokumentti oli haettu 3.8.Dokumentin otsikkona oli Saamen kieli ; kulttuuri. Dokumentti löytyi hakulauseella saamen ja kielen ja kulttuurin, muttei esimerkiksi sanojen perusmuodoilla haettaessa, nehän esiintyivät avainsanakentässä, eikä Ihmemaa indeksoi META -tagien sisältöä.

19.8. mennessä muut hakukoneet eivät olleet indeksoineet dokumenttia.


Sivun alkuun | Sisällysluetteloon