Liite 1: Koehaut
Tarkkuus
Saanti
Koedokumentti
Koehakujen tulokset eivät kerro, mikä hakukone on paras, ne kertovat ainoastaan, mitkä olivat näissä hauissa ja näillä kriteereillä parhaita. Tiedontarpeen vaihdellessa viihteestä tieteelliseen tietoon ja spesifistä yhden dokumentin hausta yleiseen selailuun ei hakukoneita voi asettaa yleispätevään paremmuusjärjestykseen. Tämän tutkimuksen tulokset pätevät vain näillä hakulausekkeilla vain tällä hetkellä. Suomalaisten hakukoneiden antamia tuloksia ei luonnollisestikaan voi verrata ulkomaisista hakukoneista saatujen tulosten kanssa muuten kuin tarkastelemalla indeksoinnin eroavuuksista aiheutuvia tasoeroja tulosjoukoissa, ei relevanttien dokumenttien määrän suhteen. Tein koehaut kolmella ensimmäisellä hakulauseella 8. - 12.7.1996 ja kahdella jälkimmäisellä 26. ja 29.7.1996.
Tarkkuus
Hakutuloksia on arvioitu seuraavilla mittareilla [7][12][16]:
Haun tulosten tarkkuus
- löydettyjen dokumenttien määrä, myös toimimattomat ja päällekkäiset linkit lasketaan mukaan,
- epäkelpojen tai päällekkäisten URL-osoitteiden määrä / löydettyjen dokumenttien määrä (päällekkäsiksi ei ole katsottu identtisiä dokumentteja, joilla on eri URL),
- dokumenttien relevanssiasteen pisteytys välillä 0 - 3, pisteet yhteensä / löydetyt dokumentit, päällekkäisille ja toimimattomille dokumenteille pisteiksi 0,
- relevanttien dokumenttien määrä (relevanteiksi on laskettu dokumentit, jotka ovat saaneet 2 tai 3 pistettä) / kaikki löydetyt dokumentit
- relevanttien dokumenttien määrä / relevanttien dokumenttien määrä hakukoneessa, joka löysi eniten relevantteja dokumentteja ko. haun kohdalla
Vaikka dokumenttien relevanssin määrittely on hyvin subjektiivinen mittari, en halunnut kuitenkaan luopua siitä, koska uskon että se sellaisenakin antaa arvokasta tietoa hakukoneen löytämien dokumenttien tiedon laadusta. Olen pisteyttänyt löydetyt dokumentit relevanssiasteen mukaan. Olen miettinyt kriteerit pisteytykselle kunkin haun kohdalla. Vaikka relevanssin määrittely pysyy näinkin subjektiivisena, niin ainakin se on mahdollisimman yksiselitteinen kaikkien dokumenttien kohdalla. Kahdessa kotimaisessa hakukoneessa olen hakenut suppeammilla hakulauseilla jotka ovat luettelossa ennen englanninkielistä hakulausetta.
Hakukoneiden vaihtelevat hakulauseen muotoilumahdollisuudet pakottivat muotoilemaan koehakulauseista hyvin yksinkertaisia, eivätkä ne tee oikeutta hakukoneille, joissa hakua olisi voinut muotoilla paljon monipuolisemmin ja hakutulokset olisivat näinollen parantuneet. Koehauissa käytetyt hakulausekkeet ja relevanssin pisteytyksen kriteerit (suluissa olevat lisäykset koskevat vain ulkomaisista hakukoneista tehtyjä hakuja):
- entropia & Hawking; entropy and Hawking and "theory of relativity"
- 0 pistettä; sanaa entropia ei esiinny lainkaan näkyvässä tekstissä; (sanat mainitaan, ne esiintyvät kuitenkin irrallisina toisistaan ja dokumentin pääasiasta)
- 1 piste; sanat esiintyvät, mutta täysin irrallisena; (Hawking, entropia ja suhteellisuusteoria mainitaan yhteydessä toisiinsa, mutta niitä ei selvitetä)
- 2 pistettä; sanat esiintyvät, liittyen johonkin dokumentissa olennaisempana esiintyvään asiaan; (dokumentissa kerrotaan Hawkingin näkemyksistä suhteellisuusteoriasta ja entropiasta, aihe ei ole kuitenkaan dokumentissa keskeisenä)
- 3 pistettä; dokumentti käsittelee nimenomaan Hawkingia ja entropiaa, selventää käsitettä lukijalle; (Hawking, suhteellisuusteoria ja entropia ovat dokumentissa keskeisenä aiheena)
- vyöhyketerapia, zone therapy
- 0 pistettä; sanaa vyöhyketerapia ei esiinny lainkaan näkyvässä tekstissä
- 1 piste; sana esiintyy, mutta sanan sisältöä ei selvennetä
- 2 pistettä; sana esiintyy muttei ole dokumentin pääaiheena
- 3 pistettä; sana on dokumentin keskeisenä aiheena
- Leibniz & monad*; Leibniz and monads
- 0 pistettä; dokumentissa ei mainita monadologiaa tai monadeita
- 1 piste; dokumentissa mainitaan Leibniz ja monadologia tai monadit
- 2 pistettä; dokumentissa kerrotaan muutamalla rivillä Leibnizista ja hänen monadi -käsitteestään
- 3 pistettä; dokumentti keskittyy käsittelemään nimenomaan Leibnizia ja monadeita
- fungisidi; fungicid
- 0 pistettä; sienimyrkkyjä ei mainita lainkaan
- 1 piste; sana esiintyy esim. jossain listassa
- 2 pistettä; sana esiintyy tekstissä, jonka pääasia on jokin muu kuin sienimyrkyt
- 3 pistettä; sanan merkitystä selvennetään tekstissä
- delfiini; hydrophone & dolphins
- 0 pistettä; dokumentissa ei mainita hakusanaa (-ja),
- 1 piste; hakusana (-t) mainitaan, mutta irrallisina,
- 2 pistettä: dokumentissa kerrotaan muutamalla lauseella delfiineistä (ja delfiinien ääntelyn tutkimisesta hydrofonin avulla)
- 3 pistettä; dokumentti käsittelee nimenomaan delfiinejä (delfiinien ääntelyn tarkkailua hydrofonilla)
Koska hakulauseissa on käytetty Boolen AND -operaattoria, ei dokumentti useinkaan ole saanut 0 pistettä (joku hakuehto puuttuu dokumentista) muuten kuin jos osoite on ollut väärä tai se on esiintynyt useaan kertaan tulosjoukossa. Niissä hakukoneissa, joissa AND on valikossa esimerkiksi "match all words" -valintana olen luonnollisesti käyttänyt sitä vaihtoehtoa, ja AND -operaattorin puuttuessa pseudo -Boolen operaattoria + sanojen edessä.
Valitsemani pisteytys on vain yksi mahdollinen, eikä missään nimessä ainoa oikea. Oletin tilanteen, jossa tiedonhakija haluaa tietoa nimenomaan hakuaiheensa sisällöstä, dokumentteja joista voi saada asiasta tietoa mahdollisimman paljon. Monille hakijoille voi olla kuitenkin tärkeää esimerkiksi asiaa koskeva faktatieto (esim. oppilaitosten kurssiohjelmat, radion ohjelmisto) tai asiasta keksityt vitsit ja runot. Niitä ei ole tässä arvioinnissa katsottu kovin relevanteiksi.
Taulukot 1.1 ja 1.2. Löydetyt dokumentit / päällekkäiset tai toimimattomat dokumentit
Alta Vista Excite Infoseek Lycos WebCrawler Hawking and entropy and
"theory of relativity"28 / 2 9 / - 5 / - 0 2 / - "zone therapy" 38 / 5 10 / 2 5 / - 2 / - 5 / - Leibniz and monads 60 / 2 9 / - 5 / - 11 / 1 2 / 1 fungicid 25 / 1 27 / 3 2 / - 1 / - 1 / - hydrophone and dolphins 48/ 4 63 / 8 8 / 1 6 / - 2 /
Ihmemaa Trampoliini entropia and Hawking 4 / 2 1 / - vyöhyketerapia 22 / 1 23 / 1 Leibniz and monad* 11 / 1 12 / 2 fungisidi 0 2 / - delfiini 9 / 3 14 / -
Taulukot 2.1 ja 2.2. Dokumenttien relevanssipisteet yhteensä / löydetyt dokumentit (ensin on mainittu pisteiden summa, sitten se jaettuna löytyneiden dokumenttien määrällä)
Alta Vista Excite Infoseek Lycos WebCrawler Hawking and entropy and
"theory of relativity"30
1,0711
1,227
1,40 3
1,5"zone therapy" 48
1,265
0,56
1,21
0,58
1,6Leibniz and monads 80
1,3318
27
1,414
1,271
0,5fungicid 30
1,218
0,673
1,51
12
1hydrophone and dolphins 63
1,3172
1,1413
1,6310
1,672
1
Ihmemaa Trampoliini entropia and Hawking 1
0,251
1vyöhyketerapia 25
1,1420
0,87Leibniz and monad* 13
1,188
0,67fungisidi 0 2
1delfiini 10
1,1120
1,43
Taulukot 3.1 ja 3.2. Relevanttien dokumenttien määrä / löydetyt dokumentit(ensin relevanttien määrä, sitten se jaettuna kaikkien löydettyjen dokumenttien määrällä).
Alta Vista Excite Infoseek Lycos WebCrawler Hawking and entropy and
"theory of relativity"10
0,364
0,442
0,40 1
0,5"zone therapy" 12
0,320 1
0,20 2
0,4Leibniz and monads 19
0,327
0,781
0,23
0,270 fungicid 6
0,244
0,141
0,50 1
1hydrophone and dolphins 21
0,4419
0,304
0,54
0,670
Ihmemaa Trampoliini entropia and Hawking 0 1
1vyöhyketerapia 3
0,141
0,04Leibniz and monad* 3
0,271
0,08fungisidi 0 0 delfiini 2
0,223
0,21
Taulukko 4. Relevanttien määrä / relevanttien määrä hakukoneessa joka löysi niitä eniten
En ole nähnyt tarpeelliseksi tehdä taulukkoa kotimaisista hakukoneista, ko. lukuja voi verrata taulukosta 3.2.
Alta Vista Excite Infoseek Lycos WebCrawler Hawking and entropy and
"theory of relativity"1 (10/10) 0,4 (4/10) 0,2 (2/10) 0 0,1 (1/10) "zone therapy" 1 (12/12) 0 0,08 (1/12) 0 0,17 (2/12) Leibniz and monads 1 (19/19) 0,37 (7/19) 0,05 (1/19) 0,16 (3/19) 0 fungicid 1 (6/6) 0,67 (4/6) 0,17 (1/6) 0 0,17 (1/6) hydrophone and dolphins 1 (21/21) 0,90 (19/21) 0,19 (4/21) 0,19 (4/21) 0
Sivun alkuun | Sisällysluetteloon
Saanti
Dokumenttien saantia ja hakukoneiden tietokannan kattavuutta arvioidaan seuraavilla luvuilla:
- dokumenttien määrä
- dokumenttien määrä / dokumenttien määrä hakukoneessa, joka löysi eniten ko. haulla
Taulukot 5.1 ja 5.2. Löydetyt dokumentit / löydetyt dokumentit hakukoneessa joka löysi eniten dokumentteja(Ulkomaisten hakukoneiden taulukossa ensin tulosjoukon koko, sitten tulosjoukon koko jaettuna eniten dokumentteja löytäneen hakukoneen tulosjoukon koolla, kotimaisten hakukoneiden kohdalla ilmoitettu vain tulosjoukon koko.)
Alta Vista Excite Infoseek Lycos WebCrawler petrology n.5000
0,59766
1411
0,042088
0,21200
0,02devaluation n.5000
0,59911
1344
0,031613
0,1685
0,01puhelinkoppi 31
119
0,615
0,166
0,190 olympics n. 40000
0,4295135
113259
0,1414889
0,163128
0,03Russell & paradox 123
0,28440
111
0,0315
0,0315
0,03virtuaalikirjastoprojekti 4
0,410
11
0,12
0,20
Ihmemaa Trampoliini petrologia
(petrology)2
(16)1
(17)devalvaatio
(devaluation)11
(34)10
(37)puhelinkoppi 10 11 olympialaiset
(olympics)77
(204)90
(183)Russell & paradoksi
(Russell & paradox)2
(7)2
(4)virtuaalikirjastoprojekti 0 0
Sivun alkuun | Sisällysluetteloon
Koedokumentti
Koedokumenttina on saamen kielen ja kulttuurin virtuaalikirjastosivu. Julkaisin sen 27.6.1996 ja ilmoitin siitä samana päivänä kaikille hakupalveluille, paitsi Trampoliinille, jonne ei voi ilmoittaa yksittäisiä sivuja, ainoastaan kokonaisia palvelimia. Dokumentissa on kaksi metatiedostoa, lyhyt dokumentin kuvailu ("Virtual Library page of the culture and language of Sami. Virtuaalikirjastosivu saamen kielestä ja kulttuurista.") sekä avainsanat ("saame saamelaiset kieli kulttuuri sami culture language links"). Julkaistuani dokumentin tarkistin sen löytymistä hakukoneilla joka toinen päivä.
WebCrawler kertoi uutta sivua ilmoittaessa, että sen tavoitteena on indeksoida uudet (ilmoitetut) sivut joka päivä. Lycos kertoi ensin uuden sivun löytyvän parin viikon päästä, lähetettyäni osoitteen ilmoitti kuitenkin että se voi viedä kuusikin viikkoa. Alta Vista päivittää sivujaan epäsäännöllisin väliajoin, ja varoittaa että uuden sivun löytyminen voi viedä useita viikkoja. Excite lupasi indeksoida sivun kahden viikon sisällä. Infoseek ilmoitti indeksoinnin tapahtuvan seuraavan kerran kun robotti selaa kyseistä palvelinta. Ihmemaa hakee lisäsivuja n. kerran viikossa, tietokannan päivitystiheys vaihtelee. Infoseek on ainoa hakukone joka vahvistaa saaneensa tiedon uudesta URL:sta, ja antaa ohessa vielä neuvoja META:n käytöstä ja toimenpiteistä jos sivun URL muuttuu tai sivu poistetaan.
- Excite
Ensimmäisenä koedokumentti löytyi Exciten kautta hakusanoilla saame + kieli + kulttuuri. Päivämäärä oli 8.7.96, eli dokumentti löytyi 11 päivän kuluttua siitä, kun dokumentti julkaistiin ja ilmoitettiin hakukoneille. Exciten käsitepohjainen indeksointi tuotti kuitenkin alla olevan tiivistelmän, joka ei alkuunkaan vastaa dokumentin sisältöä. Yhtenä syynä on se, ettei Excite indeksoi META -tagien sisältöä eikä kuvan alt -tekstiä. Excite ei näytä kiinnittävän paljon huomiota myöskään linkkien kohdalla olevaan tekstiin. Excite oli määritellyt dokumentin relevantiksi 53 % todennäköisyydellä, vaikka kaikki hakusanat esiintyvät dokumentin nimessä. Valinnalla find similar Excite kertoi löytäneensä reilut 12 miljoonaa dokumenttia, Query-By-Example hakuvaihtoehto hakeekin luultavasti lähes kaikilla dokumentissa esiintyneillä sanoilla. Ensimmäisen parinkymmenen dokumentin joukossa oli kuitenkin useita samanaiheisia kuin esimerkkidokumentti.
53% Saamen kieli & kulttuuri Summary: Sivun kautta voi asentaa ohjelmia, jotka helpottavat saamen kirjaimiston käyttöä. Hiukan tietoa saamelaisista ja heidän Pohjois-Amerikkalaisista jälkeläisistään, muutamia linkkejä muualle Saamen kieli ja kulttuuri Oulun yliopistossa.
- Infoseek
Koedokumentti löytyi 22.7. Infoseekin tietokannasta hakusanoilla +saame +kieli +kulttuuri. Tiivistelmänä on METAan kirjoitettu kuvaus. Vaihtoehdolla similar pages ei löytynyt muita dokumentteja.
- Ihmemaa
Ihmemaa -haulla koedokumentti löytyi 9.8.1996. Dokumentti oli haettu 3.8.Dokumentin otsikkona oli Saamen kieli ; kulttuuri. Dokumentti löytyi hakulauseella saamen ja kielen ja kulttuurin, muttei esimerkiksi sanojen perusmuodoilla haettaessa, nehän esiintyivät avainsanakentässä, eikä Ihmemaa indeksoi META -tagien sisältöä.
19.8. mennessä muut hakukoneet eivät olleet indeksoineet dokumenttia.