Katsaus kesällä -97

Hakukoneiden arvioinnista on kulunut vuosi, ja hakukoneet ovat muuttuneet vuoden sisällä paljon. Toisaalta joissakin asioissa, kuten multimedia -materiaalin indeksoinnissa ja haussa "vanhat ja vakiintuneet" hakukoneet ovat edistyneet yllättävän vähän. Hakukoneet panostavat koko ajan aiheenmukaisiin luetteloihin, tiedonhakijat yleensä arvostavat niitä. Tutkimuksessa olleista hakukoneista kaikilla muilla paitsi AltaVistalla etusivulla on entistä suuremman sijan saanut aiheenmukaisesti jaotellut linkkilistat, ja sanahaku on jäänyt toissijaiseksi. Jos myös resurssien käytössä painopiste on siirtynyt indeksoinnin ja hakusysteemin kehittämisestä aiheenmukaisten hakemistojen muodostamiseen, ongelmaksi tulee entistä enemmän uuden, vasta julkaissun tiedon löytäminen, koska aiheenmukaiset listat eivät koskaan ole yhtä ajantasalla kuin hakukoneiden tietokannat, jos niitä jatkuvasti päivitetään. Ongelmaksi voi myös muodostua Amerikka -keskeisyys, ja englanninkielisten dokumenttien valta-asema hakemistoissa. Hakukoneet pyrkivät kovassa kilpailussa erottumaan toisistaan, ja tarjoavat jos jonkinmoista palvelua sähköpostiosoitteiden, karttojen ja osakekurssien hausta ohjelmistoihin.

Multimedia -aineiston indeksoiminen ja hakeminen

Tutkimuksessa olleista hakukoneista Lycos on ollut multimedia-aineiston indeksoinnin edelläkävijä. Se on indeksoinut ääni- ja kuvatiedostoja. Niiden haku on kuitenkin vielä hyvin epätarkkaa, indeksoinnissa etsitään sanoja tiedostonnimestä tai linkistä, joka osoittaa ko. tiedostoon, ja ymmärrettävästi se on niin niukka informaatio tiedostosta, että hakuihin saa kohtalaiset tulokset vain, jos tietää tarkasti mitä etsii, ja jokin tiedosto sattuu olemaan vielä nimetty juuri sillä tavalla.

WebSEEkon mielenkiintoinen kokeiluasteella oleva palvelu, joka indeksoi kuvia ja videota WWW:stä. Palvelu kertoo käyttävänsä autonomisia agentteja, jotka analysoivat, indeksoivat ja luokittelevat kuvat ja videot aiheluokkiin. Haussa voi käyttää sekä teksti- että visuaalisia luokkia. Kuvatiedostoja on indeksoitu ja luokiteltu 650 000 ja videoita 10 000. Luokittelu on vielä tapahtunut puoliautomaattisesti, mutta palveluun pyritään kehittämään automaattinen, sisällön mukaan kuvia ja videoita luokitteleva ohjelma. WebSEEkille läheinen projekti on VisualSEEk. Visual SEEkissä painottuu automaattinen kuvan piirteiden kartoittaminen ja kuvien samanlaisuuteen perustuva täsmäyttäminen.

Käsitteellisten yhteyksien esittäminen

AltaVistan LiveTopics -palvelu muodosti dynaamisesti haun aikana haun tuloksien perusteella käsitteiden ryppäitä. Näitä käsitteitä saattoi ruksata joko plussalla tai miinuksella rajoittamaan hakua. Tarkoituksena oli saada järkevän kokoisia tulosjoukkoja esittämällä käsitteitä, joita esiintyy alkuperäisen haun tulosjoukon dokumenteissa, mutta joita käyttäjä ei huomaa lisätä hakulauseeseen. LiveTopics oli kieliriippumaton, termit löytyivät tulosjoukosta hakukielen mukaan. [1] LiveTopics on typistynyt refine -valikon takaa löytyväksi termien pakottamis- tai poistamisvalikoksi. Periaate on edelleen sama, mutta haulla löytyvien dokumenttien käsitteistä ei enää muodosteta käsiteverkostoja

Semion hakukone menee hiukan pitemmälle muodostamalla kartan haun tuloksista. Kartassa näkyvät käsitteet, jotka ovat merkityksellisesti läheisiä hakukäsitteen kanssa. Tämä merkityssuhde on päätelty WWW -dokumenttien teksteissä esiintyvistä sanoista. Sovellus on tarkoitettu lähinnä organisaatioiden sisäiseen käyttöön, mutta sitä voi kokeilla myös WWW:n tiedonhaussa. [1]

Metatieto

Metadata on alunperin koettu tarpeelliseksi nimenomaan siksi, että dokumentteihin voitaisiin ihmisvoimin lisätä tietoja roboteille, jotka eivät automaattisen indeksoinnin kautta voi ymmärtää dokumentin ajatusta, ja asiayhteyttä. Metadatan lisääminen dokumenttiin vaatii Meta Tag Builderiakin apuna käyttäen sivun ylläpitäjältä hiukan aikaa ja vaivaa, ja siksi OCLC:n tutkimusyksikkö onkin valmistellut ohjelmaa, jolla dokumentista voitaisiin automaattisesti etsiä sisällöt META -tageille. Ohjelman tarjoamat sisällöt ovat kuitenkin vielä kaukana ideaalisesta.

Lähteet

  1. Blake, Paul. Search engines: applying logic and drawing maps. Information World Review, May 1997.