Johtopäätökset
WWW -maailma muuttuu jatkuvasti, ja arviointi koskee vain kesä- heinäkuuta 1996. Jo tässä ajassa tapahtui monia muutoksia. Dokumenttien määrä lisääntyy niin valtavaa vauhtia, että hakurobottien on jatkuvasti lisättävä kapasiteettiaan pystyäkseen indeksoimaan edes osan WWW -materiaalista. Alue- ja tieteenalakohtaisia hakurobotteja ilmestyy jatkuvasti. Muutamia kansainvälisiä hakurobotteja, joiden tavoitteena on indeksoida kaikki WWW -dokumentit, tulee varmasti kuitenkin pysymään. Yrittäjiä on paljon, mutta monilta puuttuu riittävä konekapasiteetti ja monipuoliset hakumahdollisuudet, joiden avulla arviolta yli 50 miljoonan dokumentin joukosta löydetään osuvat dokumentit. Jossain määrin robotit jo nyt käyttävät hyväkseen toisten robottien keräämiä tietokantoja, ja verkon ja palvelinten kuormituksen vähentämiseksi tätä tullaan ehkä lisäämään entisestään. Robottien keskinäinen kilpailu voi kuitenkin hidastaa yhteistyötä. Hakemiston aiheenmukaista hierarkiaa ja helppoa selailtavuutta sekä hakurobotin tehokkuutta ja kattavuutta pyritään yhdistämään ja robotteja yritetään tehdä entistä älykkäämmiksi. Termien ja aiheiden semanttisten yhteyksien löytäminen ja indeksoiminen onkin haaste robottien ohjelmoijille. Infoseek ja Lycos aikovat ottaa käyttöön tämän vuoden aikana uudenlaiset hakupalvelut, joissa on tarkoitus luoda tietokantaa yksittäisistä hauista [21]. Tietokannan avulla pyritään tarjoamaan parempia hakutuloksia ja tietysti myös mainosten kohdentaminen on myös helpompaa. Hakurobotit indeksoivat tällä hetkellä ainoastaan dokumenttien tekstisisältöä. VRML -dokumentit, kuvien, äänen ja videon indeksointi on hidasta, mutta tulevaisuudessa näiden tiedostojen määrän lisääntyessä välttämätöntä.
Hakurobottien indeksoinnissa ja hakujen tuloksissa on pyrittävä saannin lisäksi tarkkuuteen. Koko tekstin indeksointi mahdollisimman monen palvelimen dokumenteista tuottaa suuria saantilukuja, toisaalta sanojen painottaminen, dokumentin eri kenttien indeksointi niin että hakuja voidaan kohdistaa kenttiin ja läheisten käsitteiden löytäminen lisää tarkkuutta. Viimeksi mainittu lisää yleensä myös saantia. QBE on askel jonkinlaista käsitteellistä yhteyttä ja relevanssipalautetta kohti, mutta koska tämä haku tuottaa suuret tulosjoukot, on luultavaa, että haku tapahtuu useimmilla esimerkkidokumentin sanoilla, eikä haussa etsitä dokumentteja tarkempien semanttisten yhteyksien avulla. QBE vaikuttaa vain kyseisen haun tuloksiin, eikä sitä voi laskea relevanssipalautteeksi, joka parantaisi hakukoneen "ymmärrystä" relevanteista dokumenteista. Tällainen relevanssipalaute puuttuu kaikista tutkimuksen hakukoneista, se voisi tulevaisuudessa olla yksi keino "opettaa" hakukoneita löytämään relevantit dokumentit edellisten hakujen ja niistä saadun palautteen avulla.
Metatietojen käyttö on välttämätöntä sekä dokumentteja tehtäessä että indeksoitaessa, jotta hakujen tarkuutta voidaan parantaa. Metatiedot ovat tällä hetkellä myös ainoa keino välittää tietoa roboteille dokumentissa olevista kuvista, äänestä, videosta tai CGI -ohjelmista. META -elementtien indeksointi puuttuu kuitenkin tällä hetkellä useasta hakurobotista. Kirjastojen WWW -asiantuntijat ja robottisuunnittelijat ovat edistämässä ja kehittämässä META -tiedostojen käyttämistä www-dokumenttien sisällönkuvailussa ja indeksoinnissa. Raportti Metadata Workshop II:sta kertoo yhden suunnitelman sisällönkuvailuelementtien rakenteesta. Dokumentti itsessään on hyvä esimerkki, sen metatietoja voi katsella View Source -komennolla. Tällä hetkellä muut hakurobotit kuin Alta Vista ja Infoseek eivät noteeraa META -kenttiä muusta tekstistä poikkeavasti, tai eivät ollenkaan. Useat robottien ylläpitäjät aikovat kuitenkin tulevaisuudessa ottaa metatiedot huomioon. Metatietojen laittamista dokumentteihin laajassa mitassa saadaan kuitenkin odottaa, yllättävän useissa dokumenteissa Title -kenttäkin on vielä tyhjä.
Mainostilan myynti on keino pitää hakupalvelu käyttäjille ilmaisena ja rahoittaa palvelun ylläpito ja kehittäminen. Kaupallisuus kiihdyttää robottien välistä kilpailua, ja muutamien hakukoneiden uutiset ovat aikalailla "hype" -juttuja. Kilpailulla on kuitenkin positiivinenkin vaikutus, hakukoneiden indeksointia ja täsmäytystä (hakuavainten ja dokumenttien sanojen osuvuus haussa) on kehitettävä koko ajan entistä paremman tarkkuuden saavuttamiseksi, että tiedonhakijat ja näin myös mainostajat saadaan suosimaan hakukonetta.
Useat dokumenttien tekijät ovat miettineet, miten oman dokumenttinsa saisi sijoittumaan tulosjoukon alkupäähän. Joidenkin hakukoneiden yhteydessä on huhuttu relevanssin ostamisesta, eli yritykset voivat ostaa sivuillensa sijoituksen tulosjoukon alkupäästä haluamillaan hakusanoilla [4]ja . Jos näin tehdään, ostetut sijoitukset tulee merkitä selvästi muista viitteistä poiketen. Hakukoneiden rankkaussysteemeissä on eroja, ja hakukoneet kertovat muuttavansa jatkuvasti relevanssijärjestyksen kriteerejä välttyäkseen sivuilta, jotka hyödyntävät jotain tiettyä havaitsemaansa kriteeriä. Eräs yritys väittää myyvänsä ohjelmistoa, joka tekee sivusta eri version jokaista hakurobottia varten, ja henkilön selaillessa näyttää oikean version sivusta.
Hakurobottien indeksointia omassa palvelimessaan tai dokumenteissaan voi rajoittaa. Robot.txt -tiedostolla tulisi suojata kaikki organisaation sisäiset ja ulkopuolisille yhdentekevät dokumentit, sekä poistaa vanhentuneet. Robots exclusion standardin käyttö on kaikkien etu; tiedonhakijat välttyvät turhalta töhnältä ja palvelimet välttyvät turhalta kuormitukselta. Myös päällekkäisten dokumenttien määrää tulosjoukoissa voidaan vähentää suojaamalla päällekkäisten dokumenttien indeksointi robot.txt -tiedostolla. Erityisesti suomalaisissa hakupalveluissa päällekkäisten dokumenttien määrä on suuri ja hakutulosten laatu paranisi huomattavasti jos palvelinten/dokumenttien ylläpitäjät näkisivät hiukan vaivaa ylimääräisten dokumenttien suojaamisessa. Yleensä dokumenttien suojaaminen on palvelimen ylläpitäjän tehtävä, mutta myös sivun tekijä voi laittaa META -tagiin robotille viestin, esimerkiksi ettei halua sivuaan indeksoitavan tai että robotti voi seurata sivulta lähteviä linkkejä indeksoidakseen niiden takaa löytyvät sivut. Ongelmana on etteivät kaikki robot.txt -tiedostoa noudattavat robotit selaa META -kenttää.