Hakukoneiden arviointi
Hakukone
Arvioinnin metodit
Arvioidut hakukoneet
Hakukone
Hakukoneet (search engines) ovat palveluita, jotka palvelun käyttäjän antamien hakukomentojen perusteella etsivät sivujen URL -osoitteita robottinsa keräämistä indekseistä. Hakukone on siis eri asia kuin hakurobotti, hakurobotti indeksoi tietoja tietokantaan, hakukone on taas käyttöliittymä ja mekanismi, jolla tiedonhakija hakee tietoja tietokannasta. Niin sanotut meta -hakukoneet hyödyntävät useita yksittäisiä hakukoneiden tietokantoja yhtä aikaa. Niiden käyttö voi tuntua tehokkaalta ja yksinkertaiselta, mutta erilaisten hakumenetelmien, verkon kuormituksen ja tulosten rajoitetun näyttömahdollisuuden vuoksi ne eivät ole suositeltavia. [5]
WWW:ssä on myös useita alan-, paikan- ja aiheenmukaisia hakemistoja (esim. Yahoo , WWW Virtual Library ja suomalainen Serveri), jotka ovat ihmisten lajittelemia, toisin kuin hakukoneiden tiedostot, jotka ovat puhtaasti hakurobottien indeksoimia. Tämä tekee hakemistojen tiedoista luotettavampia, mutta toisaalta tiedon etsiminen voi pitkien hierarkioiden vuoksi olla työlästä, eivätkä hierarkiat aina ole loogisia. Lisäksi indeksit ovat paljon suppeampia kuin robottien keräämät, ja tietojen päivittäminen hidasta. Usein hakemistojen yhteydessä on sanahakumahdollisuus, ja monissa sanahakupalveluissa tarjotaan myös aiheenmukaisia luetteloita haun tueksi. Hakemistot ja hakukoneet kuitenkin painottavat eri asioita, hakemistot lisäävät kaiken indeksoimansa hakemistoon ja sanahaulla on mahdollista etsiä tietoa sieltä. Hakukoneet taas hakevat sanahaulla laajasta tietokannastaan, josta vain hyvin pieni osa on järjestetty hierarkiseksi hakemistoksi. Hakukoneiden ja hakemistojen yhteistyö ja sulautuminen yhdeksi palvelusivuksi lisääntyy jatkuvasti, kumpikaan hakutapa ei yksinään näytä riittävän.
Sivun alkuun | Sisällysluetteloon
Arvioinnin metodit
Hakurobotteja on arvioitu suorittamalla koehakuja. Osan koehauista tein "syvempänä". Muotoilin haut niin tarkoiksi, että tulosjoukon pienuuden ansiosta pystyin käymään kaikki dokumentit läpi. Tällä tavalla halusin arvioida haun tarkkuutta ja tulosten relevanssia. Loput hauista tein saannin arvioimiseksi. Näiden hakujen tuloksia vertailin vain tulosjoukon koon mukaan.
Toisaalta arvoin hakukoneita kvalitatiivisesti, kiinnitin huomiota hakumahdollisuuksiin, käytön opastukseen, tulosten esittämiseen, haun uudelleenmuotoilumahdollisuuteen, indeksoinnin monipuolisuuteen ja dokumentin tekijän mahdollisuuksiin vaikuttaa siihen. Kvalitatiivinen arviointi on seuraavana hakukoneiden esittelyn yhteydessä.
Koehakujen lisäksi tein myös koedokumentin. Dokumentti on Virtuaalikirjaston sivu saamen kielestä ja kulttuurista. Seurasin, milloin dokumentti löytyi eri hakupalveluista ja miten robotit olivat indeksoineet sen. Koedokumentista enemmän.
Sivun alkuun | Sisällysluetteloon
Arvioidut hakukoneet
Ihmemaa
Ihmemaa -hakupalvelun omistaa PiiPää Oy. Ihmemaan hakurobotin Hämähäkin tavoitteena on kerätä indeksi kaikista .fi -loppuisten palvelimien www-dokumenteista. Lisäksi on indeksoitu uutisryhmien artikkeleita. Kesäkuussa -96 dokumentteja on indeksoitu noin 350 000. Hämähäkki indeksoi dokumentin koko tekstin (kaiken container -tagien sisällön). Se poistaa html-tagit ja korvaa ne sanaväleillä ja indeksoi kaiken mitä jää jäljelle, myös META -tagien sisällön. Kuvien alt -tekstejä ei indeksoida. Tietokantaa päivitetään noin kerran kahdessa kuukaudessa. Muuttuneita tai uusia kotisivuja voi ilmoittaa Ihmemaan yhteydessä olevalla lomakkeella tai sähköpostin kautta, ja ilmoitetut muutokset päivitetään viikottain. Hämähäkki käy palvelimet läpi seuraamalla linkkejä niin pitkälle kuin niitä palvelimessa on, ja seuraa sitten URL -osoitteita muihin palvelimiin. [6][7]
Ihmemaan haku
Hakulauseketta voi muotoilla seuraavasti [8]:
- Boolen operaattorit suomeksi, ruotsiksi, englanniksi tai erilaisin merkein (oletuksena JA),
- sulut,
- sanakatkaisu *-merkillä,
- hakusanan minimi esiintymismäärä dokumentissa,
- haun voi rajoittaa tiettyyn palvelimeen,
- näytettävän tulosjoukon kokoa voi supistaa.
Isot ja pienet kirjaimet katsotaan samoiksi. Haussa voi käyttää kaikkia kirjaimia ja numeroita, muttei joitain erikoismerkkejä kuten @.
Käyttöliittymä on selkeä ja apua hakuun löytää helposti. Haun tuloksissa ei ole tiivistelmää, ainoastaan dokumentin nimi, koko merkkeinä ja URL -osoite. Lisäksi näkyy milloin dokumentti on indeksoitu. Haun uudelleenmuotoilu onnistuu, hakuruutu näkyy tulosjoukon yllä. Viitteet on järjestetty hakusanan/-sanojen esiintymismäärän mukaan.
Ihmemaa -hakuun
Sivun alkuun | Sisällysluetteloon
Alta Vista
Alta Vista on Digitalin kehittämä hakupalvelu. Alta Vistan päämääränä on kerätä kaikki WWW:n ja Usenet -ryhmien dokumentit tiedostoonsa. Alta Vistan indeksi kattaa tällä hetkellä (kesäkuu -96) yli 30 miljoonaa dokumenttia 275 000 palvelimesta ja 3 miljoonaa artikkelia 14 000 uutisryhmästä. Hakurobottina on Scooter, jota mainostetaan maailman nopeimpana hakurobottina.
Alta Vistan robotti indeksoi koko tekstin, myös "stopword":it ja käyttää dokumentin muutamaa ensimmäistä lausetta dokumentin tiivistelmänä esittäessään viitteitä. Alta Vista suosittelee kuitenkin kirjoittamaan itse dokumentin kuvauksen META -kenttään. Tällöin se ottaa dokumentin kuvausta tiivistelmäksi ja indeksoi myös mahdolliset META:an kirjoitetut avainsanat. Scooter indeksoi lisäksi dokumentin URL:n, koon ja linkit muualle.
Alta Vista tarjoaa kahdentasoista hakumahdollisuutta; yksinkertaista ja edistyneempää. Hakua voi muotoilla seuraavasti [9]:
Yksinkertainen haku:
- voi etsiä sanaketjua tai lausetta ("sanaketju" tai myös sana1;sana2;sana3),
- sanan katkaisu *-merkillä,
- pseudo -Boolen operaattorit; voi määrätä sanan esiintymisen välttämättömäksi (+sana) tai kokonaan kieltää tietyn sanan esiintymisen (-sana),
- tuntematon merkki tai useampi voidaan korvata *-merkillä,
- haun voi tehdä WWW:sta tai Usenetista,
- haun voi kohdistaa eri kenttiin (esim. dokumentin URL:ssa, otsikossa, linkeissä, appleteissa tai kuvien tilalla esiintyvään tekstiin) sekä WWW- että Usenet -haussa,
- viitteet voidaan esittää tiivistettyinä, yksityiskohtaisesti tai standardimuodossa (oletusarvo).
Tulosjoukko on järjestetty sen perusteella, kuinka lähellä dokumentin alkua hakulauseke tai -sana on, kuinka lähellä toisiaan hakusanat ovat ja kuinka useasti hakulause tai -sana dokumentissa esiintyy. Viitteiden yhteydessä on lyhyt tiivistelmä.
Edistyneempi haku:
- Boolen operaattorit (and, or, not; &, |, !)sekä läheisyysoperaattori NEAR tai ~ (sanan oltava korkeintaan kymmenen sanan etäisyydellä),
- sulut,
- voi etsiä sanaketjua tai lausetta ("sanaketju"),
- tuntematon merkki tai useampi voidaan korvata *-merkillä,
- haun voi tehdä WWW:sta tai Usenetista,
- haun voi kohdistaa eri kenttiin, myös uutisryhmien artikkeleita hakiessa,
- tulosjoukon järjestykseen voi vaikuttaa kirjoittamalla sanat, joiden esiintyessä dokumentit listataan ensimmäiseksi,
- hakua voi rajoittaa päivämäärillä,
- viitteet voidaan esittää tiivistettyinä, yksityiskohtaisesti tai standardimuodossa.
Alta Vista tekee eron isojen ja pienten kirjainten välillä ja ymmärtää myös skandit. Edistyneemmässä haussa dokumentit ovat relevanssijärjestyksessä vain, jos määrittää toiseen hakuruutuun sanat, joiden mukaan relevanssi arvioidaan. Muuten järjestys on mielivaltainen. Jokin sana kannattaa siis ruutuun kirjoittaa löytääkseen haluamiaan dokumentteja mahdollisesti useiden tuhansien viitteiden joukosta.
Alta Vistan hakumahdollisuudet ovat todella monipuoliset. Käyttöliittymä on selkeä ja yksinkertainen ja hakuohjeet löytyvät suhteellisen helposti. Ehkä yksinkertaisessa haussa haun muotoilun voisi tehdä enemmän valikkopohjaiseksi jotta hakua tulisi muotoiltua myös siinä. Alta Vistan tulosjoukot ovat yleensä niin suuria pelkillä sanoilla haettaessa, että järkevään tulokseen päästään vasta kun hakua on muotoiltu. Hakutulokset saa joko tiiviissä muodossa, standardina tai yksityiskohtaisina, mutta standardiviitteellä ja yksityiskohtaisella ei näytä olevan mitään eroa. Tiivistelmät ovat hiukan kömpelöitä suoraan dokumentin alusta otettuna, mutta tähänhän dokumentin tekijä voi vaikuttaa kirjoittamalla kuvauksen dokumentin sisällöstä. Kuvauksen lisäksi Alta Vista kertoo dokumentin nimen, URL:n, koon tavuina ja päivämäärän jolloin dokumenttia on viimeksi modifioitu. Haun uudelleenmuotoilu on helppoa, hakuruutu näkyy jokaisen sivun ylälaidassa. Alta Vistan linkit ovat yleensä ajantasalla ja toimivia, ja haku sujuu nopeasti.
Alta Vista -hakuun
Kirjoituksia Alta Vistasta:
- The Search Engine That Could
- Kaikkien hakukoneiden äiti
- Bob Metcalfen artikkeli: Alta Vista has a beautiful view of the Web, but are clouds rolling in?
- On The Nets: Searching the Web with Alta Vista
Sivun alkuun | Sisällysluetteloon
Excite
Excite (entinen Architext) on Standfordin yliopiston opiskelijanuorukaisten vuonna 1993 kehittämä hakupalvelu. Hakurobottina on Architext -spider. Exciten tietokantaan on indeksoitu yli 50 miljoonaa web-sivua, sekä parin viimeisen viikon uutisryhmien artikkelit.Tietokannan koon kasvaessa haku on hiukan hidastunut. Haun ohessa Excite tarjoaa kommentoidun aiheenmukaisen hakemiston ja uutisartikkeleita. Excite indeksoi sivuja niiden suosituimmuuden perusteella; mitä enemmän sivulle osoittaa linkkejä toisilta sivuilta, sitä varmemmin Exciten robotti indeksoi sivun.
Excite indeksoi koko tekstin, ei kuitenkaan META -tageja, uskoen niitä käytettävän väärin, yritettäessä manipuloida hakukonetta. [10] Exciten erikoisuus on indeksoiminen käsitteen mukaan (by concept). Excitella ei käännettyä tietokantaa kuten hakukoneilla yleensä, vaan vektoritietokanta, joka mahdollistaa erilaisten käsiteklustereiden muodostamisen. Exciten robotti tekee tilastollista analyysiä sanojen välisistä suhteista indeksoidessaan dokumentteja ja luo näin mahdollisuuden hakea käsitteellisesti läheisiä sanoja. Robotti valitsee dokumentin avainsanat ja kuvauksen käsitepohjaisen indeksoinnin avulla; se etsii dokumentin hallitsevat termit ja teemat ja etsii muutaman lauseen joissa eniten esiintyy näitä termejä dokumentin kuvaukseksi. Termit ja niiden läheiset käsitteet toimivat dokumentin avainsanoina.
Exciten tarjoamat hakumahdollisuudet :
- Boolen operaattorit (AND, OR, NOT), pseudo- Boolen operaattorit (+, -) OR on oletusarvona,
- sulut,
- haun voi tehdä Webistä tai Uutisryhmistä,
- jos haluaa painottaa jotain hakusanaa, sitä voi toistaa useamman kerran hakulauseessa,
- tulosjoukko voidaan esittää oletetussa relevanssijärjestyksessä tai dokumentin sijainnin mukaan,
- löydettyään haluamansalaisen dokumentin voi pyytää konetta hakemaan lisää samanlaisia.
Excite kehoittaa hakemaan luonnollisen kielen lauseilla. Exciten hakumahdollisuudet ovat todella niukat, ja tietokannan koon kasvaessa hakulauseen muotoilumahdollisuuksia täytyy lisätä. Excite ei huoli ääkkösiä, vaan korvaa ne tyhjällä merkillä. Isot kirjaimet erotetaan pienistä. Excite näyttää hakutulokset arvioidussa relevanssijärjestyksessä, johon vaikuttaa hakusanojen esiintymismäärä suhteessa kaikkiin dokumentin sanoihin. Tiivistelmä käsittää muutaman dokumentin sisältämän lauseen, eikä ole useinkaan kovin osuva. 29.7. 1996 Exciten kotisivu muutti muotoaan, ja haun valikko by concept/by keywords oli poistettu, tämä valinta ei ollutkaan vaikuttanut haun tuloksiin millään tavalla. Samalla hakuohjeiden löytäminen oli muuttunut mutkikkaammaksi. Excite näyttääkin tarjoavan entistä enemmän hakemistoja tiedonhakuun.
Excite -hakuun
Enemmän Excitesta:
Sivun alkuun | Sisällysluetteloon
Infoseek
Infoseekin perusti Steven Kirsch vuonna 1994. Infoseek kertoo indeksoineensa yli 50 miljoonan sivun kokotekstin. Se indeksoi www-sivuja, Usenet-keskusteluryhmiä (FAQ -ryhmiä voi hakea erikseen), e-mail -osoitteita, kuvia ja java-appleteja.
Infoseek tarjoaa kahdenlaista hakusivua; Ultrasmart tai Ultraseek. Oletussivuna oleva Ultrasmart on tarkoitettu tiedonhakijoille, jotka eivät ole tottuneet tekemään tarkkoja tiedonhakuja, haun yhteyteen on liitetty hakemistoja ja Ultrasmart tarjoaa tulosten yhteydessä hakuun liittyviä aiheita ja uutisia. Ultraseek taas tarjoaa mahdollisuuden muodostaa spesifimpia hakulauseita, hakea kuvatietokannasta tai rajata haku tiettyyn elementtiin. Infoseek suosittelee META -kenttien käyttöä. Dokumentin kuvaus otetaan ensisijaisesti META -kentästä, jos sitä ei ole, kuvaukseksi tulee dokumentin 200 ensimmäistä merkkiä. Infoseek huomioi myös META:ssa olevat avainsanat muun tekstin lisäksi. Kuitenkin jos toistaa jotain avainsanaa enemmän kuin 7 kertaa, Infoseek jättää koko avainsanakentän huomiotta. Infoseek indeksoi myös kuvien alt -kentän, mutta kehottaa kuvailemaan kehyksien sisällön META -kentässä. Jos Javascript muodostaa ensimmäiset 200 merkkiä dokumentista, kuvaus on syytä tehdä META:an, koska Infoseek ei indeksoi sitä. Infoseek indeksoi yleensä ylimmän tason dokumentit, ei hierarkiassa syvemmällä olevia sivuja.[11][12]
Infoseek antaa seuraavanlaisia mahdollisuuksia muotoilla hakulausetta [13].
Ultrasmart:
- suosittelee hakua luonnollisen kielen lauseilla
- haun voi kohdistaa WWW -sivuihin, Usenet -artikkeleihin, sähköpostiosoitteisiin, FAQ -tiedostoihin, uutisartikkeleihin tai yritysluetteloon
- pseudo -Boolen operaattorit; sanan voi määritellä välttämättömäksi (+sana) tai sen esiintymisen voi kieltää (-sana),
- voi hakea sanaketjuja tai lauseita ("sanaketju tai lause"),
- sanat voi määrätä esiintymään vierekkäin (sana-toinensana),
- haun voi tehdä WWW:stä, Usenet -keskusteluryhmistä, FAQ -ryhmistä, e-mail -tietokannasta tai Infoseekin Select Sites-, uutis- tai yrityshakemistotietokannoista,
Ultraseek:
Muuten sama kuin Ultrasmart, hakemistot vain puuttuvat sivulta ja haun voi kohdistaa tiettyyn elementtiin; LINK-, URL- tai TITLE -kenttään. Ultraseek -sivulta pääsee kuvahakusivulle. Smart info -linkin kautta löytää java-applet -haun.
Infoseek järjestää dokumentit oletetun relevanssin mukaiseen järjestykseen, johon vaikuttaa avainsanojen esiintymismäärä dokumentissa ja avainsanojen harvinaisuus tietokannan kaikissa dokumenteissa, harvinaisemmille sanoille annetaan enemmän painoa. Jokaisesta viitteestä on lyhyt tiivistelmä. Haun uudelleenmuotoilu onnistuu, hakulause näkyy jokaisen tulossivun alalaidassa. Haun voi kohdistaa myös jo saatuun tulosjoukkoon. Hakukone huomioi isot kirjaimet erikseen, muttei erottele skandeja a:sta ja o:sta. Infoseek katkaisee sanat automaattisesti. Kaikilla sanoilla voi hakea, Infoseek ei poista ns. stopwordseja ja numeroita hakulauseista tai dokumenttien tekstistä indeksoidessaan niitä. Käyttöliittymä on selkeä ja yksinkertainen. Infoseek on ympännyt vähän kaikenlaista hakusivulleen ja kokonaisuus on hiukan sekava.
Infoseek -hakuun
Enemmän Infoseekista
Sivun alkuun | Sisällysluetteloon
Lycos
Lycos on Carnegie-Mellon yliopistossa kehitetty hakurobotti, nykyisin itsenäinen yritys, Lycos Inc. Lycosin robotti käy läpi www-, gopher- ja ftp -palvelimet. Robotti selaa palvelimet korkeintaan kaksi kertaa kuukaudessa. Robotti ei indeksoi koko tekstiä, vaan dokumentin URL:n, nimen, ensimmäiset 200 merkkiä pää- ja alaotsikoista, linkit, 20 ensimmäistä riviä tai 20% dokumentista, dokumentin koko tavuina ja sanoina, päiväys jolloin dokumenttia on viimeksi päivitetty ja 100 dokumentin merkitsevintä sanaa. Nämä 100 sanaa robotti selvittää algoritmilla, jossa otetaan huomioon sanan sijainti ja frekvenssi. Lycos -hakupalvelun yhteydessä on monenlaisia aiheenmukaisia hakemistoja ja linkkilistoja, sekä kuva- ja äänihaku. Lycosiin on indeksoitu yli 50 miljoonaa dokumenttia. Mukaan on otettu myös ääni-, video- ja ohjelmisto-osoitteita.
Lycosin indeksoinnista kerrottiin 28.6 alla olevat tiedot.[14]
Lycosin robotti indeksoi ainoastaan lukijalle www-dokumentista näkyvän tekstin. Näitä se ei indeksoi:
- META-tiedostot
- Java- tai PerlScriptien sisältö, yleensäkin kaikki CGI -ohjelmat,
- frameset -komentojen välistä tekstiä, indeksoi kyllä noframes -komentojen välillä olevan tekstin.
Jos dokumentissa on paljon yllä mainittuja osia, Lycos ehdottaa tekemään text-only -version dokumentista robotteja ja tekstipohjaisia selaimia varten. Lycosin robotti indeksoi sanat avainsanoiksi sitä varmemmin, mitä lähempänä dokumentin alkua ne ovat. Siksi TITLE -kenttään kannattaa kirjoittaa mahdollisimman kuvaava otsikko, samoin dokumentin pääotsikko ja ensimmäiset lauseet kannattaa kirjoittaa harkiten. "Spamming" tai "spamdex" eli sanojen toistaminen moneen kertaan vain jotta sijoittuisi tulosjoukon alkupäähän näillä sanoilla haettaessa, ei enää onnistu Lycosissa. Sana voi toistua kuitenkin luonnostaan useita kertoja dokumentissa ja robotin voi olla vaikea erottaa tämä tarkoituksellisesta sanojen toistosta. Dokumenttiin viittaavien linkkien määrä kasvattaa dokumentin arvioitua relevanssia.[15][16][17]
Lycos tarjoaa seuraavia hakumahdollisuuksia [18]:
- Boolen operaattorit; AND ja OR vaihtoehdot ovat valikossa, NOT merkitään "-",
- voi hakea vain perusmuodossa tai tietyssä muodossa olevaa sanaa,
- tuntematon merkki tai useampi voidaan korvata $-merkillä,
- haun tarkkuuden voi määritellä viidellä tavalla, tämä vaikuttaa luonnollisesti tulosjoukon kokoon,
- näytölle tulevien viitteiden määränä voi olla 10, 20, 30 tai 40,
- viitteet voidaan esittää eri laajuisina,
- hakulauseessa ei voi käyttää numeroita eikä + -merkkiä (robotti on ohjelmoitu C++ -kielellä)
Hakulausetta voi muotoilla näpäyttämällä "customize your search" -tekstiä. Lycos järjestää tulosjoukon relevanssijärjestykseen, relevanssi on arvioitu prosenttiluvulla (100 % parhaalle). Dokumentin sijoituksen tulosjoukossa ratkaisee hakusanojen esiintymismäärä dokumentissa, niiden läheisyys toisiinsa ja sijainti dokumentissa sekä dokumentin suosittuvuus. Haun muotoileminen valikoista on yksinkertaista, mutta rajoittaa esimerkiksi Boolen operaattoreiden monipuolista käyttöä; yhdessä hakulauseessa ei voi käyttää kaikkia operaattoreita. Lycos näyttää hakusanan/-sanojen kaikki löytyneet muodot. Sanoista voi valita jonkun taivutusmuodon ja etsiä vain ne dokumentit joissa sanamuoto esiintyy. Tiivistelmä saadaan muista dokumenteista ko. dokumenttiin löytyvien linkkien teksteistä. Haun uudelleenmuotoilu onnistuu, hakulause on tulossivun alalaidassa. Lycos tunnistaa skandit. Kuva- ja äänitiedostoja haetaan yksinkertaisella sanahaulla.
Lycos -hakuun
Sivun alkuun | Sisällysluetteloon
WebCrawler
WebCrawler on America Onlinen omistuksessa oleva hakukone, hakurobotin nimi on sama kuin palvelunkin. WebCrawler oli ensimmäinen koko tekstin indeksoiva hakurobotti WWW:ssä. Robotin on kehittänyt Brian Pinkerton.
Hakukoneeseen on indeksoitu 145 166 palvelinta (huhtikuu -96). WebCrawlerin kerrotaan keräävän vain suosituimmat sivut indeksiinsä, sivu on suosittu jos siihen osoittaa suuri määrä linkkejä muista dokumenteista.WebCrawler pyrkii indeksoimaan mahdollisimman monta palvelinta, mutta indeksoi niistä vain hierarkian ylimmän tason dokumentit. Robotti indeksoi koko tekstin, ei kuitenkaan META -tageja. WebCrawler esittää tulosjoukon arvioidussa relevanssijärjestyksessä. Se laskee relevanssia kuvaavan luvun jakamalla avainsanojen esiintymismäärän dokumentin kaikkien sanojen määrällä ja järjestää dokumentit prosenttiluvun mukaan, suurin ensin.[19][17][20]
WebCrawler tarjoaa seuraavat hakulauseen muotoilumahdollisuudet [20]:
- Boolen operaattorit (AND, OR, NOT), läheisyysoperaattorit NEAR (sana esiintyy korkeintaan 25 sanan etaisyydellä toisesta) ja ADJ (sanat esiintyvät vierekkäin annetussa järjestyksessä),
- sulut
- sanaketjut tai lauseet ("sanaketju"),
- viitteistä voidaan esittää pelkkä otsikko tai tiivistelmä, niitä voidaan näyttää sivulla 10, 25 tai 100.
WebCrawler ei tee eroa isojen ja pienten kirjainten välillä, mutta tunnistaa skandit. Halutessaan linkeistä tiivistelmän ne saa näkyviin painamalla "show summaries". Dokumentin kohdalla voi lukea silloinkin "no summaries available", mihin on yleensä syynä se, että URL:n takana on vain 404 -ilmoitus, tai dokumentin alussa on kuvia ja otsikoita, joita WebCrawler ei huoli tiivistelmäksi. Tiivistelmät ovat usein hiukan kummallisia, ne on nähtävästi mudostettu niistä sanoista ja lauseista, jotka ovat keskimäärin dokumenteissa harvinaisia. Käyttöliittymä on yksinkertainen ja apua hakuun löytää helposti. WebCrawlerin Help on laaja ja perusteellinen.
WebCrawler -hakuun