Kasutusjuhend

Sõnafaili valimine

Otsingumootorit saab testida nn sõnafailide peal. Sisuliselt on sõnafail lihtsalt tekstifail, kus igal real paikneb mingi sõna või fraas. Iga sõnafailiga on seotud kindel lisateisenduste hulk - s.o. teisendusreeglite hulk, mida otsingumootor sellest sõnafailist otsimisel rakendab.

Lisateisendused

Lisateisendused näitavad, milliseid teisendusi võib otsingumootor teha otsisõnest vaste tuletamisel ja milline on nende teisenduste hind. Näiteks, kui meil on defineeritud teisendused f→ph ning ks→x, hindadega vastavalt 0.09 ja 0.02, siis otsisõnast sfinks vaste sphinx tuletamisele määratakse hind 0.11. Kuna otsingumootor kasutab baasalgoritmina Levenshteini kaugust, kasutatakse peale lisateisenduste ka kolme nn tavalist teisendusoperatsiooni: suvalise sümboli kustutamine, lisamine või asendamine (ühe) sümboliga. Tavalise teisendusoperatsiooni hinnaks on vaikimisi 1.0.

Otsing lisateisenduste testimiseks

Otsingul leitud vasted pannakse teisenduskauguse kasvamise järjekorda: kõige ees on vasted, mille leidmisel tehtud teisendusoperatsioonide summaarne hind on kõige väiksem.

Otsingul tagastatavate tulemuste hulk on piiratav kahe parameetriga: maksimaalne teisenduskaugus ja vastete maksimaalne arv tulbas. Esimene määrab selle, milline on maksimaalne hind, mis võib otsisõnast tuletatud vastel olla. Teine näitab, mitu vastet maksimaalselt iga otsinguliik (täpsed vasted, algusosa vasted, keskosa vasted, lõpuosa vasted) tagastab, piirates esimese parameetriga määratud vastete hulka. Näiteks, kui otsisõnest maksimaalsel teisenduskaugusel 1.5 leiti 23 täpset vastet, aga lubatakse maksimaalselt vasteid ühes tulbas vaid 10, siis jäetakse 13 viimast vastet kuvamata.