Projekt “Nový hledač”
Rozdíly mezi slovy (zpracovaná, podobná, MySites)



Pro každé zpracované slovo jsem stáhnul a zpracoval v průměru 16 tisíc WWW stránek.
Pro zpracovaná slova jsem správně vytvořil množiny, takže výsledky hledání těchto slov jsou relevantní.
Zpracovaných slov je 60, 30 českých a 30 anglických.

Účelem podobných slov je ukázat, že Hlodač hledá (relativně rozumně) také jiná slova, než jsou zpracovaná slova.
Podobné slovo ke zpracovanému slovu je možné hledat v množině WWW stránek příslušného zpracovaného slova.
Například „universities“ je podobné slovu „school“.
Při hledání podobných slov jsou zpravidla relevantní jen některé úvodní linky, další linky jsou nerelevantní.
Příčinou není algoritmus, ale nedostatek dat (nedostatek stažených WWW stránek pro podobné slovo).
Proto pro podobné slovo existuje jen několik relevantních stránek a
nejsou správně vytvořeny podmnožiny (z jedné podmnožiny je staženo 10
% stránek a z jiné 90% stránek).
Podobných slov je neomezené množství. Vybraných podobných slov je 277, všechny jsou anglická a jsou na proklik na domovské stránce Hlodače (viz link na seznam níže).

MySites slova umožňují přesné porovnání Hlodače a Google. Pro porovnání je použit Google CSE (Google Vlastní vyhledávání).
Hlodač i Google hledají na týchž 22 doménách, tedy za skoro stejných podmínek.
Slova MySites mohou být libovolná, pro smysluplné hledání by se měla vztahovat k obsahu stažených domén.
Počet vyhodnocených MySites slov je 232.

Celkový počet slov na proklik z domovské stránky Hlodače je tedy 60 + 232 + 277 = 569.

Zde jsou seznamy zpracovaných, podobných a MySites slov.:

Zde je rozdíl mezi zpracovanými a nezpracovanými slovy.
Zde je rozdíl mezi zpracovanými a podobnými slovy.