Projekt „Nový hledač“

Vysvětlení mého principu hledání

 

1.

Podstata mého principu hledání je ve dvou bodech:

- hodnotím všechny komponenty Netu (WWW stránky, skripty, obrázky (kresby, fotky, mapy), audio, video, dokumenty...)

- z těchto komponent vytvářím jiné objekty = tematicky spjaté množiny.

Naprostý rozdíl mezi Googlem apod. a mnou je, že stávající hledače hodnotí WWW stránky, tedy v podstatě prvky, zatímco já hodnotím množiny tematicky spjatých komponent Netu.

Většina WWW stránek je si navzájem velmi podobná, co se týče velikosti, výskytu klíčových slov a pokud bereme domovské WWW stránky tak i co se týče počtu WWW odkazů. Rozdíly jsou minimální, rozlišovací prostor je velmi nahuštěn, často rozhoduje jeden výskyt klíčového slova, 1-2 linky nebo též náhoda (umístění klíčových slov). Ani sebelepší hledač (a že Google je nějak kvalitní) s tím nic nenadělá, to je obecně dáno tím principem hodnocení WWW stránek.

Na rozdíl od toho já hodnotím tematicky spjaté množiny komponent Netu. To jsou zpravidla velké množiny, mezi kterými se dobře rozlišuje (co se týče velikosti, výskytu klíčových slov, WWW odkazů apod.). Prostě já mám ten rozlišovací prostor pohodlně roztažen, takže můj algoritmus z toho principu funguje líp než stávající algoritmy hledání.

Teprve z pořadí takových množin odvozuji pořadí stránek, v nich obsažených.

Hezky se to dá ukázat na příkladu Ranku stránek, který je ve stávajících hledačích (PageRank, SRank) statický (nezávisí na klíčových slovech), zatímco v mém algoritmu je dynamický (závisí na klíčových slovech v tematicky spjatých množinách), což je opět mnohem přesnější.

Jinak řečeno:

Na jedné straně je hledající a hledané klíčové slovo, na druhé straně je množina všech informací na Netu ohledně tohoto klíčového slova. WWW stránky si z této množiny ukusují jen velmi malé kousky, řádově procento a méně. Jedna WWW stránka o Mikulově obsahuje řekněme 1 procento všech informací o Mikulově na Netu, druhá 0.9 procenta, třetí 0.8 procenta. Rozdíly mezi WWW stránkami jsou relativně malé.

Na rozdíl od toho si množiny komponent Netu ukusují z celkové informace o klíčovém slově mnohem větší části. Množina tematicky spjatých komponent Netu o Mikulově může obsahovat 10 procent všech informací, druhá množina 9 procent, třetí množina 8 procent, dále to zpravidla hodně klesá. Rozdíly mezi množinami jsou relativně velké.

Rozdíly mezi množinami komponent Netu jsou mnohem větší, než mezi jednotlivými WWW stránkami. Dá se odhadnout, že můj rozlišovací prostor je 10x větší než rozlišovací prostor Google (stávajících hledačů). Z tohoto principu je můj algoritmus mnohem robustnější, pořadí WWW stránek, stanovené mým algoritmem, je kvalitnější.

 

2.

Základní vlastností mého principu je, že nahoru při hledání vynáší právě relevantní, tedy kvalitativně i kvantitativně dobré WWW stránky pro hledaná klíčová slova. Nahoře jsou WWW stránky, které jsou adekvátní dotazu (klíčovým slovům hledání) - nikoli obecnější, jiné či méně obecné WWW stránky.

 

3.

Můžete si to představit tak, že do textového editoru (Word apod.) natáhnete klasický algoritmus hledání (v textové podobě) a poté dáte příkaz nahraď „WWW stránky“/“jiné objekty“. Tak je můj nový princip hledání vnořen do všech kriterií (pravidel) klasického algoritmu hledání. Z původního algoritmu, který hodnotil WWW stránky, vznikne nový algoritmu, který hodnotí jiné objekty, přičemž všechna kriteria jsou zachována. Tak dosahuji hodnocení kvantity i kvality těch jiných objektů. Pořadí WWW stránek odvozuji z pořadí jiných objektů (množin), v nichž jsou tyto WWW stránky obsaženy.

 

4.

Grafický výstup mého hledače je stejný jako u stávajících hledačů, tedy vždy náhled WWW stránky a blok s vybraným textem z této stránky. Rozdíl mezi stávajícími hledači a mým hledačem je ovšem v pořadí WWW stránek.