Projekt „Nový hledač“
Můj nový princip hledání, teorie a praxe

 

Pro stanovení pořadí nalezených linků při hledání nepoužívám jednotlivé WWW stránky, ale množiny komponent Internetu (WWW stránky, dokumenty, obrázky, audia, videa, scripty...). Tyto množiny jsou větší než jednotlivé WWW stránky, vzájemně se vice liší, je tedy pro můj algoritmus snazší je hodnotit a stanovit jejich pořadí. To je bod A, tedy teorie.
Bod B je praxe (realizace) téhle mé myšlenky, tedy jak ty množiny tvořit. Internet (celý světový Web) je graf, v kterém jsou WWW stránky (a další komponenty) uzly a WWW odkazy jsou hrany. A je to dokonale heterogenní síť, WWW stránky jsou spojeny v podstatě náhodně, bez ladu a skladu a mimoto skoro každá WWW stránka může být v principu spojena s každou jinou. A já jsem přišel na to, jak z téhle houštiny (roští) ty potřebné množiny vysekat, tedy jak odlišit relevantní hrany vod nerelevantních. Dělám to prostě trošku jinak než stávající hledače. A jak to dělám? Sorry, tohle samozřejmě neprozradím, to je to moje klíčové tajemství, na kterém je moje technologie založena.
Snad jen tohle:
To, co já hlavně z WWW stránek a dalších komponent Internetu potřebuji vytáhnout, jsou informace, do které množiny (kterých množin) patří. A pro tohle zařazení pak kombinuji tyto informace s hranami, tedy s WWW odkazy.
PS
Moje teorie je kombinace: selský rozum, pravděpodobnost, statistika, teorie grafů, fuzzy množiny. Nejedná se o velkou vědu (neuronové sítě apod.) ani o umělou inteligenci.
PS2
Podstatná poznámka k mé technologii.Tohle je hodně odborné, ale matematici a IT experti by to měli pochopit.
Já jsem stran hledání vymyslel:
A) místo stránek používat množiny
B) jak tyto množiny konstruovat.
Ačko jsem publikoval jako první na světě, to už mi nikdo nevezme. Ale bez Bčka by Ačko byla jen teorie, a to Bčko jsem vymyslel také.
Pokud se nad tím Ačkem nějaký expert přes matematiku, hledače, SEO apod.. zamyslí, tak během několika hodin či dnů přijde na to, co by ty moje množiny mohly triviálně být.
Také já jsem na to přišel brzy (cca za týden) a zděsil jsem se, vždyť tohle by mohl vymyslet kdekdo. Ale pak jsem se uklidnil, ono to triviální řešení nefunguje (!). Je totiž založené na lineární algebře, která se pro Internet nehodí. Plyne z něj, že uděláme pro danou stránku pořadí množiny P1, do které tato stránky patří, a pořadí stránky v této množině P2. A pak to lineárně vyhodnotíme: P = V1xP1 + V2xP2, kde P je výsledné pořadí stránky při hledání na Internetu pro dané klíčové slovo, V1 je konstantní váha pro množiny a V2 je konstantní váha pro jednotlivé WWW stránky v množinách. Vtip je v tom, že nejde stanovit konstanty V1 a V2 tak, aby byly univerzálně použitelné (plyne z praxe). Naopak, V1 a V2 jsou různé pro každou množinu stránek, resp. stránku, nejen staticky (bez ohledu na hledané klíčové slovo), ale i dynamicky (při doindexaci v okamžiku dotazu pro hledané klíčový slovo). Lineární algebra tedy pro řešení hledacích množin nestačí, je potřeba použít daleko složitější a obtížnější model, založený na teorii grafů. A tento model jsem vymyslel.