Projekt „Nový hledač“
Moje množiny versus PageRank a Panda

1. Chyby hledačů

Hledače dělají dvě chyby: nerelevanci a nerozlišování spamu.
Nerelevance je zařazení nerelevantních WWW stránek před stránky relevantní. Relevantní WWW stránky jsou kvantitativně (rozumně) velké a kvalitativně dobré stránky, které odpovídají hledanému slovu.
Nerozlišování spamu znamená, že nahoře v pořadí jsou „Black SEO“ WWW stránky (formálně správné - ale bezobsažné; tapetované, opsané; předstírající, že jsou něco jiného, než jsou ve skutečnosti; kopírované, sbírky linků apod.).
Dá se odhadnout, že poměr chyb hledačů, způsobených nerelevancí a nerozlišováním spamu, je 50:50.
Moje množiny jsou zaměřeny především na odstranění nerelevance, i když význam mají i pro antispam.

2. Jednotlivé WWW stránky versus množiny

Dosud hodnotily hledače jednotlivé WWW stránky. Hledače postupují tak, že pro hledané slovo a každou WWW stránky, na které se toto klíčové slovo vyskytne, vypočtou řadící hodnotu, tyto řadící hodnoty setřídí sestupně a podle toho stanoví pořadí nalezených stránek. Počet nalezených stránek, na kterých se hledané slovo vyskytuje, bývá velmi velký, často v milionech, dokonce ve stovkách milionů. Pro rozlišení milionu nalezených stránek se řadící hodnoty musí lišit až v šestém řádu (za desetinnou tečkou). To vede k náhodnosti a nepřesnostem, o pořadí rozhodují maličkosti (např. výměna pořadí dvou slov).
Já jsem přišel před cca třemi lety na to, že je lepší hodnotit množiny komponent Internetu (WWW stránky, dokumenty, obrázky, audia, videa...). Pro hodnocení množin používám stejná kriteria, jako pro hodnocení WWW stránek, ale s rozdílnými vahami kriterií.
Výhody množin:
- množiny jsou větší než jednotlivé WWW stránky, vzájemně se vice liší, je tedy pro algoritmus snazší je hodnotit a stanovit jejich pořadí.
- řadící hodnoty pro množiny jsou minimálně 10 krát větší, než řadící hodnoty pro jednotlivé WWW stránky, liší se tedy již v pátém řádu. To odstraňuje některé náhody a nepřesnosti. Matematicky se dá říci, že to minimálně odstraňuje „splynutí“ řadících hodnot WWW stránek na okrajích šesti-desetinných intervalů, jiným slovy se dá odhadnout, že řazení podle množin je o 10 procent přesnější, než řazení podle jednotlivých WWW stránek.

3. PageRank versus množiny

Google používá jako jedno z kriterií PageRank. Ten zohledňuje WWW odkazy mezi WWW stránkami.
Hodnocení množin komponent Internetu se od hodnocení PageRanku zásadně liší -  hodnotí se pouze stránky, které jsou součástí dané množiny. Tyto množiny nejde konstruovat ani výměnou ani kupováním linků. Váhu kriteria Rank pro jednotlivé WWW stránky je možno použitím množin snížit. Váha množinového kriteria SetRank (průměr nebo součet Ranků jednotlivých stránek množiny) je ještě menší, než váha kriteria Rank pro jednotlivé WWW stránky.
Výhody množin:
- použití PageRanku se dá relativně snadno oklamat výměnou linků nebo nákupem linků (specielně nákupem linků ze stejného oboru); použití množin může takové oklamání do určité míry redukovat.

4. Panda versus množiny

Google přišel s Pandou. Panda hodnotí Weby (sites, WWW servery) za účelem odhalení spamu. Pokud je Web vyhodnocen jako spam, odečítá se všem stránkám na tomto Webu od jejich řadící hodnoty určité číslo, dané stupněm spamu.
Panda bere jakožto množiny celé Weby, případně některé jejich (velké) části. Postupuje tedy vcelku, seshora, od „molekul“ k „atomům“. Je zaměřena výhradně na antispam, pro řešení nerelevancí nedává smysl. Krom toho Panda pravděpodobně zařazuje do množin jen WWW stránky.
Já konstruuji množiny okolo každé WWW stránky (případně vyhodnotím, že WWW stránka žádnou množinu nemá). Postupuji tedy po částech, zdola, od „atomů“ k „molekulám“. Do množin zařazuji nejen WWW stránky, ale i další komponenty Internetu (dokumenty, obrázky, audia, videa). V teoretickém vývoji mám cca 2 roky náskok.
Výhody množin:
- Pandí množiny, konstruované pouze z WWW stránek, jsou méně výstižné, než moje množiny, konstruované z WWW stránek plus dalších komponent Netu.
- Panda se nedá použit pro řešení nerelevanci; moje množiny se pro řešení nerelevanci použít dají.
 - pokud Panda vyhodnotí celý Web jakožto spam, postihne všechny WWW stránky tohoto Webu - to má negativní důsledky tehdy, pokud omylem vyhodnotí „čistý“ Web jakožto spam; moje množiny jsou menší, takže i špatné vyhodnocení má menší důsledky (postihne pouze tuto množinu, nikoli pro celý Web) - jinými slovy: použití pravidel Pandy na moje množiny Pandu zpřesní.
- v případě Pandy už nyní spameři vědí, že je zaměřena na celé Weby, tudíž se mohou bránit optimalizací jejich Webů; v případě mých množin alespoň zpočátku nebudou spameři vědět, co to vlastně ty množiny jsou, tedy nebudou moci tyto množiny optimalizovat.

5. Důsledky

Pořadí nalezených linků podle mých množin je lepší (přesnější), než pořadí podle jednotlivých WWW stránek i než pořadí podle Pandy.
Můj postup konstrukce množin je možno patentovat.
Implementace mého algoritmu je snadná. Nejsou potřeba prakticky žádné změny v existujících souborech a programech, pouze přidání několika souborů a programů.

6. Poznámka

Google moje množiny zcela jistě nepoužívá.
Důkazem je jeho pořadí linků, například při hledání slova „Lednice“ je link na izolovanou WWW stránku http://www.zamek-lednice.cz čtvrtý.

7. WWW odkazy

Rank
http://en.wikipedia.org/wiki/PageRank
http://cs.wikipedia.org/wiki/PageRank
http://www.jakpsatweb.cz/seo/pagerank.html

Panda
http://googleblog.blogspot.com/2011/02/finding-more-high-quality-sites-in.html
http://en.wikipedia.org/wiki/Google_Panda
http://www.justit.cz/wordpress/2012/02/12/infografika-vse-co-potrebujete-vedet-o-pande-google-pande

Moje množiny
http://www.milionovastranka.net/kulicky_a_mice.htm
http://www.milionovastranka.net/graficke_vysvetleni.htm