Projekt
„Nový hledač“
Moje množiny versus PageRank a Panda
1.
Chyby hledačů
Hledače dělají dvě chyby: nerelevanci a nerozlišování spamu.
Nerelevance je zařazení nerelevantních WWW stránek před stránky relevantní. Relevantní
WWW stránky jsou kvantitativně (rozumně) velké a kvalitativně dobré stránky,
které odpovídají hledanému slovu.
Nerozlišování spamu znamená, že nahoře v pořadí jsou „Black SEO“ WWW
stránky (formálně správné - ale bezobsažné; tapetované, opsané; předstírající,
že jsou něco jiného, než jsou ve skutečnosti; kopírované, sbírky linků apod.).
Dá se odhadnout, že poměr chyb hledačů, způsobených nerelevancí a
nerozlišováním spamu, je 50:50.
Moje množiny jsou zaměřeny především na odstranění nerelevance, i když význam
mají i pro antispam.
2. Jednotlivé WWW stránky versus množiny
Dosud hodnotily hledače jednotlivé WWW stránky. Hledače postupují tak, že pro
hledané slovo a každou WWW stránky, na které se toto klíčové slovo vyskytne,
vypočtou řadící hodnotu, tyto řadící hodnoty setřídí sestupně a podle toho
stanoví pořadí nalezených stránek. Počet nalezených stránek, na kterých se
hledané slovo vyskytuje, bývá velmi velký, často v milionech, dokonce ve
stovkách milionů. Pro rozlišení milionu nalezených stránek se řadící hodnoty
musí lišit až v šestém řádu (za desetinnou tečkou). To vede
k náhodnosti a nepřesnostem, o pořadí rozhodují maličkosti (např. výměna
pořadí dvou slov).
Já jsem přišel před cca třemi lety na to, že je lepší hodnotit množiny
komponent Internetu (WWW stránky, dokumenty, obrázky, audia, videa...). Pro
hodnocení množin používám stejná kriteria, jako pro hodnocení WWW stránek, ale
s rozdílnými vahami kriterií.
Výhody množin:
- množiny jsou větší než jednotlivé WWW stránky, vzájemně se vice liší, je tedy
pro algoritmus snazší je hodnotit a stanovit jejich pořadí.
- řadící hodnoty pro množiny jsou minimálně 10 krát větší, než řadící hodnoty
pro jednotlivé WWW stránky, liší se tedy již v pátém řádu. To odstraňuje
některé náhody a nepřesnosti. Matematicky se dá říci, že to minimálně
odstraňuje „splynutí“ řadících hodnot WWW stránek na okrajích šesti-desetinných
intervalů, jiným slovy se dá odhadnout, že řazení podle množin je o 10 procent
přesnější, než řazení podle jednotlivých WWW stránek.
3. PageRank versus množiny
Google používá jako jedno z kriterií PageRank. Ten zohledňuje WWW
odkazy mezi WWW stránkami.
Hodnocení množin komponent Internetu se od hodnocení PageRanku zásadně liší -
hodnotí se pouze stránky, které jsou součástí
dané množiny. Tyto množiny nejde konstruovat ani výměnou ani
kupováním linků. Váhu kriteria Rank pro jednotlivé WWW stránky je možno
použitím množin snížit. Váha množinového kriteria SetRank (průměr nebo součet
Ranků jednotlivých stránek množiny) je ještě menší, než váha kriteria Rank pro
jednotlivé WWW stránky.
Výhody množin:
- použití PageRanku se dá relativně snadno oklamat výměnou linků nebo nákupem
linků (specielně nákupem linků ze stejného oboru); použití množin může takové
oklamání do určité míry redukovat.
4. Panda versus množiny
Google přišel s Pandou. Panda hodnotí Weby (sites, WWW servery) za účelem
odhalení spamu. Pokud je Web vyhodnocen jako spam, odečítá se všem stránkám na
tomto Webu od jejich řadící hodnoty určité číslo, dané stupněm spamu.
Panda bere jakožto množiny celé Weby, případně některé jejich (velké) části.
Postupuje tedy vcelku, seshora, od „molekul“ k „atomům“. Je zaměřena výhradně
na antispam, pro řešení nerelevancí nedává smysl. Krom toho Panda pravděpodobně
zařazuje do množin jen WWW stránky.
Já konstruuji množiny okolo každé WWW stránky (případně vyhodnotím, že WWW
stránka žádnou množinu nemá). Postupuji tedy po částech, zdola, od „atomů“ k
„molekulám“. Do množin zařazuji nejen WWW stránky, ale i další komponenty
Internetu (dokumenty, obrázky, audia, videa). V teoretickém vývoji mám cca
2 roky náskok.
Výhody množin:
- Pandí množiny, konstruované pouze z WWW stránek, jsou méně výstižné, než
moje množiny, konstruované z WWW stránek plus dalších komponent Netu.
- Panda se nedá použit pro řešení nerelevanci; moje
množiny se pro řešení nerelevanci použít dají.
- pokud Panda vyhodnotí celý Web jakožto spam, postihne všechny WWW
stránky tohoto Webu - to má negativní důsledky tehdy, pokud omylem vyhodnotí
„čistý“ Web jakožto spam; moje množiny jsou menší, takže i špatné vyhodnocení
má menší důsledky (postihne pouze tuto množinu, nikoli pro celý Web) - jinými
slovy: použití pravidel Pandy na moje množiny Pandu
zpřesní.
- v případě Pandy už nyní spameři vědí, že je zaměřena na celé Weby, tudíž
se mohou bránit optimalizací jejich Webů; v případě mých množin alespoň
zpočátku nebudou spameři vědět, co to vlastně ty množiny jsou, tedy nebudou
moci tyto množiny optimalizovat.
5. Důsledky
Pořadí nalezených linků podle mých množin je lepší (přesnější),
než pořadí podle jednotlivých WWW stránek i než pořadí podle Pandy.
Můj postup konstrukce množin je možno patentovat.
Implementace mého algoritmu je snadná. Nejsou potřeba prakticky žádné změny
v existujících souborech a programech, pouze přidání několika souborů a
programů.
6. Poznámka
Google moje množiny zcela jistě nepoužívá.
Důkazem je jeho pořadí linků, například při hledání slova „Lednice“ je link na
izolovanou WWW stránku http://www.zamek-lednice.cz
čtvrtý.
7. WWW odkazy
Rank
http://en.wikipedia.org/wiki/PageRank
http://cs.wikipedia.org/wiki/PageRank
http://www.jakpsatweb.cz/seo/pagerank.html
Panda
http://googleblog.blogspot.com/2011/02/finding-more-high-quality-sites-in.html
http://en.wikipedia.org/wiki/Google_Panda
http://www.justit.cz/wordpress/2012/02/12/infografika-vse-co-potrebujete-vedet-o-pande-google-pande
Moje množiny
http://www.milionovastranka.net/kulicky_a_mice.htm
http://www.milionovastranka.net/graficke_vysvetleni.htm