Projekt „Nový hledač“

Souhrn

 

Výchozí pozice - Můj vkladFinanceHistoriePostup - Odhad prodejní ceny - Vlastnosti projektu - Myšlenka, nový princip hledáníPatentování - Algoritmus, stručný popisMinihledač - Metoda hodnocení výsledků hledání - Microsoft a Bing - Stručné CV - Kontakt


1. Výchozí pozice

Google je největší firma na Internetu a jedna z nejbohatších firem na světě vůbec. Ale, jednak se po dobu 15ti let v hledání na Internetu skoro nic nezměnilo - změny jsou buďto variace na téma algoritmu, který vymysleli v roce 1995 Larry Page a Sergey Brin, nebo parciální začlenění nových trendů na Netu (sociální sítě apod.). A jednak je cca 30 procent WWW odkazů je v Google špatně umístěných (můj dřívější odhad, který nyní potvrdila studie City Group). Relevantní (kvalitativně i kvantitativně skvělé WWW stránky) nejsou nahoře, zatímco méně významné WWW stránky jsou nahoře. Tedy je možné vytvořit lepší hledač. Myslím, že znám cestu, která k tomu vede: Existující hledače hodnotí WWW stránky, já hodnotím něco jiného.


2. Můj vklad

Do projektu vkládám:

Myšlenku – nový princip hledání (hotovo). Algoritmus hledání (je hotov sytém kritérií a počáteční nastavení vah mezi kriterii). Algoritmus minihledače (hotovo).

Minihledač (až bude hotov, nutno vypracovat, hlavně k tomu směřuje investice). Metodu hodnocení výsledků hledání (hotovo).

 

3. Finance

Již jsem získal počáteční investici 1 milion Kč. Tato investice stačí pro realizaci prototypu (minihledače). Práci na tomto prototypu jsem zahájil dne 1.2.2011.

Viz též: Rozpočet prototypu.

Hledám investici do reálného Nového českého hledače nebo Nového slovenského hledače.

Možnosti a podmínky investice jsou popsány tady: Investice do Nového českého nebo slovenského hledače.

Viz též: Nový český hledač, Nový český hledač - rozpočet.

4. Historie

Můj nový princip hledáni jsem vymýšlel cca 3 roky. Položil jsem si otázku, proč není Google a jiné stávající hledače optimální, a nakonec jsem na to přišel.

 

5. Postup

Pro ověření mého principu a algoritmu hledání potřebuji udělat prototyp – minihledač, jedná se o práci na 12 měsíců.

Pravděpodobnost 70 procent: moje hledání bude srovnatelné nebo lepší než hledání na Google, algoritmus se prodá Microsoftu pro Bing nebo jinému vhodnému zájemci.

Pravděpodobnost 20 procent: moje hledání bude srovnatelné nebo lepší než hledání na Seznamu, zrealizuje se a bude se provozovat „Nový český hledač“, případně se bude Nový hledač pronajímat pro lokální hledání (portály, informační servery, firemní servery…).

Pravděpodobnost 5 procent: budu pokračovat ve vývoji algoritmu, zejména v optimalizaci vah kriterií a následně se řešení vrátí do jedné z výše uvedených variant.

Pravděpodobnost 5 procent: nevyjde ani jedna z výše uvedených variant, projekt se ukončí.

 

6. Odhad prodejní ceny

Autoři Google se snažili prodat jejich algoritmus za 1.6 miliardy USD.

Microsoft se snažil koupit Yahoo, nejprve vcelku (za cca 44 miliard USD), poté jen „hledací část“ (za cca 19 miliard USD). Odhad rozdělení ceny Yahoo:

10 miliard značka, 10 miliard portál, 5 miliard hledač – hardware, 5 miliard hledač – síť, 5 miliard hledač – software, 5 miliardy hledač – algoritmus.

V případě úspěchu a prodeje mého algoritmu hledání může být tedy prodejní cena tohoto algoritmu cca 2 miliardy USD. Cena 2 miliardy USD by se dělila napůl, tedy já 1 miliardu USD a investor (investoři) 1 miliardu USD. To by znamenalo pro investora (investory) celkový příjem cca 20 tisící násobek investice, a to cca do jednoho roku: příjem 1 miliarda USD = cca 20 miliard Kč / investice 1 milion Kč = 20 tisíc.

 

7. Vlastnosti projektu

Pravděpodobnost plného úspěchu je 70 procent. První výsledky budou k dispozici cca za 6 měsíců, celkový výsledek (kvalita algoritmu v porovnání s Google a/nebo Bing, obchodní jednání) bude znám cca za 1 rok. V případě plného úspěchu bere investor cca 20 tisíci násobek původní investice (!), případní jednotliví investoři by získali odpovídající podíly dle velikosti jejich investice. V případě neúspěchu jsou k dispozici náhradní varianty, které riziko snižují, viz bod 5 – Postup.

 

8. Myšlenka - nový princip hledání

Zde jsou některé charakteristiky principu hledání, který jsem vymyslel.

8.1.

Podstata mého principu hledání je ve dvou bodech:

- hodnotím všechny komponenty Netu: WWW stránky, skripty, obrázky (kresby, fotky, mapy), audio, video, dokumenty...

- z těchto komponent vytvářím jiné objekty = tematicky spjaté množiny.

Naprostý rozdíl mezi Googlem apod. a mnou je, že stávající hledače hodnotí WWW stránky, tedy v podstatě prvky, zatímco já hodnotím množiny tematicky spjatých komponent Netu. Rozdíly mezi množinami komponent Netu jsou mnohem větší, než mezi jednotlivými WWW stránkami. Dá se odhadnout, že můj rozlišovací prostor je 10x větší než rozlišovací prostor Google (stávajících hledačů). Z tohoto principu je můj algoritmus mnohem robustnější, pořadí WWW stránek, stanovené mým algoritmem, je kvalitnější.

8.2.

Základní vlastností mého principu je, že nahoru při hledání vynáší právě relevantní, tedy kvalitativně i kvantitativně dobré WWW stránky pro hledaná klíčová slova. Nahoře jsou WWW stránky, které jsou adekvátní dotazu (klíčovým slovům hledání) - nikoli obecnější, jiné či méně obecné WWW stránky.

8.3.

Můžete si to představit tak, že do textového editoru (Word apod.) natáhnete klasický algoritmus hledání (v textové podobě) a poté dáte příkaz nahraď „WWW stránky“/“jiné objekty“. Tak je můj nový princip hledání vnořen do všech kriterií (pravidel) klasického algoritmu hledání. Z původního algoritmu, který hodnotil WWW stránky, vznikne nový algoritmu, který hodnotí jiné objekty, přičemž kriteria jsou zachována. Tak dosahuji hodnocení kvantity i kvality těch jiných objektů. Pořadí WWW stránek odvozuji z pořadí jiných objektů (množin), v nichž jsou tyto WWW stránky obsaženy.

8.4.

Nejedná se o žádné fluidum (abstraktum), naopak pod mým termínem „jiné objekty“ se skrývá známý počítačový pojem s pevným obsahem, použitý „jiným způsobem“ při hledání. Prostě se na hledání dívám z jiného úhlu pohledu.

8.5.

Moji myšlenku stávající algoritmy nepoužívají. Plyne to z mého studia veřejně přístupných popisů algoritmů i z praktického ověřování. Pokud by tuto myšlenku stávající hledače používaly, musely by se chovat jinak, jejich pořadí WWW stránek při hledání by bylo jiné.

8.6.

Na příkladě jednoho ze základních kriterií hledání, tedy Ranku, mohu dokázat, že se můj algoritmus liší od Google a že je teoreticky lepší. Rozdíl mezi Googlem (a dalšími hledači) a mnou je, že pro Google je PageRank statický (nezávisí na hledaném klíčovém slově), zatímco pro mne je Rank dynamický (závisí na klíčovém slově). Investorovi jsem dokonce při osobní schůzce ochoten ukázat přibližný vzorec pro výpočet mého Ranku.

8.7.

Nemám v algoritmu žádné zvláštní kriterium pro anti "SEO spamming", tedy proti umělému (formálnímu) vyzdvihování WWW stránek při hledání nahoru, který je pro současné hledače velkým problémem. Ale kouzlo mé myšlenky a algoritmu spočívá mimo jiné v tom, že tento SEO spamming dokáži přirozeně eliminovat. Black SEO se pro můj princip hledání bude dělat asi 10x obtížněji, než je tomu ve stávajících hledačích. Jednak SEO spammeři nebudou dlouhou dobu vědět, na co optimalizovat, co jsou to ty „jiné objekty“. Ale i až to intuitivně vytuší, bude to pro ně mnohem časově i finančně náročnější, než je tomu ve stávajících hledačích. A koneckonců, pokud vyrobí velkou a kvalitní množinu komponent Netu na dané téma, pak už se bude jednat spíše o kvalitní obsahové stránky, než o SEO spamming.

8.8. Patentování

Můj princip a/nebo algoritmus je (podle mého názoru) patentovatelný (zabývám se i ochranou duševního vlastnictví, patenty, označením původu v EU apod.).

Ovšem nechci to patentovat z těchto důvodů:

- je to něco jako rodinné stříbro, jako recept na Becherovku, který se neprozrazuje ani nepatentuje; pokud se něco patentuje, je patentová přihláška (patent) zveřejněn, tedy veřejně přístupný; pokud by myšlenku někdo použil, bylo by obtížné to dokázat (náklady na soudní řízení; jak se vyznat ve stovkách tisících řádků zdrojového kódu cizího hledače; zneuživatel může soudu předložit jiný zdrojový kód, než ve skutečnosti používá – pro přímý důkaz tohoto by bylo třeba někde jinde zrealizovat prakticky celý duplicitní hledač...)

- udělat skutečně světový patent (hledače jsou světové) přijde na cca půl milionu dolarů, zvláště v počátečním stadiu projektu jsou takové náklady nepředstavitelné.

Viz též Vysvětlení mého principu hledání, Grafické vysvětlení mého principu hledání, Názorné vysvětlení rozdílu mezi Google a mnou (Kuličky a míče).

 

9. Algoritmus - stručný popis

Můj algoritmus hledání se skládá z cca 30 kriterií. Do všech těchto kriterií se promítá můj nový princip hledání. Některá kriteria jsou navíc nová nebo modifikovaná. Důležité je také nalezení správných vah kriterií v algoritmu. Mám počáteční nastavení vah, váhy se budou optimalizovat pomocí minihledače.

Viz též Vysvětlení mého algoritmu hledání.

 

10. Minihledač

Normálně by bylo třeba pro ověření algoritmu hledání zkonstruovat celý hledač (práce pro několik – spíše desítek - lidí na několik let). Vymyslel jsem, jak tento postup redukovat na práci cca 2 lidí cca 1 rok. Vybere se 10-100 klíčových slov (hesel). Od každého klíčového slova najde minihledač 100-1000 předních WWW stránek. Minihledač stanoví pořadí těchto WWW stránek podle mého algoritmu. Poté provedu optimalizaci vah jednotlivých kriterií, tedy budu měnit váhy a sledovat, jak se to projeví na pořadí WWW stránek. Na závěr vyberu, dle mého názoru, ten „nejlepší“ poměr vah. Výsledky hledání tohoto optimalizovaného algoritmu se porovnají s výsledky hledání Google a Bing.

 

11. Metoda hodnocení výsledků hledání

Vyvinul jsem metodu, jak hodnotit výsledky hledání, tedy jak porovnat výsledky hledání dvou hledačů. Tuto metodu použiji pro ověření, zda můj minihledač funguje lépe než Google. Pro každý nalezený WWW odkaz (WWW stránku) je třeba odhadnout, jaké procento hledajících uživatelů na daný WWW odkaz klikne a shledá příslušnou WWW stránku relevantní (odpovídající tomu, co chtěl uživatel najít). Odhad lze provést z hlediska zájmů a geografie uživatele. Takto lze vyhodnotit většinu nalezených WWW odkazů (WWW stránek).

Existují nejméně další dvě metody hodnocení výsledků hledání. Jednu má City Group, druhou Microsoft (dle vyjádření Steve Ballmera). Pokud si to bude kupec mého algoritmu (Microsoft pro Bing) přát, může si zvolit vlastní testovací klíčová slova, já mu tato slova zpracuji a vygeneruji pořadí nalezených linků. Následně si toto pořadí bude moci porovnat dle jeho vlastní metodiky s výsledky hledání Google, Bing, případně jiného hledače.

 

12. Microsoft a Bing

Microsoft se snaží o proniknutí na Internet (hledání) již cca 10 let (Inktomi, Netscape, MSN Search, Live Search, Yahoo, Bing). Microsoft uvedl nový hledač Bing na Internet v květnu 2009, zatím bez výraznějšího úspěchu. Statistiky návštěvnosti hledače Bing cca 2 měsíce rostly (díky reklamní kampani za cca 100 milionů dolarů), nyní stagnují. Poměr mezi užíváním Google a Bing ve světě je cca 30:1 (viz http://gs.statcounter.com/#search_engine-ww-monthly-200905-201103, v USA cca 10:1 (viz http://gs.statcounter.com/#search_engine-US-monthly-200905-201103). Po roce je tedy jasné, že Microsoft s Bingem neuspěl, a pokud chce uspět, bude muset zlepšit kvalitu hledání, tedy vyměnit algoritmus. A na takovou chvíli budu připraven.

 

13. Stručné CV

Vystudoval jsem ČVUT Praha, obor počítače. Mám titul CSc. za práci o strukturovaném programování. Cca 15 let programátor, Brno, velký laboratorní informační systém. Po sametové revoluci nezávislý odborník a živnostník, obory programování a Internet. Vymyslel a realizoval jsem programovací jazyk Visual Pascal. Seznamy a hledači se zabývám cca 10 let, cca 6 let teoreticky a cca 4 roky prakticky. O koupi mých patentově chráněných algoritmů pro seznamy se zajímal Netscape. 5 let práce pro kanadskou firmu, telekomunikace, spojení mezi počítači a mobilními telefony. Nyní se provozuji 21 WWW serverů, zabývám se hledáním na Internetu, zlepšováním pořadí na hledačích a prezentacemi.

 

V Brně dne 10.2.2011.

 

Ing. Petr Hejl, CSc.

Ondrouškova 15, 63500 Brno

tel.: 608 374 535

email: phejl@lednice.org