Projekt „Nový hledač“
Business plán

Výchozí pozice - Můj vkladFinanceHistoriePostup - Odhad prodejní ceny - Vlastnosti projektu
Myšlenka, nový princip hledáníPatentování - Algoritmus, stručný popisMinihledač - Metoda hodnocení výsledků hledání
Microsoft a Bing - Stručné CV - Kontakty

1. Výchozí pozice
Google je největší firma na Internetu a jedna z nejbohatších firem na světě vůbec. Ovšem cca 30 procent WWW odkazů je v Google špatně umístěných (můj dřívější odhad, který nyní potvrdila studie City Group). Relevantní (kvalitativně i kvantitativně skvělé WWW stránky) nejsou nahoře, zatímco méně významné WWW stránky jsou nahoře. Tedy je možné vytvořit lepší hledač. Myslím, že znám cestu, která k tomu vede.

2. Můj vklad
Do projektu vkládám:
Myšlenku – nový princip hledání (hotovo).
Algoritmus hledání (je hotov sytém kritérií a počáteční nastavení vah mezi kriterii).
Algoritmus minihledače (hotovo).
Minihledač (až bude hotov, nutno vypracovat, hlavně k tomu směřuje investice).
Metodu hodnocení výsledků hledání (hotovo).
Podrobnější informace k vkládaným věcem jsou uvedeny níže.

3. Finance
Již jsem získal počáteční investici 1 milion Kč. Tato investice stačí pro realizaci prototypu (minihledače). Práci na tomto prototypu jsem zahájil dne 1.2.2011.
Viz též: Rozpočet prototypu.
Hledám investici do reálného Nového českého hledače nebo Nového slovenského hledače.
Možnosti a podmínky investice jsou popsány tady: Investice do Nového českého nebo slovenského hledače.
Viz též: Nový český hledač, Nový český hledač - rozpočet.

4. Historie
Současný stav tohoto projektu je moje práce po dobu cca 4 let. Před cca 4 lety jsem si všiml (jako většina hledajících), že hledače (včetně nejlepšího Google) nedávají takové výsledky hledání, jaké bych očekával. Udělal jsem si malý průzkum, který jsem později zpřesnil na základě cca 100 klíčových slov, a zjistil jsem, že cca 30 procent nalezených WWW stránek je umístěno špatně. Cca 3 roky jsem externě experimentoval s hledači, měnil vlastnosti mých WWW stránek a sledoval, jak na tyto změny hledače reagují. Mimoto jsem samozřejmě sledoval i jiná klíčová slova a WWW stránky. Stále jsem nemohl najít odpověď na otázku, proč není pořadí hledání „optimální“, proč se nahoře vyskytují „nevýznamné“ WWW stránky (z hlediska konkrétního hledání). Došlo mi to až po 3 letech, kdy jsem se dokázal podívat na hledání z jiného hlediska (úhlu), než stávající hledače. Prostě jsem vymyslel princip, jak nahoru při hledání vyzvednout právě relevantní WWW stránky, který současné hledače, podle mého názoru, nepoužívají. Další rok jsem věnoval konstrukci algoritmu hledání, do kterého jsem tento princip promítl (kriteria, subkriteria, váhy), návrhu algoritmu „minihledače“ (aby se dal realizovat v relativně krátkém čase), metodice porovnání výsledků hledání různých hledačů a přesné formulaci textu projektu. Tento projekt Vám nyní tímto nabízím k laskavému posouzení, pokud se Vám bude líbit, tak k investování.
Poznámka:
Existuje určitá analogie mezi historií „mého hledače“ a historií dalších hledačů. Autoři Google vymysleli jejich algoritmus hledání cca v roce 1995. Tvrdili, že jejich algoritmus je lepší než tehdejší algoritmy, a chtěli jej prodat. To se jim cca 3 roky nedařilo. Teprve poté se rozhodli, že vyvinou celý hledač a získali první větší investici (100 tisíc dolarů od ředitele Sun Microsystems).
Na autory hledání v reálném čase (hledání v sociálních sítích a novinek – např. na Facebooku a Twitteru) se před dvěma roky dívali, cituji jejich výrok: „jako na blázny“, nyní je to takřka světová internetová senzace číslo 1 (poznámka: jedná se o specielní, nikoli o obecné hledání).
Viz též Jak jsem na to přišel.

5. Postup
- je hotov návrh algoritmu a jeho teoretické ověření na mém systému 21 WWW serverů
- naprogramuje se minihledač (omezený na testovací klíčová slova) pro praktické ověření algoritmu
- optimalizují se poměry mezi jednotlivými kriterii algoritmu
- na testovacích klíčových slovech se porovnají výsledky hledání minihledače s výsledky hledání Google a Bing:
-- úspěch (algoritmus je srovnatelný nebo lepší než Google a/nebo Bing):
--- algoritmus se prodá Microsoftu, případně jiné počítačové či internetové firmě
--- vyvine se kompletní software pro hledač (nutná další investice), ten se prodá, případně se bude Nový hledač pronajímat pro lokální hledání (portály, informační servery, firemní servery…)
--- zrealizuje se celý hledač – hardware a síť (nutná další investice), ten se prodá nebo se bude provozovat
-- neúspěch (algoritmus je horší než Google a/nebo Bing:
-- vyvine se a bude se provozovat Nový český hledač (je velmi pravděpodobné, že můj algoritmus hledání je lepší než hledání na Seznamu)
--- bude se pokračovat v optimalizaci vah kritérií
--- projekt se prodá jinému zájemci
--- projekt se ukončí
Viz též Alternativa „Nový český hledač" - Alternativa „Nový český hledač", rozpočet (finanční rozvaha).

6. Odhad prodejní ceny
Microsoft se snažil koupit Yahoo, nejprve vcelku (za cca 44 miliard USD), poté jen „hledací část“ (za cca 19 miliard USD).
Odhad rozdělení ceny Yahoo:
10 miliard značka, 10 miliard portál, 5 miliard hledač – hardware, 5 miliard hledač – síť, 5 miliard hledač – software, 5 miliardy hledač – algoritmus.
V případě úspěchu a prodeje mého algoritmu hledání může být tedy prodejní cena tohoto algoritmu cca 2 miliardy USD (finančním účelem projektu je prodej algoritmu hledání, proto by bylo vhodné jít při prodeji s cenou o něco níže, než je skutečná).
Cena 2 miliardy USD by se dělila napůl, tedy já 1 miliardu USD a investor (investoři) 1 miliardu USD.
To by znamenalo pro investora (investory) celkový příjem cca 17 tisíc násobek investice:
příjem 1 miliarda USD = cca 17 miliard Kč / investice 1 milion Kč = 17 tisíc.

7. Vlastnosti projektu
Pravděpodobnost úspěchu je 70 procent, pravděpodobnost neúspěchu je 30 procent. První výsledky budou k dispozici cca za 6 měsíců, celkový výsledek (kvalita algoritmu v porovnání s Google a/nebo Bing, obchodní jednání) bude znám cca za 1 rok. V případě plného úspěchu bere investor cca 17 tisící násobek původní investice (!), (případní jednotliví investoři by získali odpovídající podíly dle velikosti jejich investice). V případě neúspěchu jsou k dispozici náhradní varianty, které riziko snižují, viz bod 5 – Postup.

8. Myšlenka - nový princip hledání
Zde jsou některé charakteristiky principu hledání, který jsem vymyslel.
8.1.
Podstata mého principu hledání je ve dvou bodech:

- hodnotím všechny komponenty Netu: WWW stránky, skripty, obrázky (kresby, fotky, mapy), audio, video, dokumenty...

- z těchto komponent vytvářím jiné objekty = tematicky spjaté množiny.

Naprostý rozdíl mezi Googlem apod. a mnou je, že stávající hledače hodnotí WWW stránky, tedy v podstatě prvky, zatímco já hodnotím množiny tematicky spjatých komponent Netu.

Rozdíly mezi množinami komponent Netu jsou mnohem větší, než mezi jednotlivými WWW stránkami. Dá se odhadnout, že můj rozlišovací prostor je 10x větší než rozlišovací prostor Google (stávajících hledačů). Z tohoto principu je můj algoritmus mnohem robustnější, pořadí WWW stránek, stanovené mým algoritmem, je kvalitnější.
8.2.
Základní vlastností mého principu je, že nahoru při hledání vynáší právě relevantní, tedy kvalitativně i kvantitativně dobré WWW stránky pro hledaná klíčová slova. Nahoře jsou WWW stránky, které jsou adekvátní dotazu (klíčovým slovům hledání) - nikoli obecnější, jiné či méně obecné WWW stránky.
8.3.
Můžete si to představit tak, že do textového editoru (Word apod.) natáhnete klasický algoritmus hledání (v textové podobě) a poté dáte příkaz nahraď „WWW stránky“/“jiné objekty“. Tak je můj nový princip hledání vnořen do všech kriterií (pravidel) klasického algoritmu hledání. Z původního algoritmu, který hodnotil WWW stránky, vznikne nový algoritmu, který hodnotí jiné objekty, přičemž všechna kriteria jsou zachována. Tak dosahuji hodnocení kvantity i kvality těch jiných objektů. Pořadí WWW stránek odvozuji z pořadí jiných objektů (množin), v nichž jsou tyto WWW stránky obsaženy.
8.4.
Grafický výstup mého hledače je stejný jako u stávajících hledačů, tedy vždy náhled WWW stránky a blok s vybraným textem z této stránky. Rozdíl mezi stávajícími hledači a mým hledačem je ovšem v pořadí WWW stránek.
8.5.
Myšlenka míří na základní (obecné, klasické hledání). Nikoli na specializované obory hledání, jako jsou internetové obchody či hledání v reálném čase (hledání osob - Facebook, hledání aktualit – miniblogy - Twitter).
8.6.
Můj princip není v algoritmu vyjádřen jediným kriteriem. Naopak, promítá se prakticky do všech kriterií, přičemž hlavní kriteria ovlivňuje zásadním způsobem. Vine se algoritmem jako „červená niť“. Dá se říci, že se do algoritmu hledání dosadí místo pojmu „WWW stránky“ můj pojem „jiné objekty“ (některá kriteria jsou ovšem doplněna nebo jinak změněna).
8.7.
Nejedná se o žádné fluidum (abstraktum), naopak je to známý počítačový termín s pevným obsahem, použitý „jiným způsobem“ při hledání. Prostě se na hledání dívám jiným způsobem, z jiného hlediska (úhlu pohledu)
8.8.
Nejedná se o „umělou (počítačovou) inteligenci“, jakou je např. hledač WoframAlfa. Tato má naději až ve vzdálené budoucnosti, nikoli nyní.
8.9.
Moji myšlenku stávající algoritmy nepoužívají. Plyne to z mého studia veřejně přístupných popisů algoritmů i z praktického ověřování. Pokud by tuto myšlenku stávající hledače používaly, musely by se chovat jinak, jejich pořadí WWW stránek při hledání by bylo jiné.
8.10.
Nemám v algoritmu žádné zvláštní kriterium pro anti "SEO spamming", tedy proti umělému (formálnímu) vyzdvihování WWW stránek při hledání nahoru, který je pro současné hledače velkým problémem. Ale kouzlo mé myšlenky a algoritmu spočívá mimo jiné v tom, že tento SEO spamming dokáže přirozeně eliminovat, prostě to z toho algoritmu plyne. Je to vedlejší účinek mého algoritmu, ale je to tak. Black SEO se pro můj princip hledání bude dělat asi 10x obtížněji, než je tomu ve stávajících hledačích. Jednak SEO spammeři nebudou dlouhou dobu vědět, na co optimalizovat, co jsou to ty „jiné objekty“. Ale i až to intuitivně vytuší, bude to pro ně mnohem časově i finančně náročnější, než je tomu ve stávajících hledačích. A koneckonců, pokud vyrobí kvalitní množinu komponent Netu na dané téma, pak už se bude jednat spíše o kvalitní obsahové stránky, než o SEO spamming.
8.11.
Můj princip a/nebo algoritmus je (podle mého názoru) patentovatelný (zabývám se i ochranou duševního vlastnictví, patenty, označením původu v EU apod.).
Ovšem nechci to patentovat z těchto důvodů:
- je to něco jako rodinné stříbro, jako recept na Becherovku, který se také neprozrazuje ani nepatentuje
- udělat skutečně světový patent (hledače jsou světové) přijde na cca půl milionu dolarů, zvláště v počátečním stadiu projektu jsou takové náklady nepředstavitelné
- pokud se něco patentuje, je patentová přihláška (patent) zveřejněn, tedy veřejně přístupný; pokud by myšlenku někdo použil, bylo by obtížné to dokázat (náklady na soudní řízení; jak se vyznat ve stovkách tisících řádků zdrojového kódu cizího hledače; zneuživatel může soudu předložit jiný zdrojový kód, než ve skutečnosti používá – pro přímý důkaz tohoto by bylo třeba někde jinde zrealizovat prakticky celý duplicitní hledač...).
Viz též Vysvětlení mého principu hledání, Grafické vysvětlení mého principu hledání, Názorné vysvětlení rozdílu mezi Google a mnou (Kuličky a míče).

9. Algoritmus - stručný popis
Princip hodnocení, který jsem vymyslel, se promítá do kriterií, která určují pořadí WWW stránek při hledání. Můj algoritmus hledání se skládá z cca 30 kriterií. Do všech těchto kriterií se promítá můj nový princip hledání. Některá kriteria jsou navíc nová nebo modifikovaná. Důležité je také nalezení správných vah kriterií v algoritmu. Mám počáteční nastavení vah, váhy se budou optimalizovat pomocí minihledače.
Viz též Vysvětlení mého algoritmu hledání.

10. Minihledač

Normálně by bylo třeba pro ověření algoritmu hledání zkonstruovat celý hledač (práce pro několik – spíše desítek - lidí na několik let). Vymyslel jsem, jak tento postup redukovat na práci cca 2 lidí cca 1 rok. Vybere se 10-100 klíčových slov (hesel). Od každého klíčového slova najde minihledač 100-1000 předních WWW stránek. Minihledačl stanoví pořadí těchto WWW stránek podle mého algoritmu. Poté provedu optimalizaci vah jednotlivých kriterií, tedy budu měnit váhy a sledovat, jak se to projeví na pořadí WWW stránek. Na závěr vyberu, dle mého názoru, ten „nejlepší“ poměr vah.
Výsledky hledání tohoto optimalizovaného algoritmu se porovnají s výsledky hledání Google a Bing.
Poznámka:
Minihledač bude napsán jakožto „univerzální prostředek pro vývoj a ověřování algoritmů hledání“. Kriteria hledání i vlastnosti nalezených objektů budou popsány parametricky. Bude snadné měnit jednotlivá kriteria i váhy, případně tam vsadit jiný algoritmus. Takový minihledač by byl pravděpodobně prodejný i „sám o sobě“.

11. Metoda hodnocení výsledků hledání
Jak hodnotit výsledky hledání, tedy jak porovnat výsledky hledání dvou hledačů podle daného klíčového slova (klíčových slov)?
Na levé polovině displeje jsou výsledky hledání jednoho hledače, na pravé polovině displeje jsou výsledky hledání druhého hledače, nalezené při hledání podle zvoleného klíčového slova (klíčových slov). Které výsledky jsou lepší?
Tady je metoda, kterou jsem vymyslel a kterou navrhuji:
Pro každý nalezený WWW odkaz (WWW stránku) je třeba odhadnout, jaké procento hledajících uživatelů na daný WWW odkaz klikne a shledá příslušnou WWW stránku relevantní (odpovídající tomu, co chtěl uživatel najít). Odhad lze provést z hlediska zájmů a geografie uživatele. Takto lze vyhodnotit většinu nalezených WWW odkazů (WWW stránek).
Příklady:
Hledání na google.com podle klíčového slova „cars“: na WWW stránky o australských autech klikne pravděpodobně 2.6 procenta uživatelů (zjednodušeně počet Australanů / počet anglicky mluvících lidí = 21 000 000 / 813 000 000 = 0.026).
Hledání na
google.cz podle klíčového slova „Morava“: na WWW stránky rockové kapely „Morava“ klikne pravděpodobně 1 procento uživatelů (cca 20 procent uživatelů se při hledání podle klíčového slova „Morava“ zajímá o moravskou hudbu, cca polovina z nich se zajímá o rock, cca deset procent z nich se zajímá právě o kapelu „Morava“ (0.2 x 0.5 x 0.1 = 0.01).

Existují nejméně další dvě metody hodnocení výsledků hledání. Jednu má City Group, druhou Microsoft (dle vyjádření Steve Ballmera).
Pokud si to bude kupec mého algoritmu (Microsoft pro Bing) přát, může si zvolit vlastní testovací klíčová slova, já mu tato slova zpracuji a vygeneruji pořadí nalezených linků. Následně si toto pořadí bude moci porovnat dle jeho vlastní metodiky s výsledky hledání Google, Bing, případně jiného hledače.

12. Microsoft a Bing
Microsoft se snaží o proniknutí na Internet (hledání) již cca 10 let (Inktomi, Netscape, MSN Search, Live Search, Yahoo, Bing). Microsoft uvedl nový hledač Bing na Internet v květnu 2009, zatím bez výraznějšího úspěchu. Statistiky návštěvnosti hledače Bing cca 2 měsíce rostly (díky reklamní kampani za cca 100 milionů dolarů), nyní spíše klesají. Poměr mezi užíváním Google a Bing ve světě je cca 30:1, v USA cca 10:1 (dle www.statcounter.com). Většina analytiků předpokládá, že se stávající poměr Google:Bing udrží, že změny (nahoru či dolů) jsou málo pravděpodobné. Poté, co došlo k dohodě mezi Microsoftem a Yahoo, prohlásil Chief Executive Officer Microsoftu Steven A. Ballmer, že věří v „budoucnost hledání“. Tento krok, kdy bude Yahoo používat pro hledání právě hledač Bing, se zdál pro většinu analytiků (i pro zaměstnance Microsoftu) překvapivý, ale z hlediska Microsoftu má určitou logiku: nyní má Microsoft vlastní hledač, tímto hledačem bude mít obsazen (mimo jiné) tři velmi navštěvované WWW stránky (microsoft.com, bing.com a yahoo.com) a postupně chce Bing vyvinout tak, aby se vyrovnal Google. Pan Steven A. Ballmer má ale nyní snížen plat, pravděpodobně i v důsledku neúspěchu hledače Bing (dle zprávy z Internetu). Dle analytiků je problém právě v kvalitě hledání, tedy ve stávajícím algoritmu Bing (uživatele nelze dlouhodobě udržet reklamní kampaní, ale jen kvalitou hledání). Podle posledních zpráv chce Microsoft v dalších 5 letech investovat do hledání cca 8 miliard dolarů. Proto má smysl nový algoritmus hledání vyvinout a Microsoftu jej nabídnout.
Viz též WWW odkazy.

13. Stručné CV
Vystudoval jsem ČVUT Praha, obor počítače. Mám titul CSc. za práci o strukturovaném programování. Cca 15 let programátor, Brno, velký laboratorní informační systém pro řadu nemocnic, poliklinik a lékařů. Cca 16 let nezávislý odborník a živnostník, obory programování a Internet. Vymyslel a realizoval jsem programovací jazyk Visual Pascal (nadstavba Pascalu). O koupi se zajímal Microsoft. Ale vlastník Pascalu firma Borland se tehdy odmítl prodat Microsoftu, takže Microsoft dal docela logicky přednost jazyku Visual C++. Seznamy a hledači se zabývám cca 10 let, cca 6 let teoreticky a cca 4 roky prakticky. O koupi mých patentově chráněných algoritmů pro seznamy (konstrukce kategorií, slučování seznamů) se vážně zajímal Netscape, proběhlo jednání v sídlu Netscape, ale Netscape se odmítl prodat Microsoftu, tak ho Microsoft vyřídil. 5 let práce pro kanadskou firmu, telekomunikace, spojení mezi počítači a mobilními telefony. Nyní se provozuji 21 WWW serverů, zabývám se hledáním na Internetu, zlepšováním pořadí na hledačích a prezentacemi.


V Brně dne 10.2.2011.

Ing. Petr Hejl, CSc.
Ondrouškova 15, 63500 Brno
tel.: 608 374 535
email:
phejl@lednice.org