Projekt „Nový hledač“

Alternativa „Nový český hledač“

Základním cílem projektu „Nový hledač“ je ověřit kvalitu nového algoritmu hledání a následně tento algoritmus prodat velkému hráči na světovém trhu hledačů, nejlépe Bingu.
 

Pokud by se toto nepovedlo, je náhradní alternativou vývoj a provoz „Nového českého hledače“, tedy hledače pro české stránky, pro uživatele v České republice a české uživatele v zahraničí. Realizace tohoto bude provedena rozšířením minihledače, doplněním aktualizací a slovníku.

Microsoft mi odpověděl
, že nekupuje myšlenky a mám přijít, až budu mít „traction or traffic“, tedy až se mi bude něco hýbat nebo až budu mít návštěvnost.
„Traction“ by měl zajistit prototyp (minihledač), který nyní vyvíjím. „Traffic“ by měl zajistit Nový český hledač.

Alternativa Nový český hledač sice neslibuje primárně miliardy USD, ale návrat investice a zisk z investice po menších částech. Po určité době bude ovšem opět nabídnut ke koupi Microsoftu a zde se může jednat o zajímavou prodejní částku i podíl z ní pro investory.

Zde je rozpočet Nového českého hledače.

 

Současná situace na českém trhu v oblasti hledání na Internetu:

Reálně existují v podstatě jen dva hráči (Seznam a Google), ostatní používají jejich technologii nebo jsou z hlediska návštěvnosti zanedbatelní (Centrum, Altas, Jyxo…).
Níže uváděná procent návštěvnosti jsou součtem všech serverů. Na kterých se hledání Seznamu (zbozi.cz…) a Google (google.com, google.sk, Centrum…) používají

Seznam

Má asi 50 procent trhu. Nejdříve měl vlastní hledač Kompas, pak do roku 2006 používal Jyxo, pak vyvinul vlastní hledač, který postupně zlepšoval a který byl do léta 2009 velmi dobrý. Ovšem na podzim roku 2009 zavedli nový algoritmus hledání, který je velmi špatný, skoro mizerný. MFAčka (sbírky linků) na prvních pozicích, kvalitní obsahové stránky dole nebo nedohledatelné, mizení stránek, zařazování podstránek před domovské stránky, fluktuace pořadí ze dne na den apod. Příčinou je linkbuilding, Seznam neumí rozlišit White SEO (tedy legální prolinkování tematicky spojených stránek) od Black SEO (linkfarmy, nákup zpětných odkazů), všechno to háže do jednoho pytle. Vím to, protože jsem jej několik let sledoval na cca 100 klíčových slovech, sledoval jsem diskuzní fóra, komunikoval s Dušanem Janovským (bývalý šéf fulltextu Seznamu) a se Štěpánem Škrobem (šéfprogramátor Seznamu).
Od podzimu 2009 je na Netu řada diskuzních fór se stížnostmi na hledání na Seznamu (pořadí stránek), těch stížností bylo řádově několik set.
Příklad - diskuze k článku „Děkujeme za Křišťálovou lupu“: http://fulltext.sblog.cz/2009/11/27/43.

Seznam dostal Křišťálovou lup za hledání v roce 2009, ale hlasování probíhalo v době od 3. srpna do 6. září 2009, tedy v době, kdy hledání na Seznamu bylo ještě výborné (zkazilo se až během září 2009). V diskuzi je 78 příspěvků, z toho cca 57 procent negativních (!).
V roce 2010 jej již na Křišťálové Lupě předběhl Google.

Špatné hledání na Seznamu dokumentuje také to, že po roce zavádí Seznam novou verzi hledání: http://fulltext.sblog.cz/2010/08/17/45.
Celkové blogy Seznamu a diskuze k nim jsou na WWW adrese:
http://fulltext.sblog.cz/
Google

Má asi 50 procent trhu.

Samozřejmě je výborný, ale co se týče návštěvnosti, tak se zatím neumí na českém trhu prosadit. Jsme jednou z mála zemí, kde Google v návštěvnosti nevede.

 

Vznikl tedy rozumný prostor pro nový český hledač, který se může prosadit hlavně proti Seznamu a postupně ukusovat z jeho návštěvnosti. Vzhledem k současné mizérii hledání na Seznamu má tato alternativa velkou šanci na úspěch. Můj algoritmus je totiž skoro jistě lepší, než je stávající algoritmus Seznamu.

 

Reálnou alternativou je tedy realizace a provoz nového českého hledače. Samozřejmě by se musel koupit kvalitní slovník (diakritika, jednotná a množná čísla, skloňování časování, synonyma). Ale takový slovník např. Jyxo nabízí, v tom slovníku jsou dobří, dělají ho hodně let. Domnívám se, že by se to v základní variantě dalo rozjet ve dvou lidech na dvou velkých serverech (jeden na stahování a zpracování, druhý na odpovědi). Časově by se takhle jelo řekněme 1 rok. Až by přišla návštěvnost, pak by se to rozšířilo. Příjmy by byly ze standardní reklamy, rozšířené o možnost umístění banneru zákazníka nahoru na stránku při hledání příslušného klíčového slova.

Minihledač bude psán tak, aby to byl v podstatě skutečný hledač, z důvodu omezení výškou investice (tedy kapacitou serverů a rychlosti připojení) tam budou „pouze“ omezena klíčová slova a počet stahovaných WWW stránek (úrovní Netu, které bude minihledač procházet). Software pro Nový český hledač vznikne ze software pro minihledač přidáním aktualizací a zrychlením.

WWW odkazy

NaVrcholu: Podíly vyhledávačů zůstaly v roce 2009 stabilní
http://www.iinfo.cz/tiskove-centrum/tiskove-zpravy/navrcholu-vyhledavace-2009/
Poznámka:
Jedná se o rok 2009, kdy bylo hledání na Seznamu až do podzimu relativně kvalitní.

TopList.cz - Grafy návštěvnosti českých hledačů
http://www.toplist.cz/stat/?a=history&type=4
Poznámka:
Všimněte si, prosím, že za poslední půlrok ztratil Seznam cca 5 procent uživatelů, které získal Google. Není to tím, že by se Google zlepšoval, ten je stabilní, ale je to tím, že se kvalita hledání na Seznamu od podzimu 2009 hodně zhoršila a uživatelé prostě přestupují k hledači s vyšší kvalitou. To je právě ta mezera na českém trhu hledačů, kterou by mohl Nový český hledač vyplnit.

Dušan Janovský: Seznam zůstane jedničkou i nadále
http://www.lupa.cz/clanky/dusan-janovsky-seznam-zustane-jednickou-i-nadale/
Anketa (stav ke dni 31.5.2010):
Který vyhledávač primárně používáte?
Google 82%
Seznam 13%
Jyxo 3%
Bing 1%
Jiný 1%
Yahoo 0%
Odpovědělo 517 čtenářů.
Aktualita, která dokazuje, že počet hledajících na Seznamu klesá v poslední době ještě výrazněji. Anketa je vypovídající, odpovědělo cca 500 lidí. Odpovídali sice spíše kvalifikovaní uživatelé Internetu, ale takových bude jen přibývat. Pokles návštěvnosti Seznamu je drtivý. Titulek článku je „přání otcem myšlenky“ a neodpovídá realitě. Viz též diskuze pod článkem.

Bing po roce života: jak se malému daří?.
http://www.lupa.cz/clanky/bing-po-roce-zivota-jak-se-malemu-dari/
Anketa pod článkem (stav ke dni 29.7.2010):
Který vyhledávač primárně používáte?
Google 91%
Seznam 4%
Bing 4%
Jiný 1%
Yahoo 0%
Odpovědělo 312 čtenářů.
Jasná příčina poklesu uživatelů hledání na Seznamu je ta, že od podzimu 2009 je hledání na Seznamu mizerné (pořadí linků, fluktuace výsledků...). Do této díry na trhu se nyní ne vlastní zásluhou (skoro žádné novinky v poslední době) cpe Google. Vznikla tedy díra na trhu českých hledačů, kterou by mohl částečně zaplnit můj Nový český hledač, který je alternativní variantou projektu Nový hledač. I kdyby se podařilo „ukořistit“ 10-20 procent z toho, co Seznam v nejbližší době ztratí, stálo by to za to.

Jaké jsou skutečné podíly vyhledávačů?
http://blog.medio.cz/podily-vyhledavacu
Cituji:
„Důležité je uvědomit si, že Seznam posílá úplně všechny své české uživatele výhradně na české weby. Google posílá nemalou část z nich i jinam do světa. Navrcholu.cz přitom měří pouze na českých webech. Do statistiky Navrcholu.cz tedy padají naprosto všechny prokliky ze Seznamu, ale jen část prokliků z Google a dalších světových vyhledávačů! Můžeme se teď bavit, jak velkou odchylku oproti reálnému podílu vyhledávačů všechny uvedené chyby zaviní. Já si myslím, že poměrně zásadní. A vůbec bych se nedivil, kdyby měl ve skutečnosti Google už nějakou dobu srovnatelný počet hledání českými uživateli jako Seznam. Nebo klidně i více.“

Nova kupuje Jyxo za 163 - 200 milionů korun
http://www.lupa.cz/zpravicky/nova-kupuje-jyxo/
Jedná se o důkaz o finančním potenciálu mého projektu.
Jyxo byl svého času dobrý český hledač, ale v momentě prodeje už byl tento hledač dosti špatný. Důkazem je, že jej dříve používal Seznam, ale kolem roku 2006 jej nahradil vlastním hledačem (tehdy a následně o hodně lepším, než bylo Jyxo). Přesto bylo za Jyxo utrženo při prodeji cca 160-200 milionů Kč. To by byl pro Nový český hledač, myslím, skvělý zisk, při investici 1 milion Kč. A to je jen alternativní varianta, kdyby se můj algoritmus neprodal velkému světovému hráči (Microsoftu pro Bing), ale dělal by se "jen" Nový český hledač, tedy realizoval by se finanční zisk z českého trhu hledání na Internetu.

CentralWay je pohádka o tvorbě pohádek
http://www.lupa.cz/clanky/centralway-je-pohadka-o-tvorbe-pohadek/
Cituji:
„Martin Saidler svůj přínos vidí jinak: Původní nabídka CME pro Jyxo byla velmi nízká, nabízeli asi 4 miliony dolarů. Jakmile jsme se do jednání vložili my, ihned ji zvýšili, protože věděli, že známe trh." Výsledná cena za Jyxo se pohybuje v rozmezí 160-200 milionů Kč dle výsledků společnosti. Jeden ze zástupců CME, který si nepřál být jmenován, k tomu dodal: "Cenu jsme v průběhu jednání zvýšili, když se ukázalo, že hodnota firmy je pro nás vyšší, než jsme původně předpokládali."

Webtrh - přípěvek od „Creative“
Cituji:
„Jasně, ale vyhledávače ještě nedávno byly od toho, aby usnadnily hledání informací na netu. Ne od toho, aby mi předhazovaly, co si někdo zaplatil, abych viděl. Nestojím o další nástroj, skrze který se ke mně bude dostávat reklama. Pokud Seznam rezignoval na vyhledávací součást svojí podstaty, tak škoda. Že to je jeho věc je samozřejmě pravda, moje věc je to, že už nemám jediný důvod stránku navštěvovat. Doufám, že brzy vznikne, nový vyhledávač (raději globální) s jiným způsobem sebe financování. Mě například reklama irituje natolik, že si raději budu platit account na vyhledávači bez reklam, kde budu mít skutečně šanci najít reálný (nekomerční) info.“

Webtrh – diskuze Seznam, nová verze vyhledávání -  přípěvek od „Malej Jarda“
Cituji:
 „Třeba já čekám na indexaci cca 10 webů - nejsou v indexu, nemají ranky, nemají návštěvnost. Z toho vyplývá - nejde na nich prodávat články ani odkazy, adsense je tam k ničemu, nejde prodat ani samotné weby. Zákazníci jsou nasraný, že se jejich weby, za jejichž tvorbu mi zaplatili nezobrazují ve výsledcích hledání... a já nevím, co jim na to mám říct. :(„

Webtrh – diskuze Nový Seznambot 3.0 -  přípěvek od „Smith686“
Cituji:
„Ahoj Webtržníci,

Jak si jistě většina z vás všimla před několika málo dny nás navštívil nový crawler od Seznamu. Možná je zatím brzy tohoto robůtka hanit, ale zatím mám pocit, že je to v tuto chvíli, když to beru objektivně z pohledu uživatelů interntetu, né tedy mého vlastního pohledu, zatím více škody než užitku. Před tím jsem myslím oprávněně obsazoval přední pozice na velmi hledaná slovní spojení a nyní je to pryč. Proč říkám oprávněně ? Protože se webu věnuju každý den, pravidelná aktualizace obsahu, výměna odkazů a registrace. Proč jsou nyní přede mnou stránky, na které 3/4 roku nikdo nesáhl. Je to tím, že je ta doména o nějaký pátek starší než ta moje ? Nevím. Crawler 3.0, je dle Mágů ze Seznamu naprosto něčím převratným a novým, kde z původní verze nezbyl ani fragment. Pevně věřím, že Seznambot v3.0 je zatím miminko, které se musí rozkoukat a naučit se novým věcem a taky věřím, že vyroste dostatečně rychle nato, abych nemusel nechat i-businessu a jít zpátky k lopatě. :-)

Zdar a sílu všem

R.Z.“

Webtrh – diskuze Seznam a indexace -  přípěvek od „freeman“
Cituji:
„Zdravím,
protože se Seznamem jsou problémy už několik let, doporučuji DOPORUČOVAT :) VŠEM LIDEM AŤ PŘESTÁVAJÍ SEZNAM POUŽÍVAT, ŽE NELZE NALÉZT KVALITNÍ DATA. Nemohu se zbavit dojmu, že to co říká Seznam jsou pouze výmluvy a snaží se naučit touto nekalou praktikou webmastery používat SKLIK a další přiblblé produkty Seznamu kdy nezáleží na RELEVANCI, ale pouze na tom kolik kdo zaplatí a podle toho bude nahoře nebo dole.
Věřím, že jen osvětou dokážeme sundat Seznam z trůnu a ten pak nebude moci manipulovat s výsledky. Jestliže vyřadí nějaký eshop z fulltextu, nebo ho zařadí z 1. strany na 10., tak to znamená pro provozovatele i likvidaci a pro webmastera obrovský problém, za který může buď vychcanost vedení Seznamu nebo neschopnost programátorů Seznamu!
Věřím, že Google co nejdříve ukrojí další část koláče, protože tam záleží na KVALITĚ WEBU, NIKOLIV JAK SE KDO VYSPAL, NEBO KOLIK KDO PLATÍ!!!
F“.
Poznámka: nemusel by to být jen Google, který „přichází k hotovému“ bez vlastní snahy, ale také Nový český hledač by si mohl ukrojit část českého koláče hledání, a to primárně z odpadlíků ze Seznamu.

Seznam – Fulltext – Blog (Štěpán Škrob – Solamyl – šéfprogramátor hledání na Seznamu):
Nová verze vyhledávání - nasazeno do provozu 16.9.2010
http://fulltext.sblog.cz/2010/08/17/45
Viz diskuze pod tímto blogem. Většina názorů je tam jako obvykle negativních.
Cituji „David“:
„Milý Sezname, do čeho se to zase pouštíš? Vyhledávání co je teď je naprosto k ničemu a teď když vidím novinky, tak to je ještě větší bída. Nevím jak relevantní je to, že někde na stránce je jednou klíčové spojení a je to upřednostněno před weby, které mají problematice daného klíčového slovního spojení "přizpůsobenou" např. celou podsekci webu. Snažíte se eliminovat ty co optimalizují své weby, bohužel se z toho stává pak naprostý paskvil ve vyhledávání, když weby o které se někdo stará, poškozujete ať už umýslně či ne. Samozřejmě chápu, že se pak lépe vydělává na reklamních systémech, když jediné co uživatel najde, jsou weby, kde si klíčové slovní spojení firma zaplatí a opravdu se na webu bohatě vyskytuje a na ostatních neplacených pozicích je většina webů jen se zmínkou o hledáném klíčovém slovu či spojení, což je pro hledatele k ničemu, jelikož tam prd najde. Před rokem bylo vyhledávání super a teď všichni přechází na google.Za pár let fulltext seznamu bude nepoužíván!“
Cituji „T:
„…toto je konečná verze vyhledávání? Opravdu velmi špatné výsledky :-(
Cituji „tomas:
Dostaneme i nějaké vyjádření ze seznamu ? Doufám že toto není konečná verze jinak to bude pro naši firmu velmi špatné :(
Cituji „KS:
Kdy bude chodit robot pro aktualizace? Je škoda, že si Seznam timto nepovedenym kouskem trhl takovou ostudu. Spoustu lidi živi jen e-shopy. Denne se venuji nasemu e-shopu a zacinaji nas predbihat pofiderni stranky s minimem informaci. Momentalne se neda na Seznamu spolehnout vubec na nic.“
Cituji „Honza“:
Mluvil jsem s lidmi z Skliku a po 3 pivu z nich vypadlo že je fulltext schválně zmršený aby lidi platily více za Sklik a že Seznamu tahle strategie vychází perfektně a obraty na Skliku před svátky stoupají raketovým tempem ... takže nečekejte že se situace do konce roku změní :-)

A na závěr této části uvádím pro pobavení citaci z vyjádření Seznamu:
"Fulltext je prozatím v konečné fázi, ale neustále se pracuje na vylepšeních.".
Zdroj: Webtrh – diskuze Nový Seznambot 3.0 -  přípěvek od „nicmund“.