Projekt „Nový hledač“
Struktura dat


Takhle bude vypadat struktura pro stahování

(zdrojové kódy WWW stránek, WWW stránky v češtině plus v angličtině, počty jsou cca)

100 adresářů

v každém z těchto adresářů 100 podadresářů

v každém z těchto adresářů 10000 podadresářů

v každém z těchto adresářů 20 souborů

každý soubor 10 kilobyte

 

Celkem stahování

100 milionů (mega) adresářů

2 miliardy (giga) souborů

Objem uložených dat po stažení: 2 giga souborů x 10 kilobyte dat = 20 terrabyte.

 

Komprese
Při kompresi (gzip) je možno předpokládat, že se objem stažených stránek sníží cca 3x, tedy na cca 7 terrabyte.

 

Databáze
Pro zpracování bude třeba databáze o objemu cca 10 terrabyte

 

Celkem
Celkem (stahování plus databáze) 7+10 = 17 terrabyte.