Yahoo calca din nou pe urmele „fratelui mai mare” Google in ceea ce priveste cautarea. Astazi Yahoo va trece o parte importanta a motorului de cautare la Hadoop, un soft care face fata foarte bine task-urilor distribuite la scara mare mai multor computere.
Hadoop este o implementare open-source a software-ului si sitemului de fisiere Google MapReduce. Acesta ia toate linkurile de pe internet gasite de catre crawlere si le „reduce” la o harta a Web-ului astfel incat algoritmii de ranking sa le poata folosi.
Yahoo inlocuieste softwareul propriu cu Hadoop care va rula pe un Linux cluster server care are „doar” … 10.000 de nuclee de procesor. Hadoop face acelasi lucru ca si vechiul software de la Yahoo doar ca va fi cu 34% mai rapid. Yahoo ne ofera de asemenea si cateva date interesate care ne pot ajuta sa ne facem o imagine asupra infrastrcturii care se afla in spatele motorului de cautare:
Some Webmap size data:
* Number of links between pages in the index: roughly 1 trillion links
* Size of output: over 300 TB, compressed!
* Number of cores used to run a single Map-Reduce job: over 10,000
* Raw disk used in the production cluster: over 5 Petabytes
Putem compara aceste date cu cele de la Google care foloseste infrastructura de calculatore bazata pe MapReduce – si care in Septembrie 2007 a furnizat nu mai putin de 14.000 terabytes de date compresate – si vom vedea care motor de cautare este mai folosit: