Les idées de Page et Brin : Le problème de la recherche et leur solution : Google

Le problème

En 1994 était créé Yahoo!, le premier annuaire web. L’intérêt du public fut tel que des services similaires sont apparus tels que Infoseek ou Lycos. Mais ces annuaires sont limités : le recensement des sites web se fait manuellement, il n’est pas automatisé. Ce problème a bien été compris par le constructeur d’ordinateurs Digital qui a initié un projet dans son laboratoire de Palo Alto. Une équipe, dirigée par le Français Louis Monnier, doit élaborer un moteur d’indexation du web. Monnier et son équipe produisent alors un programme robot qui explore le web et catalogue les pages. Après 2 mois de tests, c’est le plus gros index du web qui est produit : seize millions de pages. En même temps, un logiciel permettant de retrouver une information est mis en place : AltaVista. C’est le premier moteur de recherche sur internet.

Mais très vite un gros problème se pose : la médiocre qualité des réponses. AltaVista classe ses résultats en fonction du nombre d’occurrence du mot clé. Par exemple, une pizzeria située Avenue Victor Hugo affichant plusieurs fois son adresse pourrait se retrouver devant un exposé sur les œuvres de l’écrivain. Page et Brin sont assez déconcertés lorsqu’ils testent le mot clé Bill Clinton sur AltaVista et HotBot, deux moteurs de recherche concurrents. Sur l’un, le premier site affiché est « Bill Clinton est nul ! » et sur l’autre « Bill Clinton : La blague du jour ». Aucun des ces moteurs n’est capable d’établir une classification pertinente des résultats, alors qu’il serait préférable d’être redirigé vers des pages relatives à la carrière du président ou encore, vers le site de la Maison Blanche. Brin aimait dire « Si tous les hommes sont nés égaux, on ne peut pas en dire autant des pages web ! ».

Les deux étudiants de Stanford ont une autre approche : dix bonnes réponses sont plus utiles qu’un millier de liens aléatoires. Ainsi, ils étudient plusieurs ouvrages traitant de la restitution de données et sont relativement déçus : aucun ne paraît pouvoir s’appliquer à un média aussi universel que le web, ils portent tous sur des ensembles homogènes de connaissance.

Leur solution : le Pagerank

Les premiers essais du PageRank ont lieu début 1997 et semblent satisfaisants. Page et Brin testent des mots clés comme « Sharon Stone », « Football » ou encore « IBM » et les premiers résultats affichés sont cohérents. Le filtre PageRank permet donc réellement un meilleur classement que les autres moteurs comme AltaVista, HotBot ou Lycos.

Il reste alors à trouver un nom pour ce projet prometteur. Les deux étudiants pensent d’abord à « Backrub » (littéralement, « frottement à l’envers »), car la méthode de classement s’appuie, en partie, sur les « liens à l’envers » du web, c’est-à-dire le nombre de liens qui pointent vers une page donnée.

Logo initial de BackRub réalisé à partir d’un scan de la main de Page

Six mois après, Brin et Page décident que leur moteur de recherche a besoin d’un nouveau nom. Après de nombreuses réflexions collectives, c’est un nom on ne peut plus évocateur de la masse illimitée d’informations disponibles sur internet qui va ressortir : Google. Sean Anderson, un collaborateur et ami de Page et Brin, propose « googolplex ». Ce mot désigne le nombre 10 élevé à la puissance « gogol » (10100), il est noté : . Larry répond alors par l’abréviation « googol ». Sean va alors vérifier si ce nom est disponible mais se trompe dans l’orthographe et écrit « google ». Les étudiants apprécient ce mot et quelques heures plus tard, le nom de domaine est déposé. Le 15 septembre 1997, le nom « google.com » est officiellement enregistré.

Le premier logo de Google

A l’université de Stanford, leur projet suscite de plus en plus d’intérêt. Rapidement, le nombre de requêtes effectuées autant par les professeurs que par les élèves atteint le niveau de dix mille par jour. Les deux étudiants se rendent compte que, s’ils veulent pouvoir supporter encore plus de requêtes, il leur faut davantage d’ordinateurs. Page met alors mis au point un système de traitement en parallèle de façon à ce qu’un ordinateur puisse toujours prendre le relais d’un autre qui flancherait. De plus, afin d’accélérer le dépannage des pièces, il fixe les composants des serveurs sur un tapis de liège avec du Velcro, artisanal mais efficace. Pour terminer ce système ingénieux, ils achètent les ordinateurs les moins chers du marché, y installent le système d’exploitation Linux et les font travailler simultanément.

Linux : Système d’exploitation libre, réputé pour sa sécurité et sa stabilité, dont de nombreuses distributions sont proposées gratuitement.

La suite ...

Continuez votre lecture avec le 2.3 La montée fulgurante.

Chapitre 2 : Les débuts de Google

Actualité

Prochainement

Partenaires

Statistiques