Faire le tri sur le net

Danny Sullivan des moteurs de recherche a répondu aux griefs concernant le courrier indésirable dans les recherches sur les moteurs de recherche en se demandant si une personne devait enregistrer la malbouffe en utilisant le développement. L’utilisateur a signalé et Danny a réagi que de bons rapports de courrier indésirable entraînent généralement «une plongée en profondeur pour connaître les sites de réseautage et envisager une action générale». Il a envoyé des e-mails indésirables pour « aider ». Les moteurs de recherche ont toujours mentionné qu’ils étudiaient les avis de courrier indésirable et nous avons vu les étapes que Google a apportées au fil des ans sur ces avis. Ainsi, même si les moteurs de recherche peuvent prendre du temps pour faire quelque chose, en particulier pour les défis de spam supplémentaires, les moteurs de recherche agissent à un moment donné. Brin et la page Web, qui étaient satisfaits en tant qu’étudiants diplômés de l’Université de Stanford, avaient été fascinés par l’idée de supprimer ce qui signifie à travers la majeure partie de la collecte de données sur Internet. Ils ont commencé à fonctionner depuis le dortoir de Page à Stanford pour concevoir une toute nouvelle forme de technologie de recherche, qu’ils peuvent appeler BackRub. La vraie clé était d’influencer les propres capacités permanentes des utilisateurs du site Web en gardant une trace des «liens de soutien» de chaque site Web, c’est-à-dire la quantité d’autres pages Web qui leur sont connectées. La plupart des moteurs de recherche ont simplement renvoyé une liste de sites Web classés selon la fréquence d’apparition du terme de recherche. Brin et la page Web ont intégré à la fonction de recherche le nombre de backlinks obtenus par chaque site Web; c’est-à-dire qu’un site Web avec un grand nombre de liens deviendrait rationnellement plus utile qu’un seul avec seulement quelques backlinks, et les principaux moteurs de recherche positionneraient ainsi le site fortement lié augmenté sur une liste de possibilités. De plus, un hyperlien provenant du site Internet fortement lié sera un «vote» beaucoup plus précieux qu’un simple provenant du site Internet beaucoup plus imprécis. Au milieu de 1998, Brin et Page ont commencé à recevoir un financement extérieur (certainement l’un de leurs premiers acheteurs était Andy Bechtolsheim, cofondateur de Sun Microsystems, Inc.). Ils ont finalement recueilli environ 1 000 $ auprès d’acheteurs, de membres de leur famille et d’amis proches et se sont installés à Menlo Park, en Californie, sous le titre Google, qui était basé sur une faute d’orthographe de l’étiquette préparée authentique de Page, googol (une expression numérique pour le nombre un puis 100 zéros). À la mi-1999, lorsque les moteurs de recherche ont obtenu un financement de 25 milliards de dollars en financement d’entreprise, ils absorbaient absolument 500 000 questions chaque jour. L’exercice a commencé à exploser en 2000, lorsque Yahoo était devenu le moteur de recherche de l’acheteur sur Internet pour l’un des sites Web les plus appréciés du Web, Google !. En 2004, lorsque Yahoo! dispensés des services de Google, les clients naviguent sur les moteurs de recherche 200 000 fois par jour. Cette évolution ne fait que se poursuivre: fin 2011, les moteurs de recherche géraient quelque 3 milliards de dollars de recherches par jour. Le nom de l’entreprise est devenu si omniprésent qu’il est entré dans le lexique étant un verbe: yahoo est devenu un concept commun pour la recherche sur Internet. Pour accueillir ce volume de données sans précédent, Yahoo a construit 11 centres de données dans le monde, chacun contenant un certain nombre de 100 1000 serveurs Web (essentiellement des ordinateurs multiprocesseurs et des disques durs montés dans des racks spécialement construits). Les ordinateurs personnels interconnectés de Google s’élèvent probablement à plusieurs milliers. Le centre du fonctionnement de Google est néanmoins construit autour de trois éléments incroyables de code informatique: les moteurs de recherche Submit System (GFS), Bigtable et MapReduce. GFS s’occupe du stockage des données en «morceaux» sur un certain nombre de machines; Bigtable est certainement le programme de source de données de l’entreprise; et MapReduce peut être utilisé par les moteurs de recherche pour créer des informations de niveau supérieur (par exemple, la mise en place d’un index de pages Web contenant les mots «Chicago», «théâtre» et «participatif»).