LookSmart adopte une nouvelle approche pour découvrir le contenu Web, en proposant un programme d’économiseur d’écran téléchargeable gratuitement qui explore également le Web lorsque votre ordinateur est inactif.
disponible pour les membres de Search Engine Watch.
Le programme est Grub, le service d’exploration distribué que LookSmart a acheté en janvier pour 1,4 million de dollars.
La plupart des robots d’exploration sont centralisés et exécutés à partir des centres de données de chaque moteur de recherche. Grub, en revanche, s’exécute à partir des ordinateurs de toute personne ayant téléchargé et installé le client Grub. LookSmart prévoit d’utiliser les informations recueillies par les robots d’exploration Grub pour compléter les analyses centralisées exécutées par son moteur de recherche Wisenut
Fondamentalement, le premier problème que nous essayons de résoudre avec notre acquisition de Grub est que nous connaissons beaucoup plus de documents que nous ne pouvons réellement récupérer et analyser en ce moment », a déclaré Peter Adams, directeur de la technologie de LookSmart. Nous connaissons actuellement plus de 10 milliards d’URL et nous constatons que cette tendance se développe en termes de pages Web ajoutées. »
La plupart des moteurs de recherche explorent beaucoup plus de documents qu’ils n’en indexent réellement. Même en éliminant les pages en double, les spams ou tout autre contenu inapproprié, les moteurs de recherche ont du mal à suivre le rythme de la nature en constante évolution du Web.
Cela pose des problèmes avec la fraîcheur des index des moteurs de recherche. Alors que tous les principaux moteurs de recherche mettent à jour au moins une partie de leurs index quotidiennement, la plupart se contentent de deux semaines à quelques mois pour actualiser complètement leurs bases de données.
L’exploration plus fréquente, bien que techniquement possible, a ses inconvénients, notamment des coûts plus élevés et une plus grande consommation de bande passante. L’approche distribuée de l’exploration de Grub peut atténuer certains de ces inconvénients, selon Adams.
Notre premier objectif est de créer une communauté de robots d’exploration Web distribués qui nous permettront d’explorer tous les documents Web chaque jour », a déclaré Adams. Pas nécessairement pour tous les indexer, mais pour constituer une base de données d’informations à leur sujet – ce qui est nouveau, ce qui est mort, ce qui a changé. »
Le robot d’exploration Grub visite une liste d’URL essentiellement aléatoires envoyées depuis un serveur central. Il récupère les pages et les analyse, créant une «empreinte» d’un document, une sorte de code unique qui décrit le document. Chaque fois qu’une page est explorée, Grub compare le nouveau code à l’ancien code. Si c’est différent, cela indique qu’il y a eu un changement sur la page.
Au lieu d’explorer et de tout renvoyer, seuls les robots d’exploration renvoient les informations modifiées », a déclaré Adams. Cette analyse intermédiaire d’une page est impossible à réaliser pour les crawlers centralisés, puisqu’ils doivent récupérer une page et la stocker dans la base de données du moteur de recherche avant qu’une quelconque analyse puisse être effectuée.
LookSmart pense que cette approche distribuée de l’exploration sera vitale pour faire face à la croissance d’Internet et garantir que les moteurs de recherche continuent de produire des résultats pertinents.
Si vous regardez les dix dernières années des moteurs de recherche, au-delà de cinq ans, ce que vous voyez vraiment, ce sont quelques gros serveurs fonctionnant sur un petit index », a déclaré Andre Stechert, directeur de la technologie de Grub.
Il y a peu de temps, il y avait quelque chose qui s’appelait l’informatique en cluster, et Google en a essentiellement tiré parti d’une très mauvaise manière. Ils ont pris des algorithmes de recherche d’informations existants et les ont mis sur ce modèle informatique bon marché, qui a fondamentalement changé la recherche », a déclaré Stechert.
Alors que Google utilise des grappes de milliers d’ordinateurs, Stechert envisage un autre bond en avant dans la technologie des moteurs de recherche. Les programmes de grille distribuée comme Grub ne seront pas hébergés sur des milliers d’ordinateurs mais sur des millions.
Google a posé la question « que se passe-t-il lorsque vous avez 10 000 ordinateurs ? » Nous demandons : « que se passe-t-il lorsque vous avez un million », a déclaré Stechert. Cela va apporter une autre révolution dans la qualité des résultats de recherche.
Le client Grub est facile à télécharger et à installer. Vous avez un contrôle total sur son comportement – quand il s’exécute, combien de bande passante il consomme, etc. Lors de mes tests, il a exploré des dizaines d’URL en quelques minutes via ma connexion par modem câble sans interférer avec aucune des autres applications exécutées sur mon ordinateur.
C’est fascinant d’observer le processus d’exploration. L’interface standard de Grub vous montre deux graphiques, affichant votre historique de bande passante »et le nombre d’URL explorées par minute. D’autres statistiques affichent des informations sur l’exploration en cours — les pages qui ont changé, restent inchangées, sont inaccessibles, etc.
L’économiseur d’écran est une visualisation qui affiche graphiquement le processus d’exploration. Vous pouvez également basculer vers une vue qui fait défiler la liste des URL au fur et à mesure de leur exploration.
Vous n’avez aucun contrôle sur ce qui est crawlé, à une exception près, dont je parlerai plus en détail. Néanmoins, il est fascinant de voir l’affichage d’URL du monde entier – pour la plupart inconnues. Cela me rappelle les premiers jours du Web, lorsque les générateurs de pages Web aléatoires étaient populaires.
Si vous possédez ou exploitez votre propre site Web, Grub vous permettra d’exécuter une analyse locale de votre site chaque nuit. C’est un excellent moyen de s’assurer que tout le contenu de votre site est exploré. Pour les grands sites, cela réduira également une partie de la consommation de bande passante, puisque Grub compresse toutes les données qu’il renvoie à ses serveurs, d’un facteur allant jusqu’à 20:1.
Pourquoi aider LookSmart à indexer le Web ? La raison altruiste est que cela les aidera à élargir leur couverture du Web et potentiellement à améliorer la pertinence des résultats de recherche. Si Grub fait son chemin, il est susceptible de stimuler des efforts similaires par d’autres moteurs de recherche.
Grub conserve également des statistiques pour chaque utilisateur. Vous pouvez voir combien votre client a exploré et comparer votre classement avec d’autres utilisateurs de Grub.
Mais la meilleure raison, du moins pour moi, est que regarder un robot en action est fascinant. Il vous permet d’observer directement un processus qui est normalement caché dans les boîtes noires que nous appelons les moteurs de recherche. Conclusion : c’est très amusant.