Il existe une énorme quantité d'informations sur Internet (plusieurs millions ou milliards
de documents), et ces informations sont pour la plupart renouvelées quotidiennement.
Le moteur de recherche est un élément indispensable pour s'y retrouver!
Un moteur de recherche (Searchbot en anglais) est une machine spécifique (matérielle et logicielle) chargée
d'indexer des pages web afin de permettre une recherche à l'aide de mots-clés dans un formulaire de recherche.
Des robots (logiciels), appelés spiders (en français araignées)
doivent parcourir la toile en suivant récursivement les liens des millions de pages Web
et indexent le contenu dans de gigantesques bases de données afin de permettre leur interrogation.
Aucun moteur de recherche ne peut parcourir la totalité des pages
en une journée (ce processus prend généralement plusieurs semaines), chaque moteur
adopte donc sa propre stratégie, certains allant même jusqu'à calculer la
fréquence de mise à jour des sites.
Lorsque l'utilisateur d'un moteur de recherche remplit le formulaire, il spécifie les mots qu'il cherche (éventuellement
ceux qu'il ne souhaite pas) grâce aux opérateurs booléens "et", "ou", "non" ... (symbolisés par +, -,...), la requête est envoyée
au moteur de recherche qui consulte ses bases de données pour chacun des mots puis affine la recherche en enlevant les pages ne convenant pas.
Il retourne ensuite une liste de liens vers des pages, avec soit le début du texte de la page, soit le texte spécifié par le créateur
de la page grâce aux balises spécifiques, appelées méta-tags, ou encore
l'extrait de la page qui contient les mots recherchés.
Ces réponses sont classées dans un ordre de pertinence, correspondant à des
critères propres au moteur de recherche, tels que le pourcentage de mots correspondant à
la recherche, leur indice de densité (le nombre d'occurence de chacun des mots clés dans la page), etc.
On appelle « métamoteur» un outil de recherche dont le fonctionnement est
basé sur l'exploitation des résultats d'autres moteurs de recherche.
|