Setup Menus in Admin Panel

1- Fonctionnement des outils de recherche

Fonctionnement des outils de recherche

Alors qu’un navigateur Web permet de consulter un site ou une page dont on connaît l’adresse, un moteur de recherche est conçu pour faire une recherche à partir de mots clés renvoyer une liste de liens vers des documents susceptibles d’être pertinents. Si, depuis la fin des années 1990, les moteurs se sont diversifiés quant à la nature des documents qu’ils permettent de retrouver (pages Web, images, vidéos, fichiers son), leur principe général de fonctionnement reste globalement toujours le même.

  • La collecte d’informations
  • L’indexation des données collectées
  • Le traitement des requêtes
  • La restitution des résultats

 

Fonctionnement des outils de recherche

Fonctionnement des moteurs de recherche

 

Collecte d’information

Encore appelée crawl, la collecte des pages repose sur le principe du Web qui associe à chaque document publié une adresse URL (uniform resource locator). Elle est réalisée par un « robot », un programme informatique (appelé spider ou crawler en anglais) qui, à partir d’une liste initiale d’adresses, visite les pages Web correspondantes et y collecte les adresses mentionnées dans les liens. De proche en proche, cette technique permet de découvrir de nouvelles ressources en ligne. Le procédé détaillé de la collecte des adresses diffère d’un moteur à l’autre, selon l’ensemble de départ d’adresses qui sert à l’initier, les techniques de suivi des liens et la fréquence de mise à jour de la base d’adresses du moteur. C’est pourquoi les différents moteurs de recherche n’ont pas la même portée et ne couvrent pas les mêmes ressources. Les moteurs copient sur leurs propres serveurs (cache) les pages rencontrées afin de disposer d’une version stabilisée pour l’indexer.

 

Indexation des données collectées

Les pages Web collectées sont analysées par un logiciel qui procède à leur indexation. L’indexation consiste à caractériser les pages par des mots clés pour permettre de les retrouver. Dans le cas des moteurs de recherche, l’extraction de mots ou de groupes de mots à partir des documents est automatisée. Le moteur constitue un index qui, pour chaque mot repéré, renvoie aux pages où ce mot est présent. Pour un programme informatique, un mot est une simple suite de caractères entre deux séparateurs (par exemple une espace ou un signe de ponctuation), il n’a pas de sens. L’indexation du texte intégral pose des problèmes liés à l’homonymie (un mot peut avoir des sens très différents, par exemple « paris » peut correspondre aux enjeux des joueurs, à la capitale de la France ou au personnage de la mythologie grecque) et à la synonymie (une page comportant le mot « voiture » et une autre le mot « automobile » ne seront pas liées dans l’index).

Certains moteurs, comme Google, ajoutent à l’index d’une page, sous certaines conditions, les mots qui apparaissent dans les liens pointant vers elle. Le procédé permet d’obtenir d’autres termes descripteurs jugés représentatifs par ceux qui ont signalé la page dans leur propre site.

 

Traitement des requêtes

L’interface d’interrogation est la seule partie visible du moteur de recherche pour l’utilisateur. Elle permet de formuler la demande et de consulter les résultats. Deux types d’interfaces sont souvent proposés : une interface de recherche simple, composée d’une barre de recherche et d’un ou plusieurs boutons ; une interface de recherche avancée où l’on peut préciser sa requête en choisissant des options.

De nombreuses études scientifiques montrent que les utilisateurs de moteurs emploient peu de mots dans leurs requêtes, et ils ne consultent souvent que les tout premiers liens proposés dans les résultats alors qu’il existe plusieurs centaines de milliers voire millions de pages candidates. Le défi auquel sont confrontés les moteurs de recherche est non seulement de retrouver les pages qui peuvent correspondre à la demande formulée mais surtout de classer les résultats par pertinence. Pour ce faire, chaque moteur a sa propre recette qui mélange un grand nombre de critères exprimés dans des algorithmes. L’importance d’un mot pour décrire une page peut être déterminée à partir de sa position dans la page (par exemple, un mot présent dans le titre de la page aura plus de poids que les autres) ou sa densité d’apparition. Google a aussi mis en place un algorithme qui repose sur la popularité : plus une page est signalée par des liens dans d’autres sites, mieux elle sera classée. Ce principe a été repris par d’autres moteurs commerciaux.

 

Restitution des résultats

Une fois la recherche lancée, la restitution des résultats identifiés se fait dans ce que l’on appelle communément des SERP (Search Engine Result Pages) ou pages de résultats, le plus souvent présentées sous la forme d’une liste d’une dizaine de liens affichés les uns en dessous des autres. Les pages de résultats des moteurs de recherche affichent deux principaux types de contenu :

  • les liens organiques ou naturels, obtenus grâce au crawl du Web ;
  • les liens sponsorisés, encore appelés liens commerciaux ou publicitaires, issus du référencement payant.

Ces liens publicitaires ont souvent une relation avec les mots choisis par l’internaute dans sa requête, afin de présenter une publicité « pertinente », susceptible d’être bien tolérée par les internautes mais parfois aussi confondue avec les résultats organiques. Depuis 2005, les moteurs ont reçu des directives pour faire en sorte de les distinguer plus clairement, en les affichant dans une colonne séparée ou en haut de la page. Chaque résultat de la liste correspond à un lien, accompagné du titre de la page cible et d’un court fragment montrant les mots recherchés dans le texte.

SEE ALL Add a note
YOU
Add your Comment

Related Courses Widget

Course

GetReady
BP : 13832 Nkolfoulou Yaoundé
Tel: 00237 655 214 000
Email: contact@lets-getready.org

top
© GetReady. Tous droits réservés.
X