Cet article, paru en anglais sur Search Engine Journal est le troisième d’une série de cinq articles consacrés au fonctionnement de l‘algorithme de Bing, et basés sur une série d‘entretiens menés tout autour du monde !
Dans cet article, vous obtiendrez quelques tuyaux sur les extraits en vedette d’Ali Alvi, officiellement « Premier gestionnaire de programme des produits de l’IA, Bing », et en clair, directeur de l’équipe des extraits en vedette (appelés Questions/Réponses chez Bing). Mais vous allez vite voir à quel point ce qu’il a partagé est bien plus qu’un « simple » guide pour savoir comment décrocher un featured snippet.
Illustrations : Véronique Barnard
Durant l’interview podcast (“With Jason Barnard…”, disponible sur la chaîne YouTube de Kalicube.pro), je cherchais à obtenir des renseignements sur la manière dont Bing génère les Questions / Réponses (l'équivalent des featured snippets chez Google)... En réalité, je voulais surtout savoir comment ils extrayaient, parmi les centaines de milliards de pages sur le web, la meilleure réponse aux questions de leurs utilisateurs.
Mais il m’a appris LARGEMENT plus que ça.
Des Questions et Réponses
Au départ, je voulais mieux comprendre l’algorithme des réponses en vedette. Comment ces moteurs de recherche choisissent “la meilleure réponse” à une question ? Et par là-même, je cherchais à comprendre comment mieux optimiser pour les moteurs de réponses : l’Answer Engine Optimisation, ça c’est mon truc !
Les descriptions sous les liens bleues
Mais j’ai eu en bonus une explication du fonctionnement de l’algorithme qui génèrent les descriptions utilisées sous les liens bleus traditionnels. Il s’est avéré que les deux sont intimement liés !
Ali Alvi nous le confirme : ces résultats en tête de page sont simplement des extraits tirés des résultats de base (les liens bleus), présentés au premier plan.
C’est tout à fait évident une fois que vous avez digéré pleinement l’idée que les textes en dessous des liens bleus ne sont pas des « meta descriptions glorifiés », mais des résumés de la page adaptés à la requête de l’internaute.
Pourquoi les meta descriptions n’affectent pas les classements
Les meta descriptions n’ont pas d’effets sur les classements puisque les moteurs de recherches sont passés à un algorithme différent pour générer ces textes il y a des années.
La raison en est simple : soit le descriptif à été sur-optimisé par un expert SEO, soit le site n’en fournit pas, soit il a été généré automatiquement par le CMS. Dans les 3 cas, les propriétaires des sites ne font pas bien leur travail, et Bing et Google ne peuvent pas compter sur eux pour résumer précisément nos propres pages.
Nous allons maintenant voir comment Bing se débrouille pour créer les « descriptions lien bleu » quand il n’aime pas votre meta description (soit la plupart du temps)
Un générateur de descriptions à la volée qui a donné naissance aux extraits en vedette
La réponse que nous voyons en haut des résultats en vedette est donc tout simplement une partie de contenu que Bing ou Google a extrait de notre page.
Mais Ali Alvi insiste sur le fait qu’ils ne se contentent pas de « prendre un extrait et de le présenter ». Ils font parfois beaucoup plus que cela. Souvent ils construirent des résumés du corpus du texte de manière “bricolage copier-coller”.
Extraire la question implicite à laquelle la page répond
Créer un résumé du document à la volée est le moyen pour les moteurs de matcher la question posé par l’internaute à une page qui contient la réponse.
L’utilisateur de Bing pose tout d’abord une question (sous la forme d’une requête de recherche). La fonctionnalité Questions & Réponses crée un résumé de chacun des meilleurs résultats “liens bleus” (en utilisant l’algorithme d’analyse de textes “Turing”). Le résumé donne la question à laquelle le document répond implicitement.
Le principe est simple : identifiez la question implicite la plus proche de la question de l’utilisateur et, bingo, vous avez la « meilleure » réponse / Questions & Réponses / extrait en vedette.
Selon Ali Alvi, Bing et Google “enseignent en effet aux machines comment lire et comprendre” et utilisent ici de l’intelligence artificielle de haute volée, qui n’est pas utilisée ailleurs, même pas dans le milieu universitaire.
Et si l’algorithme Turing est essentiel pour les Questions & Réponses, cela va bien plus loin que ça…
Turing est partout chez Bing… et Microsoft
“Chez Bing, nous avons un groupe de chercheurs dédiés qui travaillent sur de très performants algorithmes de traitement du langage naturel... ” nous affirme Ali Alvi dans son interview. L’équipe des snippets (extraits) est en fait “ le centre névralgique de ces algorithmes pour Microsoft dans son ensemble”.
Cela voudrait dire que l’équipe qui s’occupe de ces descriptions sous les liens bleus (d’apparence anodines) fournit ses algorithmes non seulement à n’importe quel classement de candidats qui en a besoin, mais également à des plateformes ou logiciels comme Word ou Excel !
Cela signifie que l’apprentissage automatique et l’algorithme utilisé pour créer les petits textes qui s’affichent aux utilisateurs sous les liens bleus contribuent également à la construction d’autres éléments riches sur le SERP, et à des fonctionnalités dans d’autres produits Microsoft: des auto-corrections, des titres, des sommaires, des outils d’aide, des réponses à des questions, et ... Qui sait quoi d’autres encore ?
En prenant un peu de recul, le développement pour les descriptions des SERP donne un aperçu de l’orientation adoptée ailleurs dans l’écosystème Microsoft.
Il est tout à fait évident qu’il doit y avoir une grosse centralisation pour ce type de technologie (on peut donc faire fonctionner notre imagination et trouver d’autres exemples possibles).
Ce que je trouve intéressant ici, est qu’une fonctionnalité qui couvre (ou va couvrir) tous les produits Microsoft provient au départ de ces “simples” descriptions pour les dix liens bleus.
Illustrations : Véronique Barnard
Petit retour sur le fonctionnement des algorithmes de recherche
Cette interview soutient les propos de l’article “Le darwinisme dans les résultats de recherche” que j’avais écrit après avoir entendu les explications de Gary Illyes sur la manière dont fonctionne le classement de Google.
J’avais demandé à Illyes s’il y avait un algorithme séparé pour le featured snippet, et il m’avait répondu par la négative : il y a un algorithme central pour les liens bleus et tous les classements de candidats l’utilisent, appliquant différentes pondérations aux facteurs (ou plus exactement fonctionnalités) de façon modulaire.
Dans le premier épisode de cette Bing série, Frédéric Dubut nous le confirmait, et dans le cinquième, Nathan Chalmers (directeur d’équipe de la page entière) nous l’affirme également.
Nous avons donc un fondement très solide pour l’affirmer : le concept de darwinisme dans le fonctionnement des moteurs de recherche est à prendre très au sérieux.
Le fondement demeure les 10 liens bleus
Ali Alvi souligne que les moteurs de recherche évoluent en permanence (eh oui, encore du darwinisme).
Historiquement, pour les 15 premières années environ, les moteurs de recherche présentaient seulement 10 liens bleus. Ensuite, quand de nouvelles fonctionnalités sont apparus (les extraits en vedette, par exemple), il fallait qu’elles s'installent par-dessus le système original sans perturber le noyau.
Ce système d’un algorithme “noyau” avec des éléments modulable, et des résultats conduits par le darwinisme était la solution.
Simple. Brilliant. Logique.
Questions / Réponses : la meilleure réponse des liens bleus les mieux classés
L’algorithme Questions / Réponses examine les meilleurs résultats des liens bleus pour voir s’il peut tirer du contenu de l’un des documents qui répond précisément et directement à la question. Donc, être classé à peu près dans le top 20 est nécessaire (le nombre exact n’est pas clair, et varie sans doute selon les cas). Il existe une exception intéressante, dont nous parlerons plus tard.
Nous avons peut-être tendance à oublier que les gens qui utilisent Bing et Google leur font confiance. En tant qu’utilisateurs, nous avons tendance à nous fier à la réponse que l’on voit en tête de la page de résultats. Voilà qui est essentiel pour comprendre comment ces deux sociétés fonctionnent.
Pour elles, les utilisateurs sont en réalité des clients. Comme pour n’importe quel business, Google et Bing doivent servir leurs clients. Ces clients veulent (et attendent) une réponse simple à une question, ou une solution rapide à un problème. Les Questions & Réponses / featured snippets sont les solutions les plus simples et les plus rapides qu’ils peuvent fournir à leurs clients.
Une partie du travail d’Ali Alvi consiste à s’assurer que le résultat fourni par Bing correspond aux attentes de leurs clients, à l’image de Microsoft, et au business model de Bing. C’est un équilibre délicat que toutes les entreprises doivent atteindre :
-
Satisfaire les clients.
-
Maintenir l’image de la marque.
-
Gagner de l’argent.
Dans le cas des Questions & Réponses (ou de n’importe quel résultat de recherche, d’ailleurs), cela veut dire fournir « la meilleure réponse » à l’utilisateur et éviter que Microsoft soit perçu comme trompeur, avare, offensant, etc.
Bizarrerie : pour obtenir une place dans les Questions / Réponses, vous n’avez pas nécessairement besoin de vous classer dans les liens bleus
Alvi affirme que, la plupart du temps, les Questions / Réponses se construisent sur la base des liens bleus. Mais comme le système mémorise les résultats qu’il affiche, un résultat qui ne se trouve pas actuellement dans les liens bleus peut toujours remonter dans les Questions / Réponses.
Vous devez donc d’abord vous classer pour obtenir les Questions / Réponses, mais vous n’avez pas à maintenir ce classement dans les résultats dites “ liens bleus” pour être pris en considération pour cette place dans l’avenir, puisque Questions / Réponses a une mémoire.
Quels sont les facteurs de classement pour les Questions / Réponses ?
Expertise, Autorité et Confiance. C’est simple. Même si Bing utilise le terme « pertinence » plutôt que “expertise”, ils renvoient à la notion de précision, et on n’est donc pas très loin du concept d’expertise.
Lisez plus sur le concept de E-A-T ici.
Les Questions / Réponses sont donc, comme chez Google, fondées sur le E-A-T. Google et Bing examinent notre Expertise, notre Autorité, et notre Fiabilité (Trust), parce qu’ils veulent afficher les « meilleurs » résultats, ceux qui les font apparaître comme des experts fiables et faisant autorité aux yeux des utilisateurs.
Simple et logique.
Illustrations : Véronique Barnard
Voici le processus pour trouver la « meilleure » réponse
L’algorithme commence son choix de “meilleur” résultat avec la pertinence. La réponse est-elle juste, correcte ? Si c’est le cas, elle a une chance.
La justesse d’un document est basée sur sa conformité à l’opinion acceptée d’une part, et sur la qualité du document d’autre part. Ces deux critères sont déterminés par la compréhension qu’ont les algorithmes des entités et de leurs relations (la recherche basée sur les entités est donc également un concept hyper important dans le SEO d’aujourd’hui).
Une fois qu’une entité est identifiée comme étant clé pour une réponse, les réseaux neuronaux déterminent si cette entité est présente dans la réponse. Si c’est le cas, quel est le contexte par rapport aux autres entités associées également présentes ? Et à quel point ce mini graphe de connaissance correspond-il à la « vérité acceptée » ?
Ce n’est qu’après ce pré-tri, qu’ils examinent les signaux d’autorité et de confiance.
L’algorithme évaluent l’autorité et la fiabilité explicites et implicites du document, de l’auteur et de l’éditeur, et cela grâce à l’apprentissage automatique.
Tout comme Frédéric Dubut, Ali Alvi considère que l’algorithme fonctionne sur un principe d’évaluation : il mesure le succès et l’échec, et s’adapte en conséquence.
Mesurer le succès et l’échec : retour de l’utilisateur
Avec ces réseaux neuronaux “end-to-end”, le contrôle exercé par les humains se limite finalement aux données insérées et aux métriques qu’ils utilisent pour juger la performance.
Ils nourrissent la machine en permanence avec ce que j’appellerais des « données correctives ». Le but est d’indiquer à la machine :
-
Là où elle a réussi (Frédéric Dubut parlait de renforcement de l’apprentissage).
-
Là où elle a échoué (ce qui conduit la machine à effectuer des ajustements).
La plupart de ces données correctives sont basées sur les retours des utilisateurs sous la forme de :
-
Juges humains (l’équivalent des évaluateurs de qualité chez Google – Frédéric Dubut en parle ici).
-
Enquêtes de satisfaction.
-
Retours des internautes à partir ds pages de résultats.
Ali Alvi suggère que ces retours sont la base sur laquelle la machine est jugée, mais également la base sur laquelle l’équipe elle-même est jugée.
La responsabilité principale de l’équipe derrière l’algorithme est de créer un algorithme fiable qui génère des résultats qui renforcent la confiance des utilisateurs dans le moteur de recherche.
Comme pour n’importe quelle autre activité commerciale, leur business model repose sur la satisfaction apportée aux clients. Et comme pour n’importe quelle autre activité commerciale, ils ont tout intérêt à utiliser les retours des clients pour améliorer leur produit.
Pensez plutôt en termes de métriques que facteurs de classement
Puisque l’apprentissage automatique domine le processus de classement, la question clé n’est donc pas « quels sont les facteurs ? », mais « quelles sont les métriques ? ».
Le calcul actuel des classements correspond désormais à peu de chose près uniquement au travail des réseaux neuronaux, qui agissent par eux-mêmes.
Le rôle des humains est de définir les métriques, effectuer un contrôle de qualité, et fournir des données correctives fiables pour encourager la machine à s'améliorer.
Les facteurs utilisés par la machine pour établir un classement sont une chose que nous ne pouvons connaître … et les ingénieurs chez Bing et Google non plus. Les algorithmes en production chez Bing et Google ont des centaines de millions de paramètres. Il est impossible que quiconque puisse s’y plonger et comprendre ce qui se passe.
Au départ, les ingénieurs donnent aux machines un ensemble de facteurs qu’ils jugent pertinents. Mais une fois qu’on lance la machine à traiter les données, c’est elle qui identifie et choisit les facteurs, souvent des facteurs auxquels les humains n’avaient pas pensé. Ces facteurs “indirects” sont inconnus des gens chez Bing ou Google, il est donc inutile de leur demander ce qu’ils sont : certains des facteurs qu’ils pensaient initialement être importants ne le sont pas, certains qu’ils jugeaient très secondaires ne le sont pas non plus. Et certains auxquels ils n’avaient pas pensé sont nécessaires.
La question à poser est donc « quelles sont les métriques ? », car c’est ce que les ingénieurs produits contrôlent. Ce sont les mesures du succès pour la machine, et c’est ça qui détermine comment l’algorithme évolue et fonctionne.
Il est important de noter que la machine s’adapte aux donnée correctifs fournis selon ces métriques :
Si la métrique n’est pas pertinente, les données correctives seront trompeuses, la machine va mal comprendre ce que l’on lui demande et les résultats de recherche vont être de mauvaise qualité.
Si la métrique est pertinente, le processus d'apprentissage va conduire la machine à fournir de meilleurs résultats. C’est un cercle vertueux.
En fin de compte, les résultats s’améliorent pour les clients de Bing.
Et le produit de Bing est un succès !
Filtrer les résultats / garde-fous
L’équipe est jugée sur la qualité des résultats fournis par leur algorithme. Cette qualité est évaluée en fonction de la capacité de ces résultats à renforcer la confiance des clients de Bing dans le produit Bing. L’équipe a donc développé un algorithme de filtrage pour empêcher les « mauvais » résultats de nuire à la marque Bing.
Ce filtre est lui-même un algorithme basé sur l’apprentissage automatique. Un filtre qui apprend à identifier et supprimer tout ce qui est inutile, offensant, ou nuisible à la réputation de Bing. Par exemple :
-
Discours haineux.
-
Contenu pour adultes.
-
Fake news.
-
Propos offensants.
Le filtre ne change pas le classement ou le choix de “meilleure réponse”, dans le cas ou ce filtre est déclenché, il supprime tout simplement l’extrait en vedette.
Ali Alvi fait ici une remarque intéressante : ils exercent leur droit de ne pas répondre à une question.
Les annotations sont essentielles
« Fabrice et son équipe font vraiment du bon travail et l’on s’appuie dessus à 100% », affirme Ali Alvi. Il poursuit en disant qu’ils ne peuvent pas construire les algorithmes qui génèrent les Questions / Réponses sans les annotations de Fabrice Canel : elles permettent à l’algorithme d’identifier facilement les blocs pertinents, de les atteindre et d’extraire le passage approprié, quel que soit l’endroit où il se trouve dans un document (les « Fraggles » de Cindy Krum).
Mais il semblerait que les annotations de Canel fassent bien plus qu'à identifier des blocs : elles vont jusqu’à suggérer des relations possibles entre différents blocs dans le document, ce qui facilite énormément la tâche d’écrire une sommaire à la volée en prenant des textes provenant de différentes parties du document.
Bingbot a, donc, un rôle important “d’étiquetage sémantique”.
Ce qui nous ramène encore une fois au point suivant : il est fondamental de structurer nos pages et de donner à Bingbot (et Googlebot) autant d’indices que possible pour qu’il puisse ajouter la couche d’annotations la plus riche possible à notre HTML, puisque les algorithmes s’appuient très largement sur ces annotations pour extraire et à classer notre (merveilleux) contenu.
La stratégie SEO au plus simple
Pour moi, il est désormais parfaitement clair que l’ensemble du processus d’exploration, de stockage et de classement des résultats (qu’il s’agisse de liens bleus ou d’éléments riches) est profondément interdépendant.
Et étant donné ce que messieurs Canel, Dubut, Alvi, Merchant, et Chalmers partagent dans cette série, les points les plus fondamentaux peuvent être résumés de la manière suivante :
-
Structurer notre contenu pour faciliter son exploration, extraction et annotation.
-
Nous assurer que notre contenu a de la valeur pour leurs utilisateurs qui sont également notre audience.
-
Construire le E-A-T (Expertise, Autorité, et Fiabilité) au niveau du contenu, de l’auteur et de l’éditeur.
Et cela reste vrai quel que soit le contenu qu’on demande à Bing (ou Google) de présenter à leurs utilisateurs, qu’il s’agisse de liens bleus ou d’éléments riches !
Voilà pour le troisième de ces cinq articles consacrés au fonctionnement de l'algorithme de Bing (et par extension, de tout moteur de recherche) et basés sur une série d'entretiens menés par Jason Barnard tout autour du monde !
Restez attentifs, nous publierons régulièrement un nouvel épisode des BING Séries, les aventures de notre globe-trotter du SEO !
Avec Frédéric Dubut, Senior Program Manager Lead / Bing
Avec Fabrice Canel, Principal Program Manager / Bing
Avec Ali Alvi, Principal Program Manager - Intelligence Artificielle / Bing
-
Épisode 4 : Comment fonctionnent les algorithmes vidéos et images de Bing ?
Avec Meenaz Merchant, Principal Program Manager Lead - Intelligence artificielle et recherche / Bing
-
Épisode 5 : Comment fonctionne l’algorithme pleine page de Bing ?
Avec Nathan Chalmers, Program Manager - Search Relevance Team / Bing