Bing Serie #2 : Découvrir, explorer, extraire & indexer, comment fonctionne le Bingbot ?

Jason Barnard

mai 11, 202015 min de lecture
Bing Serie #2 : Découvrir, explorer, extraire & indexer, comment fonctionne le Bingbot ?
Partager

TABLE DES MATIÈRES

Cet article, paru en anglais sur le Search Engine Journal (ainsi que les conversations complètes sur mon podcast « With Jason Barnard… » et sur la chaîne YouTube de Kalicube.pro) est le deuxième d’une série de cinq articles consacrés au fonctionnement de l‘algorithme de Bing, et basés sur une série d‘entretiens menés tout autour du monde ! Voici un résumé de mon interview avec Fabrice Canel, « le boss de Bingbot » (officiellement : Principal Program Manager chez Bing). Fabrice Canel est chargé de découvrir tous les contenus sur le web, de sélectionner les meilleurs, de les traiter et de les stocker : une responsabilité phénoménale, comme on va le voir.

comment fonctionne le bingbot
Illustrations : Véronique Barnard

Il est raisonnable de supposer que Bingbot et Googlebot fonctionnent de façon à peu près similaire

Bingbot et Googlebot ne fonctionnent pas exactement de la même manière dans les moindres détails, mais ils sont tout de même très proches proches puisque :

  • Le processus est exactement le même : découvrir, explorer, extraire, indexer.

  • Les contenus qu’ils indexent sont exactement les mêmes.

  • Les problèmes auxquels ils font face sont exactement les mêmes.

  • La technologie qu’ils utilisent est la même.

Ainsi, même si les détails dans l’exécution de chaque étape diffèrent, Fabrice Canel confirme tout de même qu’ils travaillent en collaboration sur Chromium et qu’ils uniformisent l’exploration et le rendu.

Ainsi, tout ce dont Canel peut nous faire part sur la manière dont Bingbot découvre, explore, extrait et indexe se révèlera très intéressant et extrêmement utile.

Découvrir, explorer, extraire & indexer est le socle de tout moteur de recherche

C’est une évidence, je sais.

Mais ce qui frappe, c’est à quel point absolument tout le processus de ranking repose sur ce processus.

Non seulement de très nombreux contenus sont exclus avant même d’être pris en considération par les algorithmes de classement, mais le contenu mal organisé est sérieusement désavantagé dans la manière dont il est indexé, et par extension dans son traitement par les algorithmes de classement.

Une excellente organisation du contenu en blocs logiques et simples constitue un énorme atout durant tout le processus, jusqu’à la sélection, la position et la manière dont il apparaît sur les SERP.

D’un façon assez mécanique, un contenu bien structuré et bien présenté va être bien classé dans les résultats - ce qui est profondément encourageante.

SERP BingSERP Bing

Découvrir et explorer

Tous les jours, Bingbot découvre 70 milliards d’URL qu’il n’a jamais vues auparavant. Et tous les jours, il doit suivre tous les liens qu’il trouve, mais aussi explorer et récupérer toutes les pages qui en résultent, car il n’a aucune idée de l’utilité du contenu tant qu’il ne l’a pas récupéré.

Contenu pré-filtré

Et voici le premier élément intéressant que Fabrice Canel nous confie : l’exclusion de certains contenus des résultats de recherche commence ici.

Les pages qui sont considérées comme n’ayant absolument aucun potentiel pour satisfaire la requête d’un utilisateur dans les résultats de Bing ne sont pas retenues. Ainsi, une page “qui a l’air” d’être du spam ou de la duplication, ou dont le contenu paraît trop maigre, n’arrive jamais au stade de l’indexation.

Mais Bingbot fait bien plus que rejeter les pages spams, il essaie de prendre les devants en prédisant quels liens sont susceptibles de le conduire à du contenu inutile.

Pour prédire si un lien conduit à un contenu qui a des chances d’apporter de la valeur, il examine des signaux comme :

  • La structure de l’URL.

  • La longueur de l’URL.

  • Le nombre de variables.

  • La qualité des liens entrants.

  • Etc.

Un lien qui conduit à un contenu que Bingbot considère inutile est qualifié de « mort ». À mesure que l’apprentissage automatique de Bing s’améliore, les liens morts sont moins suivis, les pages inutiles parviennent moins à passer ce filtre initial, et la qualité de l’index s’améliore.

Les algorithmes ont à traiter moins de « déchets », ce qui veut dire qu’il leur est plus facile d’identifier le meilleur contenu et de le présenter aux clients de Bing.

Il est important de noter que l’équipe derrière Bingbot prête ainsi une grande attention et améliore ainsi contamment :

  • La réduction de l’exploration, du rendu et de l’indexation des déchets (économie d’argent).

  • La réduction des émissions de carbone (Fabrice Canel insiste beaucoup là-dessus).

  • L’amélioration de la performance des algorithmes de classement.

  • La génération de meilleurs résultats.

Bing crawl

Les liens demeurent essentiels pour la découverte

Le plus gros signal indiquant qu’une page n’a pas de valeur demeure qu’il n’y a pas de liens entrants.

Chaque page doit évidemment avoir au moins un lien entrant, mais ce lien ne doit pas nécessairement venir d’un site tiers. Cela peut être un lien interne.

En revanche, une fois découverts, ils ne sont plus nécessaires, car Bingbot a une « mémoire ». Bingbot mémorise chaque URL et revient l’explorer à nouveau de temps en temps, même si tous les liens vers elle ont été supprimés.

Cela explique pourquoi Bingbot (et Googlebot) revient et vérifie les pages supprimées qui n’ont pas de liens entrants, même des mois après que la page et toutes les références y conduisant ont été supprimées.

J’ai rencontré exactement la même situation sur mon site : d’anciennes pages que j’ai supprimées il y a 5 mois reviennent aujourd’hui toujours me hanter (et hanter Bing et Google) !

Pourquoi ? Parce que Bing considère que toute URL peut être ressuscitée et devenir utile. Ainsi par exemple :

  • Les domaines parqués qui sont réactivés.

  • Les domaines qui changent de propriétaire.

  • Les liens cassés sur un site qui sont réparés par le propriétaire.

Les URL ont un cycle de vie chez Bing

Il existe toutefois une limite à ce processus : ce que Fabrice Canel appelle le « cycle de vie ». Une fois que ce cycle de vie est terminé, l’URL ne sera plus explorée à partir de la mémoire. Elle peut néanmoins être réactivée par la découverte d’un lien entrant, une référence dans un flux RSS, un sitemap ou une demande via l’API.

Fabrice Canel insiste d’ailleurs sur l’importance des flux RSS et des sitemaps. Fournir ces “cartes de découverte“ vous permet d’aider Bingbot et Googlebot non seulement à découvrir du nouveau contenu et du contenu revitalisé, mais aussi à explorer plus efficacement le contenu « connu ».

Mieux encore, le program manager de Bing vous encourage à utiliser l’API d’indexation, car c’est le moyen le plus efficace pour aider Bingbot à découvrir (ou redécouvrir) du contenu. De plus, l’API permet de réduire les explorations superflues, et donc de réduire les émissions de carbone. 

Bingbot is green

Extraire

Je suis très fan du HTML5. 

Bien que théoriquement très utile, car il identifie le rôle joué par les éléments spécifiques d’une page, le HTML5 est rarement bien implémenté : alors qu’il devrait donner une structure et des éléments sémantiques aidant les bots à extraire les informations d’une page, la plupart du temps ce n’est pas le cas.

C’est précisément pour cette raison que John Mueller de Google a suggéré que le HTML5 n’était pas nécessairement très utile aux bots. Fabrice Canel, quant à lui, affirme catégoriquement au contraire que toute structure HTML standardisée est utile.

Le moins que vous puissiez faire est d’utiliser correctement les balises de titre (heading) pour identifier le thème principal de la page ainsi que, les thèmes secondaires, et les sous-thèmes secondaires.

Les balises section, aside, header, footer et autres balises sémantiques HTML5 aident Bingbot (et très certainement Googlebot) : il vaut vraiment la peine de les implémenter, si vous le pouvez.

L’utilisation de tableaux et de listes est également conseillé - simple, et pourtant puissante.

Quelques mots sur les tableaux HTML

Les tableaux (<table>) sont une façon très efficace de structurer des données, mais il faut absolument cesser de simplement les utiliser pour la mise en page et le design.

Plus de 80% des tableaux sur le web sont utilisés pour le design, alors qu’en réalité les tableaux sont là pour présenter des données, pas pour faire joli... Et de plus, c’est très déroutant pour une machine (Fabrice Canel utilise le terme distrayant [distracting], que j’adore parce qu’il rend Bingbot plus humain).

Rendez service aux bots et utilisez des tableaux uniquement pour présenter des données de manière structurée. Par exemple, un tableau donnant des informations sur les planètes du système solaire.

html 5 table

Utilisez DIV et CSS pour positionner le contenu dans la page.

Toute structure systématiquement appliquée est utile pour les bots et vaut la peine d’être implémentée. 

  • Si vous construisez un CMS sur mesure, utilisez le HTML5 pour aider les bots à « digérer ». 

  • Mais autrement, tout CMS standard facilite déjà l’extraction, car les bots voient la même structure de page à maintes reprises sur de multiples sites, et cette répétition donne à l’apprentissage automatique une bonne base de départ. 

Il est donc un avantage considérable de construire votre site avec un CMS populaire, tel que Joomla, Typo3, ou WordPress. 

Du point de vue de l’aide qui peut être apportée aux bots pour l’extraction du contenu de vos pages, WordPress est bien sûr l’un des meilleurs candidats, puisque plus de 30% des sites sont construits à l’aide de WordPress : le Bot voit cette même structure de base sur un tiers des sites qu’il visite !

Ce qui nous conduit à …

Bots & Apprentissage automatique

Il est important de se souvenir que l’apprentissage automatique gère absolument toutes les étapes du processus de découverte-exploration-extraction-indexation. 

Une compréhension approfondie des pages (ce sont les termes de Fabrice Canel) et un système intelligent et évolutif d’extraction sont essentiels pour Bing - et pour Google.

Pour extraire et indexer au mieux votre contenu, un bot a besoin de modèles dans le code HTML sous-jacent.

 Il est donc très avantageux d’optimiser la structure de votre site, la structure de vos pages, et standardiser votre HTML... De préférence du HTML qui respecte les standards du Web.

html 5

Mais… Tous les sites seront les mêmes alors ?

Il pourrait sembler que construire votre site sur un CMS standard avec une structure standardisé et du HTML systématisé ferait que votre site ressemblerait à beaucoup d’autres. Pas du tout !

Le design est indépendant de la structure HTML. Et c’est exactement le propos du HTML5 : dissocier le design de la sémantique (cet article couvre ce sujet). De plus, la structure ne sera pas exactement la même (exceptés peut-être les tout petits sites d’une demi-douzaine de pages)

Mais même si c’est le cas, en quoi est-ce important ? Le contenu que vous créez est unique (ou devrait l’être). À priori, même quand elles parlent du même sujet, deux marques ne diront jamais la même chose.

Donc, si vous utilisez WordPress et choisissez un thème populaire, vous cocherez toutes les cases pour les bots... Et pourtant votre design, votre structure et votre contenu seront toujours uniques pour votre audience. Vous gagnez sur les deux fronts !

En un mot, à moins que vous soyez une grande entreprise avec un gros budget, s’en tenir à un thème populaire sur un CMS répandu sera souvent un bon choix. En effet, puisqu’ils sont courants, ils seront compris de manière native par tous les moteurs de recherche. Votre contenu, lui, est unique, et vous pouvez changer complètement la présentation visuelle et la rendre unique en utilisant un simple CSS.

Rappelez-vous seulement de vous en tenir aux normes du CSS et n’allez pas tripatouiller le noyau du CMS ou le HTML sous-jacent afin de ne pas embrouiller Bingbot et Googlebot.

Google & Bing collaborent

Les deux bots utilisent Chromium, un navigateur open-source qui sous-tend non seulement Chrome, mais aussi Opera... et d’autres navigateurs. Bingbot est passé à la version Chromium de Edge fin 2019, et a également suivi les pas de Googlebot en devenant “Evergreen”. 

Mieux encore, Fabrice Canel affirme que Bing et Google travaillent désormais en étroite coopération sur Chromium. C’est difficile à imaginer. Et facile à oublier. Mais c’est vrai que c’est dans l’intérêt des deux compagnies de collaborer : elles cherchent à explorer exactement le même contenu avec le même objectif. Compte tenu de l’amplitude (et du coût), elles ont tout intérêt à “standardiser”.

Elles ne peuvent pas espérer que les propriétaires de site se développent différemment pour différents bots. Et aujourd’hui, après toutes ces années, cette standardisation est devenue une réalité : deux robots d’exploration majeurs utilisent le même navigateur et sont tous deux Evergreen. Développer des sites serait-il devenu tout de suite plus simple ?

L’adoption d’Edge par Bingbot rendra la vie de la communauté du SEO plus facile, parce qu’on n’aura à tester le rendu qu’une seule fois. Si une page est bien rendue dans Edge, elle le sera aussi sur Chrome, elle sera bien rendue pour Googlebot et pour Bingbot. C’est une nouvelle formidable pour nous tous.

On notera que depuis le 15 janvier 2020, la version diffusée au public du navigateur Edge de Microsoft est développée sur Chromium.Donc non seulement nos navigateurs sont désormais construits en grande partie sur le même code de base, mais les bots de deux moteurs de recherche majeurs le sont également.

L’extraction pour les éléments riches

L’augmentation des éléments riches (et donc du darwinisme) sur les moteurs de recherche était le point de départ de cette série. Une chose que je voulais vraiment comprendre était de savoir comment ça marchait du point de vue de l’indexation ? Comment Bing et Google maintiennent-ils à une grande échelle un système d’indexation au service de toutes ces fonctionnalités SERP ?

Les deux bots sont devenus très bons pour identifier les parties / morceaux / blocs d’une page, et comprendre le rôle qu’ils jouent (titre, footer, aparté, menu,commentaires d’utilisateurs, etc.). Ils peuvent extraire, de manière précise et fiable, des informations spécifiques et précises du milieu d’une page, même dans le cas où le HTML est mal organisé (mais ce n’est pas une excuse pour être paresseux).

Encore une fois, l’apprentissage automatique est essentiel. C’est la clé qui leur permet de faire cela. Et c’est cela qui sous-tend la croissance phénoménale des éléments riches que nous avons pu observer ces dernières années.

Il peut être utile de prendre un peu de recul et d’examiner l’anatomie des SERP d’aujourd’hui par rapport à il y a dix ans. Les éléments riches ont pris une place essentielle dans les SERP d’aujourd’hui, au point qu’il est devenu difficile de se souvenir des SERP quand elles n’étaient composées que de 10 liens bleus... ces SERP sans fonctionnalités.

Bing Bot

Indexation / Stockage

La manière dont Bingbot stocke les informations est d’une importance cruciale pour toutes les équipes de classement. Tout algorithme dépend de la qualité de l’indexation de Bingbot pour fournir des informations exploitables dans les résultats.

L’annotation est le point essentiel. L’équipe de Fabrice Canel annote donc toutes les données qu’elle stocke : 

  • Elle ajoute une riche couche descriptive au HTML.

  • Elle étiquette les parties : titre, paragraphe, média, tableau, aparté, footer, etc.

Et voici la (très simple) astuce qui leur permet d’extraire le contenu du milieu d’une page dans un format approprié, souvent enrichi, et de le placer dans la SERP ! 

Les normes sont la clé d’un étiquetage efficace

Conseil pratique : d’après ce que Fabrice Canel a affirmé auparavant, si le HTML suit un système connu (comme des blocs rigoureux HTML5 ou Gutenberg dans WordPress), alors l’étiquetage sera plus précis, plus granulaire et plus « utile » pour les différents éléments riches.

Et comme votre contenu est plus facilement compréhensible et plus facilement accessible et extrait à partir de l’index, il se dote d’un avantage décisif dès le départ.

Bingbot exerce une énorme influence sur la manière dont le contenu est perçu par les algorithmes de classement. Leur annotation fait toute la différence dans la manière dont votre contenu est perçu, sélectionné et affiché par les différents algorithmes de fonctionnalité SERP.

Si votre contenu n’est pas correctement annoté par Bingbot lors de l’indexation, vous partez avec un sérieux handicap pour apparaître sur les SERPs, que ce soit sous la forme de lien bleu, de featured snippet, de news, d’image, de vidéo… 

Structurer votre contenu au niveau des blocs est donc essentiel ! Utilisez un système logique standardisé et maintenez-le sur tout votre site : c’est la seule façon pour que Bingbot annote votre contenu en blocs utilisables quand il stocke la page dans la base de données...

Et c’est cela qui détermine si un morceau de contenu vit ou meurt sur les SERP, non seulement en tant que candidat potentiel, mais aussi pour la manière dont il est affiché, et à quel moment.

Tous les résultats, qu’il s’agisse de liens bleus ou d’éléments riches, reposent sur la même base de données

Tout le système de classement et d’affichage des résultats, quel que soit le format de contenu ou la fonctionnalité SERP, dépend de la manière dont l’équipe de Fabrice Canel comprend internet, traite internet, et stocke internet.

Il n’existe pas plusieurs systèmes de découverte, sélection, traitement et indexation pour les featured snippets / Q&A, vidéos et images, news et carrousels, etc : tout est combiné et chaque équipe extrait ce dont elle a besoin à partir d’une seule source.

La capacité d’un classement de candidats à sélectionner, analyser et présenter sa liste de candidats à l’équipe de la page entière dépend des annotations que Bingbot ajoute aux pages.

Oui, les algorithmes de classements sont darwiniens, comme Gary Illyes les décrit, mais le contenu de certaines pages jouit d’un énorme avantage dès le départ.

Ajoutez des poignées pour donner à votre contenu un avantage déloyal

Selon moi, la « riche couche d’annotations » dont parle Canel est constituée par les poignées que Cindy Krum utilise dans sa théorie de Fraggles.

Si nous ajoutons des poignées faciles à identifier dans notre propre HTML, alors les annotations deviennent plus précises, plus granulaires et considérablement plus utiles aux algorithmes pour les différents classements de candidats.

Les « poignées » de HTML sur votre contenu lui donneront une longueur d’avance dans ce monde darwinien des SERP !


Youtube video thumbnail

Voilà pour le deuxième de ces cinq articles consacrés au fonctionnement de l'algorithme de Bing (et par extension, de tout moteur de recherche ?) et basés sur une série d'entretiens menés par Jason Barnard tout autour du monde ! Restez attentifs, nous publierons régulièrement un nouvel épisode des BING Séries, les aventures de notre globe-trotter du SEO ! 

Avec Frédéric Dubut, Senior Program Manager Lead / Bing

Avec Fabrice Canel, Principal Program Manager / Bing

  • Épisode 3 : Comment fonctionnent les Featured Snippets chez Bing ?

Avec Ali Alvi, Principal Program Manager - Intelligence Artificielle / Bing

  • Épisode 4 : Comment fonctionnent les algorithmes vidéos et images de Bing ?

Avec Meenaz Merchant, Principal Program Manager Lead - Intelligence artificielle et recherche / Bing

  • Épisode 5 : Comment fonctionne l’algorithme pleine page de Bing ?

Avec Nathan Chalmers, Program Manager - Search Relevance Team / Bing 

Partager
Author Photo
Company: He is founder and CEO at Kalicube – a groundbreaking digital marketing agency that, through the Kalicube Pro SaaS platform, helps clients optimise their Brand SERP and manage their knowledge panel. Author: Jason is a regular contributor to leading digital marketing publications such as Search Engine Journal and Search Engine Land and regularly writes for others including Wordlift, Semrush, Search Engine Watch, Searchmetrics and Trustpilot. Speaker: Major marketing conferences worldwide regularly invite Jason to speak about Brand SERP and knowledge panels, including BrightonSEO, PubCon, SMX series and YoastCon. Podcast host: Spanning 3 seasons his podcast, ‘With Jason Barnard...‘ has become a weekly staple in the digital marketing community. Guests include Rand Fishkin, Barry Schwartz, Eric Enge, Joost de Valk, Aleyda Solis, Bill Slawski… Over 180 episodes available, and counting. The conversations are always intelligent, always interesting, and always fun!