logo-small logo-small_halloween

Étude SEMrush sur les facteurs de ranking 2017 - Méthodologie démystifiée

49
Wow-Score
Le Wow-Score montre la capacité d'engagement d'un billet de blog. Il est calculé en fonction de la corrélation entre le temps de lecture actif de l'utilisateur, sa vitesse de défilement et la longueur de l'article.
En savoir plus

Étude SEMrush sur les facteurs de ranking 2017 - Méthodologie démystifiée

Cet article est en Français
Xenia Volynchuk
Cet article est en Français
Étude SEMrush sur les facteurs de ranking 2017 - Méthodologie démystifiée

Dans la deuxième édition, l’étude SEMrush sur les facteurs de ranking 2017, nous avons ajouté 5 facteurs liés aux backlinks et comparé la force de leur influence sur une URL particulière par rapport à tout le domaine. En accord avec notre tradition, nous vous offrons une vue plus approfondie de notre méthodologie.

La méthodologie que nous avons utilisée est unique dans le champ des études SEO : nous avons troqué l’analyse corrélative pour l’algorithme d’apprentissage automatique des forêts d’arbres décisionnels - Random Forest. Comme le but ultime de notre étude était d’aider les spécialistes SEO à prioriser leurs tâches et à faire plus efficacement leur travail, nous aimerions révéler les détails de notre recherche et détruire quelques idées fausses assez répandues afin que vous puissiez vous appuyer sans risques sur nos résultats.

infographie-ranking-factors-new

Comme ce post est destiné aux vrais nerds, voici un petit glossaire :

Arbre de décision — une structure en forme d’arbre représente un algorithme d’apprentissage automatique habituellement appliqué aux tâches de classification. Il segmente un échantillon de données d’apprentissage en groupes/sous-ensembles homogènes selon l’attribut le plus important.

Apprentissage supervisé — un type d’algorithme d’apprentissage automatique qui entraîne un modèle à trouver des lois dans la relation entre les variables d’entrée (caractéristiques, A) et les variables de sortie (valeur cible, B) : B = f(A). Le but est d’entraîner ce modèle sur un échantillon de données pour que, quand on lui proposera des données hors échantillon, l’algorithme puisse prédire précisément la valeur cible, selon l’ensemble de caractéristiques données. La collection des données d’apprentissage est comme un professeur s’occupant du processus d’apprentissage. L’apprentissage est dit réussi et se termine quand l’algorithme parvient à une qualité de performance acceptable.

Caractéristique (ou attribut, ou variable d’entrée) — caractéristiques d’une saisie de données isolées utilisées pour une analyse. Pour notre étude et ce blog post, les caractéristiques sont les facteurs de ranking supposés.

Classification binaire — type de tâches de classification qui ressortissent de l’apprentissage automatique supervisé. Le but de cette tâche est de prévoir une valeur cible (=classe) pour chaque saisie de données, et pour la classification binaire ça ne peut être que 0 ou 1.

Utiliser Random Forest pour l’étude des facteurs de ranking

L’algorithme Random Forest a été développé par Leo Breiman et Adele Cutler au milieu des années 1990. Il n’a pas connu de modification importante depuis, ce qui prouve sa grande qualité et son universalité : il est utilisé pour la classification, la régression, le regroupement, la sélection de caractéristiques et d’autres tâches.

Bien que l’algorithme Random Forest ne soit pas très connu du public, nous l’avons choisi pour un certain nombre de raisons :

  1. C’est un des algorithmes d’apprentissage automatiques les plus populaires, et d’une précision inégalée. Sa première et principale application est le classement de variables selon leur importance (et sa nature est parfaitement adaptée à cette tâche – nous y reviendrons) ; il semble donc que ce soit un choix évident.
  2. L’algorithme traite les données de sorte à minimiser les erreurs :
  • La méthode des sous-espaces aléatoires offre à chaque apprenant des échantillons aléatoires de caractéristiques, pas toutes. Cela garantit que l’apprenant ne sera pas trop concentré sur un ensemble prédéfini de caractéristiques et ne prendra pas de décisions biaisées sur un ensemble de données hors échantillon.
  • La méthode de mise en sac (ou de l’agrégation bootstrap) améliore également la précision. Son principal avantage est d’offrir aux apprenants non l’ensemble des données, mais des échantillons aléatoires.

Sachant que nous n’avons pas un seul arbre de décision, mais plutôt toute une forêt de centaines d’arbres, nous pouvons être sûr que chaque caractéristique et chaque paire de domaines sera analysée le même nombre de fois. La méthode des forêts d’arbres décisionnels est donc stable et commet un minimum d’erreurs.

L’approche par paires : prétraitement des données d’entrée

Nous avons décidé de baser notre étude sur un ensemble de 600 000 mots clés de notre base de données mondiale (USA, Espagne, France, Italie, Allemagne et autres), les données de position des URL pour le top 20 des résultats de recherche, et une liste de facteurs de ranking supposés. Comme nous n’allions pas utiliser l’analyse de corrélation, nous avons dû effectuer une classification binaire avant d’y appliquer l’algorithme d’apprentissage automatique. Cette tâche a été menée à bien avec l’approche par paires : une des méthodes d’apprentissage automatique de ranking les plus populaires, utilisée entre autres par Microsoft dans ses projets de recherche.

L’approche par paires implique qu’au lieu d’examiner un ensemble complet de données, chaque SERP est étudiée individuellement : nous comparons toutes les paires possibles d’URL (le premier résultat sur la page avec le cinquième, le septième résultat avec le second, etc.) pour chaque caractéristique. À chaque paire est attribuée une collection de valeurs absolues, où chaque valeur est un quotient (la division de la valeur de la caractéristique pour la première URL par la valeur de la caractéristique pour la deuxième URL). En plus, à chaque paire est également attribuée une valeur cible qui indique si la première URL est positionnée plus haut que la seconde sur la SERP (valeur cible = 1) ou plus bas (valeur cible = 0).

Résultats de la procédure :

  1. Chaque paire d’URL reçoit une collection de quotients pour chaque caractéristique et une valeur cible de 0 ou 1. Cette variété de nombres sera utilisée comme ensemble de données d’apprentissage pour les arbres de décision.
  2. Nous sommes désormais en mesure de faire des observations statistiques pour certaines valeurs de caractéristique et leurs combinaisons ont tendance à donner une position plus haute sur la SERP pour une URL. Cela nous permet de formuler une hypothèse sur l’importance de certaines caractéristiques et de prédire si oui ou non une certaine collection de valeurs de caractéristique entraînera de meilleurs rankings.

Augmenter l’ensemble d’arbres de décision : l’apprentissage supervisé

La collection de données que nous avons reçue à la suite de l’étape précédente est absolument universelle et peut être utilisée avec n’importe quel algorithme d’apprentissage automatique. Celui que nous préférons est la forêt d’arbres décisionnels.

Avant que les arbres puissent prendre des décisions raisonnables, il faut qu’ils s’entraînent : c’est là que l’apprentissage automatique supervisé entre en jeu. Pour être sûr que l’entraînement est bien effectué et des décisions impartiales sur les données principales sont prises, les méthodes de regroupement et de sous-espace aléatoire sont utilisées.

trees

Bagging (le regroupement) est le processus de création d’une collection de données d’apprentissage par échantillonnage avec remplacement. Admettons que nous avons X lignes de données. Selon les principes du regroupement, nous allons créer une collection de données d’apprentissage pour chaque arbre de décision, et cette collection aura le même nombre de lignes X. Cependant, cette collection d’échantillonnage sera remplie de façon aléatoire et avec remplacement : elle n’inclura donc qu’approximativement deux tiers des X lignes originales, et il y aura des doublons de valeur. À peu près un tiers des valeurs originales resteront non modifiées et seront utilisées une fois que l’apprentissage sera terminé.

Nous avons fait à peu près la même chose pour les caractéristiques en utilisant la méthode des sous-espaces aléatoires : les arbres de décision sont entraînés sur des échantillons aléatoires de caractéristiques au lieu de l’être sur l’ensemble de la collection des caractéristiques.

Ce n'est pas un seul arbre qui utilise toute la collection de données et toute la liste des caractéristiques. Mais avoir une forêt d’arbres multiples nous permet de dire que chaque valeur et chaque caractéristique sont très probablement utilisées le même nombre de fois.

Augmenter la forêt

Chaque arbre de décision partitionne de manière répétitive la collection de données de l’échantillon d’apprentissage selon la variable la plus importante et il le fait jusqu’à ce que chaque sous-ensemble soit composé de données homogènes. L’arbre scanne l’ensemble de la collection de données d’apprentissage et choisit la caractéristique la plus importante et sa valeur précise, qui devient une sorte de point pivot (nœud) et sépare les données en deux groupes. Pour un groupe, la condition choisie ci-dessus est vraie ; pour l’autre, fausse (branches OUI et NON). Tous les sous-groupes finaux reçoivent une valeur cible moyenne selon les valeurs cibles des paires d’URL qui ont été placées dans un certain sous-groupe.

Puisque les arbres utilisent la collection de données d’échantillon pour grandir, ils apprennent en grandissant. Leur apprentissage est considéré comme réussi et de bonne qualité quand un pourcentage cible de valeurs cibles correctement devinées est atteint.

Une fois que tout l’ensemble d’arbres a grandi et est entraîné, la magie se met à opérer : les arbres sont désormais autorisés à traiter les données hors échantillon (à peu près un tiers de la collection de données originale). Une paire d’URL est attribuée à un arbre seulement si elle n’a pas rencontré la même paire pendant l’apprentissage. Cela veut dire qu’une paire d’URL n’est pas attribuée à 100 % des arbres dans la forêt. Ensuite, le vote a lieu : pour chaque paire d’URL, un arbre donne son verdict : la probabilité qu’une URL obtienne une plus haute position dans la SERP par rapport à la seconde. La même action est exécutée par tous les autres arbres qui obéissent à l’exigence « n’a pas vu cette URL auparavant », et à la fin, chaque paire d’URL obtient un ensemble de valeurs de probabilité. Ensuite, on fait la moyenne de toutes les probabilités reçues. Désormais, il y a assez de données pour la prochaine étape.

Estimer l’importance de la caractéristique avec la forêt aléatoire

Random Forest produit des résultats incroyables quand il s’agit d’attribuer une estimation d’importance. L’évaluation est menée comme suit :

  1. Les valeurs de caractéristique sont mélangées parmi toutes les paires d’URL, et des ensembles de valeurs mis à jour sont attribués à l’algorithme.

  2. Tout changement dans la qualité ou la stabilité de l’algorithme est mesuré (que le pourcentage de valeurs cibles correctement devinées reste le même ou non).

  3. Ensuite, selon les valeurs reçues, des conclusions peuvent être tirées :

  • Si la qualité de l’algorithme baisse de façon significative, la caractéristique est importante. Plus dure est la chute dans la qualité, plus importante est la caractéristique.
  • Si la qualité de l’algorithme reste la même, alors la caractéristique a peu d’importance.

La procédure est répétée pour toutes les caractéristiques. Il en résulte une évaluation des facteurs de positionnement les plus importants.

Pourquoi nous pensons que l’analyse de corrélation est mauvaise pour les études de facteurs de ranking

Nous avons intentionnellement abandonné la pratique commune qui consiste à utiliser l’analyse de corrélation, et nous avons reçu un certain nombre de commentaires dans le style : « Corrélation ne veut pas dire causalité », « Ceux-là n’ont pas l’air de facteurs de ranking, mais plus de corrélations ». Nous avons donc senti que ce point méritait un paragraphe à part.

Tout d’abord, nous aimerions souligner encore le fait que la collection de données initiale utilisée pour l’étude est une collection de valeurs hautement variables. Rappelons que nous n'avons pas examiné une seule SERP, mais 600 000. Chaque SERP est caractérisée par sa propre valeur de caractéristique moyenne, et cette unicité est complètement négligée dans le processus d’analyse de corrélation. Or, nous pensons que chaque SERP devrait être traitée séparément et en respectant son originalité.

L’analyse de corrélation donne des résultats fiables seulement quand on examine la relation entre deux variables (par exemple, l’impact du nombre de backlinks sur une position de SERP). « Ce facteur particulier influence-t-il la position ? » : cette question peut recevoir une réponse précise puisque la seule variable qui a un impact est impliquée. Mais sommes-nous en mesure d’étudier chaque facteur isolément ? Probablement non, puisqu’il y a tout un tas de facteurs qui influencent une position d’URL dans une SERP.

Un autre critère de qualité pour l’analyse de corrélation est la variété des ratios de corrélation reçus. Par exemple, s’il y a une gamme de ratios de corrélation comme (-1, 0,3 et 0,8), on peut raisonnablement dire qu’il y a un paramètre qui est plus important que les autres. Plus la valeur absolue du ratio, ou module, est proche de 1, plus la corrélation est forte. Si le module de ratio est en dessous de 0,3, une telle corrélation peut être ignorée : la dépendance entre deux variables est trop faible pour aboutir à des conclusions fiables. Pour tous les facteurs que nous avons analysés, le ratio de corrélation était en dessous de 0,3 ; et nous avons donc abandonné cette méthode.

Une autre raison pour rejeter cette méthode d’analyse était la grande sensibilité de la valeur de corrélation aux aberrations et aux bruits, et les données pour différents mots clés indiquent qu’il y en a beaucoup. Si une donnée est ajoutée à la collection, le ratio de corrélation change immédiatement. Cette métrique ne peut donc pas être viable dans le cas de variables multiples, et peut même conduire à des déductions incorrectes. Ajoutons qu’il est difficile à croire qu’un ou deux facteurs avec un ratio de corrélation si proche de 1 existent – si c’était vrai, n’importe qui pourrait facilement hacker les algorithmes de Google, et nous serions tous en première position !

Foire aux questions (FAQ)

Bien que nous ayons essayé de répondre aux questions les plus fréquemment posées, en voici encore quelques-unes pour les lecteurs les plus curieux.

Pourquoi n’avons-nous pas utilisé les réseaux de neurones artificiels (ANN - artificial neural networks) ?

Même si les réseaux de neurones artificiels sont parfaits pour les tâches avec beaucoup de variables, par exemple la reconnaissance d’image (où chaque pixel est une variable), ils obtiennent des résultats difficiles à interpréter et ne permettent pas de comparer le poids de chaque facteur. En plus, les ANN exigent une collection de données énorme et un nombre immense de caractéristiques pour produire des résultats fiables, et les données d’entrée que nous avons rassemblées ne correspondaient pas à cette description.

Contrairement à Random Forest, où chaque arbre de décision vote indépendamment, ce qui permet de garantir une bonne fiabilité, les réseaux de neurones traitent les données dans le même panier. Rien n’indique qu’utiliser les ANN pour cette étude donnerait des résultats plus précis.

Nos principales exigences pour la méthode de recherche étaient la stabilité et la capacité à identifier l’importance des facteurs. Cela dit, Random Forest était parfaitement adapté à notre tâche, ce que prouvent de nombreuses tâches de ranking d’une nature similaire, implémentées elles aussi à l’aide de cet algorithme.

Pourquoi les visites de site représentent-elles le facteur de ranking le plus important sur Google ?

C’était certainement le point le plus polémique de notre étude. Quand nous avons vu les résultats de notre analyse, nous étions également surpris. Même si notre algorithme avait été entraîné sur un champ solide de données, nous avons décidé de revérifier les faits. Nous avons exclu les données de recherche organique et payante, tout comme le trafic social et référent, et nous n’avons pris en compte que le trafic direct, et les résultats ont été les mêmes à peu de chose près : la distribution des positions est demeurée inchangée (les graphs des pages 41-42 de l’étude illustrent ce point).

Pour nous, cette découverte est tout à fait cohérente et confirme que Google priorise les domaines avec plus d’autorité, comme spécifié dans ses Search Quality Evaluator Guidelines. Même si l’autorité du domaine peut sembler une mauvaise excuse et un concept vague et éphémère, ces directives démystifient complètement cette idée. En 2015, Google sortait ce livre pour aider à évaluer la qualité d’un site et donner un aperçu de la manière dont Google se représente les utilisateurs et ce qu’ils veulent dans leurs recherches.

Ce livre liste l’EAT (Expertiste, Autorité et Confiance [Trustworthiness]) comme indicateur important de qualité d’un site. La qualité du contenu principal et sa quantité, les informations sur le site (ex. : qui est responsable du site), et la réputation influencent tous l’EAT d’un site. Nous suggérons de le comprendre de la façon suivante : si une URL ranke dans le top 10, par défaut, elle contient du contenu pertinent par rapport à la requête de l’utilisateur.

Mais pour répartir ces places entre ces dix leaders, Google se met à prendre en compte d’autres paramètres. Nous savons tous qu’il existe en coulisse tout un tas d’évaluateurs de qualité de recherche responsable de l’apprentissage des algorithmes de qualité de Google et améliorant la pertinence des résultats. Comme cela est affirmé par les directives de Google, les évaluateurs devraient donner la priorité aux pages de grande qualité et enseigner aux algorithmes à faire de même. Donc, l’algorithme de ranking est entraîné à assigner une meilleure position aux pages qui appartiennent aux domaines de confiance et jouissant d’une grande autorité. Nous pensons que ça pourrait être la raison derrière les données que nous avons reçues expliquant le trafic direct et son importance en tant que signal. Pour plus d’informations, consultez notre post de article (en anglais).

google-search-quality-raters

Par ailleurs, au cours de la récente conférence SMX East de Google, Gary Illyes a confirmé que la manière dont les gens perçoivent votre site affecte votre business. Et même si, selon Illyes, ça n’affecte pas nécessairement la manière dont Google classe votre site, il semble important d’investir pour obtenir la loyauté des utilisateurs : utilisateurs heureux = Google content.

tweet-user-behavior

Qu’est-ce que cela signifie pour vous ? Eh bien que la notoriété de marque (estimée, entre autres, par le nombre de visites directes sur votre site) exerce une grosse influence sur vos rankings et justifie que vous investissiez dedans au même titre que dans le SEO.

Différence entre les mots clés de marque et les autres (branded vs. non-branded)

Comme vous l’avez peut-être remarqué, chaque graphique de notre étude a un pic remarquable pour la deuxième position. Nous avions promis d’examiner plus en détail cette déviation et nous avons donc ajouté une nouvelle dimension à notre étude. La seconde édition couvre l’impact des 3 facteurs les plus importants (les visites directes sur le site, le temps passé sur le site et nombre de domaines référents) sur les rankings d’une URL particulière, plutôt que sur le domaine sur lequel elle réside.

On est tenté de supposer que les sites occupant la première position sont les mieux optimisés ; or, nous avons vu que chaque ligne de tendance chute à la première position.

Nous avons mis en relation cette déviation avec les requêtes de recherche avec des mots clés de marque (branded keywords). Nous supposons que cette déviation est liée aux mots clés de marque. Un domaine occupera probablement la première position dans la SERP pour n’importe quelle requête qui contient son mot clé de marque. Peu importe l’optimisation d’un site, il sera numéro un de toute façon : cela n’a donc rien à voir avec les efforts SEO. Cela explique pourquoi les facteurs de ranking affectent la deuxième position d’une SERP plus que la première.

Pour le prouver, nous avons décidé de regarder nos données sous un nouvel angle : nous avons étudié la manière dont les facteurs de ranking impactent les URL qui apparaissent sur la SERP. Pour chaque facteur, nous avons construit des graphiques séparés montrant la distribution des URL et domaines sur les 10 premières positions de SERP (p. 51-54). Même si l’étude contient des graphiques seulement pour le top 3 des facteurs les plus influents, la tendance que nous avons découverte persiste aussi pour les autres facteurs.

Qu’est-ce que ça veut dire pour vous en tant que spécialiste de marketing ? Quand un domaine ranke pour un mot clé de marque, beaucoup de facteurs perdent leur influence. Cependant, quand vous vous positionnez pour les mots clés sans marque (non-branded keywords), gardez à l’esprit que les facteurs de ranking analysés ont plus d’influence sur les positions d’une URL concrète que sur le domaine tout entier. Cela veut dire que les rankings d’une page particulière sont plus sensibles à l’optimisation on-page, au link-building et à d'autres techniques d’optimisation.

Conclusion : comment utiliser l’étude SEMrush sur les facteurs de ranking

Il n’y a aucune garantie que si vous améliorez vos métriques de site pour n’importe quel facteur mentionné ci-dessus, vos pages se mettront à mieux ranker. Nous avons effectué une étude en profondeur qui nous a permis de tirer de solides conclusions sur l’importance de ces 17 facteurs pour mieux ranker sur les SERP de Google. Cependant, il s’agit juste d’un bon travail d’ingénierie inverse, pas d’un plan d’action universelle : c’est ce que fait n’importe quelle étude de ranking. Seulement Google connaît tous les secrets. Cependant, voici un workflow que nous suggérons pour la recherche :

  • Étape 1. Comprendre sur quels mots clés vous vous positionnez : appartiennent-ils à des groupes de volume de recherche bas, moyen ou haut ?
  • Étape 2. Effectuez un benchmark comparatif entre vous et la concurrence : examiner les méthodes utilisées par le top 10 et leurs métriques. Ont-ils un large éventail de backlinks ? Leurs domaines sont-ils sécurisés avec HTTPS ?
  • Étape 3. Utilisez l’étude, choisissez et implémentez les techniques d’optimisation qui apporteront les meilleurs résultats selon vos mots clés et le niveau de concurrence sur les SERP.

Nous vous encourageons à examiner de plus près notre étude, à reconsidérer le concept d’EAT et à élaborer une bonne stratégie SEO, basée sur des faits !

Quels facteurs voulez-vous qu’on analyse dans la prochaine édition de notre étude ? Faites-le-nous savoir dans les commentaires !

Online Marketing Specialist at SEMrush.
Partager cet article
ou

Commentaires

Il reste 2000 caractères
Olivier Duffez
Un gros boulot, bravo et merci pour les efforts d'explications dans vos 2 rapports (résultats et méthodologie).
Par contre je ne suis pas vraiment d'accord avec votre interprétation, notamment en ce qui concerne le trafic direct. Je l'ai détaillé sur http://forum.webrankinfo.com/trafic-direct-1er-des-ranking-factors-etude-semrush-novembre-2017-t192358.html et serais ravi d'en discuter ici avec d'autres personnes, de SEMrush ou pas.