logo-small
Alina Petrova

Améliorer votre référencement grâce à l‘analyse de logs #semrushconf

83
Wow-Score
Le Wow-Score montre la capacité d'engagement d'un billet de blog. Il est calculé en fonction de la corrélation entre le temps de lecture actif de l'utilisateur, sa vitesse de défilement et la longueur de l'article.
En savoir plus

Améliorer votre référencement grâce à l‘analyse de logs #semrushconf

Alina Petrova
Améliorer votre référencement grâce à l‘analyse de logs #semrushconf

Il y a un peu plus d’une semaine, SEMrush accueillait François Goube pour un webinaire sur le fonctionnement et l’utilité des logs : « Débloquer la boîte noire de Google avec l’analyse de logs ».

François Goube est un entrepreneur multicarte et un expert SEO passionné par l’étude du comportement de Google. Il a fondé OnCrawl, un outil d’audit SEO qui permet une analyse précise et synthétique des logs, de la performance et du contenu.

Au cours de ce webinaire, François nous a expliqué pourquoi il est utile de réaliser des analyses de logs, et surtout à qui ça s’adresse.

Alors, d’abord, les logs serveurs, qu’est-ce que c’est ? Ce qu’il faut retenir, c’est que chaque fois qu’un device se connecte à votre site web, il écrit une petite ligne de logs dans un fichier sur le serveur qui s’appelle un log file. C’est valable pour n’importe quel device, n’importe quel user agent, et c’est donc valable pour les robots de Google comme pour vos visiteurs.

On va donc retrouver tous les passages des robots dans vos logs serveurs.

À quoi ça ressemble ?

– À ça :

Donc à quelque chose de parfaitement incompréhensible…

Dans les logs, on va trouver toutes vos requêtes reçues par le serveur. En général, ceux qui sont sous Apache vont les trouver sous : /var/log/httpd. Sinon, il faut demander à votre IT ou à votre hébergeur leur localisation. Mais c’est en général assez facile d’y accéder.

Grâce à l'analyse de logs, vous pouvez :

  • identifier le trafic SEO (on verra quel est le site qui nous renvoie la visite)
  • voir tous les passages des robots de Google.

À qui ça s’adresse ?

Absolument à tout le monde. Car, quelle que soit la taille de votre site, on peut découvrir dans les logs des éléments particulièrement intéressants, qui vont souvent vous permettre de débloquer des situations d’optimisation SEO.

En premier lieu, ça va vous permettre de :

  • réaliser des audits,
  • diagnostiquer les pages utiles et inutiles,
  • détecter les pages que Google voit et celles qu'il ne voit pas,
  • réaliser du monitoring,
  • générer des alertes,
  • réaliser le suivi des mises en production,
  • savoir si vous n’êtes pas en train de vous faire attaquer ou spammer.

Pour bien démarrer

En premier lieu, il faut savoir sont vos logs et comment y accéder. À qui faut-il que vous demandiez si vous n’avez pas la main sur le serveur ?

Ensuite, il va falloir s’assurer d’avoir l’ensemble des logs. En effet, souvent on tombe sur des systèmes de cache, et on se retrouve avec des logs qui ne sont pas stockés de manière standard. Il faut être certain d’avoir récupéré tous les logs. Sinon vous aurez une vision partielle de l’activité des robots de Google. Pour cela, il s’agit de procéder à un test de complétude et de validité des données.

Voici deux étapes à suivre :

  • Compter les hits de Google dans les logs que vous avez récupérés et comparer avec les hits que vous avez dans la search console derrière les statistiques d’exploration.
  • Compter les visites depuis Google et comparer avec Analytics pour savoir si les volumes de visites que vous récupérez dans les logs sont en accord avec ceux d’Analytics.

Quels outils ?

Les technologies en la matière ayant beaucoup évolué ces dernières années, l’analyse de logs n’est plus réservée aux gros budgets. Il existe en effet pas mal d’outils Open Source.

Kibana, par exemple, vous permet d’ingérer vos logs et de les afficher sous forme de graphes parfaitement compréhensibles. Il existe une version de Kibana, tunée par Oncrawl, qui embarque toutes les requêtes dont vous avez besoin pour réaliser une analyse de logs sous l’angle SEO. Oncrawl a grandement simplifié l’installation et le paramétrage. Ce ne vous prendra pas plus de quelques minutes...

235f5260c6715c0348ea760e05bd0b6c.pngSource : Kibana

Il existe d’autres outils Open Source : Logalize, Graylog, et bien d’autres. François nous recommande d’aller les explorer pour voir ce qui peut convenir à nos problématiques.

Les outils en ligne, en SaaS présentent le gros avantage d’aller un peu plus loin que la plupart des outils Open Source, notamment en termes d’accès aux données. La plupart des outils SaaS, comme Oncrawl Advanced ou Kelogs, permettent de requêter dans vos logs comme si vous lanciez une recherche sur Google. C’est donc extrêmement rapide et ça vous permet de creuser très vite dans vos logs sans avoir à lancer des commandes à la main, comme c’est le cas dans les outils Open Source.

Source : OnCrawl

Pourquoi utiliser ses logs ?

Pour comprendre ce que Google fait :

  • Quelles sont les pages qui sont crawlées par Google Bot
  • Quelles sont mes pages actives (qui génèrent du trafic SEO)
  • Google rencontre-t-il des erreurs ? (crucial, car ça va influencer son comportement sur vos pages)

Et surtout, il est important d’examiner ses logs, parce que Google, quelle que soit l’importance de ses gigantesques data centres, cherche toujours à optimiser ses ressources de crawl. Par conséquent, il va attribuer certaines ressources machines pour que ses crawlers viennent indexer votre site. C’est ce qu’on appelle le crawl budget de Google.

Or, en règle général, ce budget est un forfait que Google vous attribue, et il est rarement dépassé. Si Google a décidé de crawler mille pages par jour sur votre site, il va toujours tourner autour de ces mille pages-là, et donc vous avez tout intérêt à ce qu’il visite les pages qui ont le plus de valeur pour vous

Avec les logs, on voit ce que Google fait concrètement sur votre site : le nombre de pages uniques que Google crawle chaque jour, le nombre de nouvelles pages qu’il a découvertes, la fréquence de crawl (un bon indicateur de la santé de votre site). Et on aura aussi toutes les visites SEO induites sur les nouvelles et les anciennes pages. Les logs vous donnent une vue vraiment exhaustive de ce qui se passe sur votre site.

Source : OnCrawl

Les logs permettent par exemple d'identifier un comportement anormal du robot de Google. C’est évidemment très utile quand vous réalisez des mises en production.

François nous donne ensuite quelques exemples d’alertes à programmer :

  • augmentation anormale des pages 404,
  • baisse du nombre de pages recevant du trafic SEO,
  • baisse du nombre de pages actives.

Et il affirme que tout ça se révèle très utile pour piloter au quotidien nos activités.

Les logs vont surtout nous aider à comprendre comment Google fonctionne.

Top 10 des usages

1. Savoir ce que Google crawle

L’important c’est de bien regarder si parmi l’ensemble des pages uniques que Google crawle, il y a tout votre site, ou s’il n’est pas en train d’appeler de vieilles URLs qui ont disparu. Si vous êtes un e-commerçant, est-ce que ça correspond bien à la taille de votre catalogue ? Si vous avez mis en ligne de nouvelles pages, est-ce Google les crawle ou bien s’est-il pris les pieds dans le tapis (à cause d’une sorte de spider trap) ?

Source : OnCrawl

2. Comprendre si certaines zones sont privilégiées

Normalement, Google ne va pas dépasser le budget de crawl qu'il a attribué à votre site. C’est à vous de l’optimiser. Cela vous permet de gagner en nombre de pages indexées et en nombre de pages positionnées. Google arrête alors de perdre du temps sur des pages qui ne sont pas très intéressantes et qui ne génèrent pas de business de votre côté.

Source : OnCrawl

3. Savoir ce que Google aime

Calculez l’active ratio : le pourcentage de pages qui génèrent du trafic parmi l’ensemble des pages connues.

Le freshrank est aussi un élément intéressant. Il s’agit de la période la plus courte entre le moment où Google va découvrir une page et le moment où Google va envoyer sa première visite. Typiquement, si vous êtes un e-commerçant et que vous rentrez 1000 nouveaux produits, voilà le temps minimal que vous allez devoir attendre pour positionner vos nouvelles pages.

Évidemment, il y a des techniques pour raccourcir ce temps. Mais l’on doit savoir arbitrer entre le trafic SEO et le trafic Adwords, et récolter ainsi des éléments pour planifier nos actions marketing.

ed22bb96229ee3e0668d8db81c65365c.pngSource : OnCrawl

4. Identifier les freins de votre site

L’analyse de logs va vous permettre d’identifier les freins de votre site, qui vont ralentir soit son indexation, soit le positionnement de vos pages.

On va pouvoir identifier les status codes rencontrés par les bots. Il y a des pages qui changent de status code sur une période d’analyse, ce qui entraîne la diminution de la fréquence de crawl de Google.

73859e70b75805eafb174fc60e1c7c63.pngSource : OnCrawl

5. Analyser son impact SEO par groupe de pages

Oncrawl devine les groupes de pages de votre site et vous pouvez les éditer très simplement : organisez la répartition de vos visites par groupe de page

Cela vous permet de visualiser quelle catégorie détient le plus de pages actives. Ce suivi au jour le jour de volume de pages actives va vous permettre de détecter des régressions.

Et à l’inverse, quand une optimisation marche bien, vous allez voir les volumes de pages actives augmenter, et ça va donc valider très vite, en quelques jours, vos optimisations.

Source : OnCrawl

6. Croiser les données de logs et les données de crawl

On a envie de comparer ce que Google fait et la théorie sur la structure de votre site.

L’idéal quand on fait de l’analyse de logs, c’est de comparer les pages qui sont dans votre structure et les pages que Google connaît.

Par exemple, Google peut connaître deux fois plus de pages qu’il y en a dans la structure du site. Ça pose évidemment un problème, parce qu’on se retrouve avec des pages orphelines. 

Les pages orphelines sont des pages que Google connaît mais qui n’ont pas de liens depuis la structure de votre site. Ce sont donc des pages qui ne reçoivent plus de popularité. Ça peut être lié par exemple au fait qu’un produit n’est plus en stock, quand vous êtes un e-commerçant (il n’est alors plus accessible dans la navigation de votre site, pourtant la page existe encore, et Google, la connaissant, continue à l’appeler régulièrement).

Et on se rend compte aussi parfois que parmi les pages orphelines, il y a beaucoup de pages en 404, ce qui pèse sur le budget que Google alloue en termes de ressources de crawl à votre site.

Il est donc très important de comparer les données de crawl et les données de log.

25084db107503991126cd378467e6a28.pngSource : OnCrawl

7. Trouver le facteur à optimiser

La comparaison de données va vous permettre d’identifier quel est le facteur à optimiser sur votre site. Par exemple, quel est l’impact du nombre de mots ? On sait qu’il faut du contenu original, on sait qu’il faut pas mal de mots sur ces pages, mais combien ?

C'est en fonction de votre thématique que ces bornes vont varier. À l’aide d’un exemple et de graphiques, François nous démontre que moins il y a de mots sur les pages, moins Google a envie de les crawler.

587b596267fc86c07ddb4a6a6d9dc650.pngSource : OnCrawl

De la même manière, est-ce que le nombre de liens internes est un facteur à travailler ? Dans un nouvel exemple, François nous montre que lorsqu’on a plus de 200 liens qui pointent vers une page, elle est crawlée, et quand il y en a moins de 50, il y en a que 2 sur 3 qui sont crawlées. C’est donc un facteur à ne pas négliger, car ça va évidemment jouer sur la popularité des pages et donc leur capacité à ranker.

f1126e1668a491a18303ff68acc45573.pngSource : OnCrawl

8. Mesurer l’impact du contenu dupliqué sur le comportement des bots

Quand on a du contenu dupliqué, on se dit qu’on va traiter le problème avec des URLs canoniques, et on se rend compte que quand on a paramétré une même URL canonique au sein d’un groupe de pages avec du contenu similaire, Google va arrêter de crawler ces pages. Vous allez donc économiser du budget crawl.

Si par contre vous avez à l’intérieur d’un groupe de pages similaires des URLs canoniques différentes, Google va les crawler autant que s’il n’y avait pas de contenu dupliqué. Vous n’allez donc pas du tout préserver votre budget crawl. 

5b1f79510063b04bcbb8938c65122582.pngSource : OnCrawl

9. L’impact de l’architecture

Êtes-vous sûr d’avoir bien organisé votre site ? Avez-vous bien positionné les pages au bon endroit ? En effet, la profondeur de crawl est un paramètre qui peut jouer sur le crawl ratio.

En comparant les données de crawl et les données de logs, on se rend compte que le niveau de profondeur joue beaucoup. Plus vos pages sont profondes, moins Google va les voir. On peut l’ajuster avec un maillage interne transverse plus dense, mais quoi qu’il en soit, au-delà des niveaux 7-8, Google a du mal à y aller.

c9ca26012c654201e416fafbfc03e768.pngSource : OnCrawl

10. Prioriser vos actions

Cette analyse croisée va vous permettre de détecter les facteurs qui vont avoir un impact pour votre site web sur le comportement des robots de Google. En fonction de ces facteurs vous pourrez déterminer les pages sur lesquelles il faut vous focaliser.

Est-ce que c’est un problème de structure, par exemple ? De nombres de liens ? De nombre de mots ? Dans une analyse croisée, vous avez la comparaison de chaque facteur de ranking versus le comportement du Google Bot. Vous aurez donc toutes les réponses pour prioriser vos actions.

51e8e6a066e5b081963ebf80db033fc2.pngSource : OnCrawl

Conclusion

La clé de l’analyse de logs est dans le croisement des données. Il faut croiser les données, non seulement avec les données de crawl, mais avec toutes les données internes. Cela va permet d’arbitrer, de prioriser, et de bâtir des plans d’actions super efficaces.

François nous assure pour conclure que grâce à cette méthode, nous ouvrirons la boîte noire de l’algo de Google, et pourrons donc traiter les problèmes des pages orphelines, augmenter votre nombre de pages actives et savoir où appuyer pour gagner du trafic.

Un grand merci à François Goube pour son exposé très riche et très didactique !

Et si vous souhaitez regarder ce webinaire en replay, voici la vidéo : 

Je suis responsable éditoriale chez SEMrush et rédactrice sur ce blog.
Passionnée par la création de contenus, j'écris des articles sur le Content marketing, le SEO et le webmarketing en général. J'ai plus de trois ans d'expérience dans la rédaction et la traduction de contenus pour les sites web.
Adresse mail : a.petrova@semrush.com

Share this post
or

Commentaires

Il reste 2000 caractères
Mickaël Netick
Merci pour l'article. Nous avons rédigé un petit tuto pour utiliser facilement goaccess http://www.netick.fr/blog/analyse-de-logs.html !
Philippe Laine
Philippe Laine
Merci Fançois pour cette intervention, et merci Alina pour l'article qui rend toutes ces notions encore plus accessibles et clairs. A la base c'est un domaine un peu technique et je trouve que là, tout devient limpide.
Je recommande chaudement à tous les SEO de se plonger dans l'analyse de logs et de tester les outils OnCrawl qui sont très puissants et très ergonomiques.

Un seul point dans l'article me met un doute, mais c'est peut-être juste une question de tournure de phrase:
"Si par contre vous avez à l’intérieur d’un groupe de pages similaires
des URLs canoniques différentes, Google va les crawler autant que s’il
n’y avait pas de contenu dupliqué. Vous n’allez donc pas du tout
préserver votre budget crawl."

Je suppose qu'il faut comprendre:
"Si par contre vous avez à l’intérieur d’un groupe de pages similaires
des URLs canoniques différentes, Google va les crawler autant que s’il
n’y avait pas de renvoi en canonique vers une seule page. Vous n’allez donc pas du tout
préserver votre budget crawl. "
Have a Suggestion?