L‘analyse de logs dans le SEO

Logs : pour qui s’intéresse au SEO, impossible d’être passé à côté de ce terme. Si les développeurs connaissent les log files depuis des années, pas tous les spécialistes les utilisent pour le SEO. En effet, ils permettent de découvrir comment les moteurs de recherche « voient » votre site : quelles pages ils crawlent, à quelle fréquence et quelles informations ils reçoivent sur ces pages.

Ils sont donc très utiles pour l' analyse de site web. Nous allons ainsi voir pourquoi les log files peuvent en effet s’avérer précieux et comment profiter de cette information.

1. Access.log et log serveur, qu’est-ce que c’est ?

Le log serveur c’est un fichier contenant diverses informations enregistrées par le serveur sur lequel votre site est hébergé.

Un fichier acces.log (parfois appelé "données brutes") est une liste de toutes les demandes de fichiers individuels demandées par des utilisateurs à partir d’un site Web. Un accès.log peut être analysé par les outils comme Log File Analyzer.

Un acces.log peut vous indiquer:

adresse IP à partir duquel la demande a été envoyée au serveur;
heure de requête du serveur et fuseau horaire du serveur;
type de demande;
Les codes de statut de réponse HTTP
le nombre d'octets envoyés par le serveur;
source de l'URL de la demande;
User-Agent;

Log File Analyzer

2. Pourquoi faire une analyse des logs en SEO ?

Analyser vos logs vous permet d’accéder à des informations sur le crawl de votre site par les bots de Google :

Quelles pages, catégories ou parties du site ont été crawlées et à quelle fréquence. Grâce à cette information vous pouvez détecter par exemple des pages utiles et des nouvelles pages.
Des informations techniques que les bots ont récupéré lors du crawl : code http reçus (200, 404, 301…), crawl sur la version mobile vs desktop, types de fichiers crawlés, etc.

Ainsi, on comprend assez vite que ces informations peuvent s’avérer utiles, en vous aidant à découvrir ce que Google visite sur votre site, et comment il le « perçoit ».

Ceci permet ensuite de détecter des erreurs critiques et de réaliser des améliorations, comme nous allons le voir.

3. Le concept de Crawl Budget

Сe sujet est très discuté actuellement, certains experts croient que l’optimisation du budget crawl est surestimée et ne se soucient pas du budget crawl. Il y a des discussions que cela ne pouvait qu’aider des sites vraiment volumineux.

Le Budget Crawl indique les limites en termes de nombre de pages que Googlebot peut crawler. Si vous avez le temps pour l’optimisation du budget crawl c’est une bonne chose, mais selon certains experts vous ne constaterez aucun changement significatif dans le référencement.

Puisque ce point est très controversé et vous voulez préserver le budget et être sûr que Google indexera toutes les pages de votre site, vous pouvez les optimiser afin de ne pas gaspiller les ressources que Google alloue à votre site. Comment pouvez-vous rendre le crawl budget plus efficace? Mesurer l’impact du contenu dupliqué par exemple, optimiser la navigation et les liens internes, travailler sur le contenu manquant ou les problèmes liés aux 4xx et 5xx.

Dans ce cas сela affectera plutôt la vitesse du site et la qualité de l'indexation, mais pas votre positionnement.

4. Plus concrètement ?

Voici une liste, non exhaustive, des informations que vous pouvez récupérer avec l’analyse de logs.

Ce que Google crawle… ou pas

C’est un bon point de départ : est-ce que Google crawle les pages de mon site utiles à mon référencement ?

Sur un e-commerce par exemple, est-ce que les catégories ou les pages produits sont bien crawlées, et régulièrement ? A l’inverse, une page comme un formulaire de contact est importante pour l’utilisateur, mais est-ce nécessaire de laisser Google le crawler ?

Ceci sans même parler de toutes les urls générées par erreur dans la structure du site et qui n’ont aucun intérêt : elles peuvent se compter par dizaines de milliers (ou plus) lorsqu’un site n’est pas assez suivi.

Ces informations vous permettront de contrôler ce qui est crawlé ou non, puis grâce au suivi de vos logs, de faire des ajustements continus (si certaines pages importantes ne sont pas crawlées ou ont la réponse 404 par exemple).

Les parties du site privilégiées

Pour aller plus loin, il est nécessaire de déterminer si Google privilégie certaines pages ou catégories de votre site, et la fréquence de crawl de celles-ci. Là encore, il s’agit de vérifier que cela coïncide avec des pages et parties importantes du site pour votre stratégie de référencement. Si votre e-commerce possède des catégories de produits plus ou moins intéressants en termes de trafic et de ventes, assurez-vous que Google dépense son crawl budget au bon endroit.

Google va crawler de préférence les pages qu’ils considèrent importantes ou utiles, et « délaisser » les autres, les crawler moins souvent. A vous ensuite de comprendre pourquoi. Il est probable que les parties ou pages moins crawlées le soient pour l’une de ces raisons : mauvais linking interne ou trop de profondeur, le contenu faible…

A noter que lors d’une migration ou de changements importants sur votre site, notamment lorsque du contenu est ajouté massivement et souvent, il est probable que Google augmente son crawl pour absorber ces changements.

Enfin, autre point clé, est-ce que Google crawle votre nouveau contenu ? Et le fait-il assez vite ? Dans le cas d’un site de média, ce sujet sera critique. Avoir accès à vos log files vous permettra de voir comment Google crawle vos nouvelles pages.

Les codes http

Cette information est une des clés dans une stratégie SEO. Ainsi, grâce aux logs, vous pouvez voir quelles sont les pages crawlées par Google qui répondent bien en 200, et résoudre vos problèmes de code 3xx, 4xx ou 5xx, s’ils sont trop nombreux et affectent des pages importantes.

Outre les problèmes évidents liés aux 4xx et 5xx, par exemple, avoir trop de pages en 301 (redirection) est une perte de crawl budget.

Autre information intéressante : les informations sur les réponses de code http sont délivrées par la Google Search Console. Néanmoins, elles arrivent avec quelques jours de retard, d’une part, et de l’autre ne font que - même si c’est déjà bien ;) – proposer la liste des pages en 404, 301 etc. Avec l’analyse de logs, vous pouvez vous rendre compte par vous-même de la proportion de pages en code d’état 200, 301, 404 etc. crawlées par Google sur l’ensemble de votre site, et donc de l’étendue réelle du problème pour celui-ci.

LFA SEMrush

Crawl mobile vs desktop

Si votre site est devenu “mobile-friendly”, vous pouvez évaluer la proportion de crawl mobile VS desktop, le jour même, et de travailler votre version mobile si besoin, en fonction des données récoltées: le nombre de codes http et les types de fichiers avec lesquels les robots ont interagi etc.

La vitesse de chargement

La performance est un point important en SEO (mais aussi en UX). C’est surtout un problème si votre site est très lent : rien de tel qu’une vision globale de la performance du site, telle que la perçoit Google. Le moindre changement est mesurable aussitôt, et là encore analysable par page ou catégorie.

On passe la seconde, en croisant des informations avec un crawler

On peut comparer le site tel qu’il est réellement, avec la façon dont il est « vu » par Google. On pourrait par exemple :

Mesurer le taux de crawl (crawl / nombre total de pages) et le taux de pages actives (nombre de pages actives / nombre de pages totales) par catégories du site,
Mesurer le crawl par profondeur du site.

5. Comment utiliser le Log File Analyser de SEMrush ?

Une fois téléchargés, glissez simplement vos log files dans l’outil et il travaille pour vous ! Vous pouvez ensuite facilement :

Analysez les urls et répertoires qui sont crawlés ou non
Déterminer la fréquence de crawl par catégorie du site (URL, répertoires et sous répertoires)
Identifier les codes de réponse HTTP et les types de fichier
Evaluer le crawl mobile vs desktop
Découvrir les possibilités de gérer l'activité des bots et d'optimiser le budget crawl
Éliminer les problèmes de structure et de navigation qui affectent l'accessibilité de certaines pages
Créer des rapports intuitifs et exporter des données

Et plus encore.

Améliorer votre référencement grâce à l’analyse de logs