18 signes que votre site n’est pas optimisé pour le crawl : guide pour résoudre les problèmes d’indexabilité

Elena Terenteva

oct. 20, 201611 min de lecture
18 signes que votre site n’est pas optimisé pour le crawl : guide pour résoudre les problèmes d’indexabilité

TABLE DES MATIÈRES

Vous avez énormément travaillé sur votre site et vous êtes impatient de le voir en haut des résultats de recherche, mais votre contenu ne passe pas le cap de la dixième page. Si vous êtes sûr que votre site mérite un meilleur classement, il y a peut-être un problème d’indexabilité.

Qu’est-ce que l’indexabilité ? Les moteurs de recherche utilisent des bots pour recueillir les paramètres de certaines pages d’un site. Ce processus de collecte de données est appelé crawling. En fonction de ces données, les moteurs de recherche incluent les pages dans leur index de recherche, ce qui veut dire qu’elles peuvent être trouvées par les internautes. L’indexabilité d’un site web est son accessibilité aux bots de recherche. Vous devez vous assurer que les bots seront en mesure de trouver les pages de votre site, qu’ils obtiennent un accès et qu’ils les « lisent ».

Nous diviserons ces problèmes en deux catégories : ceux que vous pouvez résoudre par vous-mêmes et ceux nécessitant l’intervention d’un développeur ou d’un administrateur système. Bien sûr, nous avons tous une formation et des aptitudes diverses, donc ne prenez pas cette catégorisation au pied de la lettre.

Par « résoudre par vous-même », nous voulons dire : vous savez gérer les codes de page et fichiers root de votre site. Vous devez aussi avoir des connaissances de base sur le codage (modifier ou remplacer un code au bon endroit et de la bonne façon).

Par « faire appel à un spécialiste », nous voulons dire que des aptitudes d’administrateur de serveur et/ou de développeur web seront nécessaires.

Ce type de problèmes est assez facile à détecter et à résoudre en vérifiant simplement vos meta tags et votre fichier robots.txt : vous devriez donc commencer par là. Le site entier ou certaines pages peuvent demeurer invisibles pour Google pour une raison très simple : ses bots ne sont pas autorisés à y accéder.

Il y a différentes commandes bot qui empêchent le crawling d’une page. Sachez que ce n’est pas une erreur d’avoir ces paramètres dans robots.txt ; s’ils sont utilisés à bon escient et rigoureusement, ces paramètres vous aideront à réduire votre budget crawl et à donner aux bots la direction exacte qu’ils doivent prendre pour crawler les pages qui doivent l’être.

1. Empêcher la page d’être indexée par la balise meta robots

Si vous faites cela, le bot de recherche ne se mettra même pas à regarder le contenu de votre page et passera directement à la page suivante.

Vous pouvez détecter ce problème en vérifiant que le code de votre page contient cette directive :

<meta name="robots" content="noindex" />

2. Liens nofollow

Dans ce cas, le bot de recherche va indexer le contenu de votre page, mais ne suivra pas les liens. Il y a deux types de directives nofollow :

  • pour la page entière. Vérifiez si vous avez
<meta name="robots" content="nofollow">

dans le code de la page : cela voudrait dire que le crawler ne peut suivre aucun lien sur la page.

  • pour un seul lien. Voilà à quoi doit ressembler la partie du code dans ce cas :
href="pagename.html" rel="nofollow"/>

3. Empêcher les pages d’être indexées par robots.txt

Robots.txt est le premier fichier de votre site que les crawlers regardent. La pire chose que vous puissiez y trouver est :

User-agent: * Disallow: /

Cela veut dire que toutes les pages du site sont bloquées pour l’indexation.

Il peut arriver que seules certaines pages ou sections soient bloquées, par exemple :

User-agent: * Disallow: /products

Dans ce cas, l’indexation de toutes les pages dans le dossier Produits sera bloquée, et par conséquent aucune de vos descriptions produits ne sera visible sur Google.

Les liens cassés sont toujours une mauvaise expérience pour vos utilisateurs, mais également pour les crawlers. Chaque page que le bot de recherche indexe (ou essaie d’indexer) représente une dépense de budget crawl. Sachant cela, si vous avez beaucoup de liens cassés, le bot va passer tout son temps à les indexer et ne parviendra pas aux pages pertinentes et de qualité.

Le Rapport des erreurs de crawl dans la Google Search Console ou le Check des liens internes cassés dans l’ Audit de site SEMrush vous aidera à identifier ce type de problèmes.

4. Erreurs d’URL

Une erreur d’URL provient en général d’une coquille dans l’URL que vous insérez dans votre page (lien de texte, d’image, de forme). Assurez-vous d’avoir vérifié que tous les liens sont écrits correctement.

5. URLs obsolètes

Si vous avez effectué récemment une migration de votre site, une suppression en bloc ou une modification de l’architecture, vous devez vérifier à nouveau ce point. Assurez-vous de ne pas pointer vers de vieilles URLs ou des URLs supprimées, quelle que soit la page de votre site.

6. Pages « accès refusé »

Si beaucoup de pages de votre site renvoient un status code 403, il est possible que ces pages ne soient accessibles qu’aux utilisateurs inscrits. Passez ces liens en nofollow afin de ne pas gaspiller de budget crawl.

7. Erreurs de serveur

Un grand nombre d’erreurs 5xx (par exemple, les erreurs 502) peut être le signe d’un problème de serveur. Pour le résoudre, fournissez une liste des pages avec des erreurs à la personne responsable du développement et de la maintenance de votre site. Cette personne gérera les bugs ou les problèmes de configuration du site qui provoquent les erreurs de serveur.

8. Capacité de serveur limitée

Si votre serveur est surchargé, il risque de ne plus répondre aux requêtes des internautes et des bots. Quand cela se produit, vos visiteurs reçoivent un message « Connection timed out ». Ce problème ne peut être résolu qu’en coordination avec un spécialiste de maintenance de site, qui estimera si la capacité du serveur doit être augmentée, et dans quelle mesure.

9. Mauvaise configuration du serveur Web

C’est une question délicate. Le site peut être parfaitement visible pour vous en tant qu’humain, mais il continue à envoyer un message d’erreur au bot, de sorte que toutes les pages deviennent inaccessibles à l’indexation. Cela peut se produire à cause d’une configuration particulière du serveur : certains pare-feu (par exemple, Apache mod_security) bloquent le bot Google et les autres bots de recherche par défaut. En un mot, ce problème, avec tous ces tenants et aboutissants, doit être résolu par un spécialiste.

Le sitemap, avec le robots.txt, donne une première impression aux crawlers. Un sitemap correct leur suggère d’indexer votre site comme vous voulez qu’il le soit. Voyons ce qui peut mal se passer quand le bot de recherche se met à parcourir votre/vos sitemap(s).

10. Erreurs de format

Il y a différents types d’erreurs de format, par exemple une URL invalide ou des tags manquants (voir la liste complète, avec une solution pour chaque erreur, ici).

Vous vous êtes aussi peut-être rendu compte (au tout début) que le fichier sitemap est bloqué par le robots.txt. Ce qui veut dire que les bots ne peuvent pas accéder au contenu du sitemap.

11. Mauvaises pages dans le sitemap

Passons maintenant au contenu. Même si vous n’êtes pas programmeur, vous pouvez estimer la pertinence des URLs dans le sitemap. Regardez attentivement les URLs de votre sitemap et assurez-vous que chacune est : pertinente, à jour et correcte (pas de coquille ou de faute). Si le budger crawl est limité et les bots ne peuvent pas parcourir le site en entier, les indications du sitemap peuvent les aider à indexer les meilleures pages de votre site en premier.

N’induisez pas les bots en erreur avec des instructions inappropriées : assurez-vous que les URLs de votre sitemap ne sont pas bloquées pour l’indexation par les directives meta ou robots.txt.

Les problèmes de cette catégorie sont les plus difficiles à résoudre. C’est pour cela que nous vous recommandons de passer par toutes les étapes précédentes avant de vous attaquer aux problèmes suivants.

Ces derniers liés à l’architecture du site peuvent désorienter ou bloquer les crawlers dans votre site.

12. Mauvais maillage interne

Si la structure d’un site est correctement optimisée, l’ensemble de ses pages forment un tout indissociable, et le crawler peut atteindre facilement chacune d’entre elles.

Si le site n’est pas optimisé, certaines pages passent à travers les mailles du crawler. Il peut y avoir différentes raisons à cela, et vous pouvez les déceler et les catégoriser avec l’outil Site Audit de SEMrush :

  • La page que vous voulez positionner sur les moteurs de recherche n’est liée à aucune autre page du site. Elle n’a donc aucune chance d’être trouvée et indexée par les bots de recherche.
  • Trop d’intermédiaires entre la page principale et la page que vous voulez ranker. Habituellement, on compte 4 intermédiaires ou moins, sinon le bot risque de ne pas y parvenir.
  • Plus de 3000 liens actifs sur une page (trop de travail pour le crawler).
  • Les liens sont cachés dans des éléments non indexables du site : formulaires de soumission, cadres, plugins (Java et Flash avant tout).

Dans la plupart des cas, le problème du maillage interne ne peut pas être résolu en deux temps trois mouvements. Un examen approfondi de la structure du site en collaboration avec des développeurs est nécessaire.

13. Mauvaises redirections

Les redirections sont nécessaires pour conduire les utilisateurs à une page plus pertinente (ou, mieux encore, à celles qui sont considérées comme pertinentes par le propriétaire du site). Voilà ce que vous ne pouvez pas négliger lorsque vous travaillez sur les redirections :

  • Une redirection temporaire à la place d’une redirection permanente : utiliser les redirections 302 ou 307 est un signal envoyé aux crawlers pour qu’ils reviennent à la page, encore et encore, puisant dans le budget crawl. Donc, si vous pensez que la page originale n’a plus besoin d’être indexée, utilisez la redirection 301 (permanente).
  • Boucle de redirection : il peut arriver que deux pages se redirigent l’une vers l’autre. Le bot est alors pris dans une boucle et dépense tout le budget crawl. Vérifiez et supprimez toutes les éventuelles redirections mutuelles.

14. Faible vitesse de chargement

Plus vite vos pages sont chargées, plus rapidement le crawler les parcourt. Chaque fraction de seconde est importante.

Voici comme la position d’un site dans la SERP est corrélée à la vitesse de chargement :

Utilisez Google Pagespeed Insights pour vérifier si votre site est assez rapide. La vitesse de chargement peut dissuader des utilisateurs. Différents facteurs peuvent expliquer ce malfonctionnement.

Des facteurs relatifs au serveur : votre site peut être trop lent pour une raison toute bête : votre bande passante ne suffit plus. Vous pouvez vérifier son niveau dans la description de la tarification.

Facteurs de premier plan : un des problèmes les plus fréquents est la non-optimisation des codes. S’ils contiennent des scripts et plug-ins volumineux, votre site est en danger. Alors, n’oubliez pas de vérifier régulièrement que vos images, vidéos et autres contenus similaires sont optimisés et ne ralentissent pas la vitesse de chargement de la page.

15. Pages dupliquées à cause d’une mauvaise architecture du site

Le contenu dupliqué représente le problème SEO le plus commun, on le trouve dans 50 % des sites, selon une récente étude SEMrush sur les 11 problèmes de SEO onsite les plus communs. C’est une des principales causes de l’épuisement de votre budget crawl. Google accorde un temps limité à chaque site, il ne s’agit donc pas de le gâcher en indexant le même contenu. En plus, les crawlers ne savent pas à quelle version se fier et risquent de prioriser les mauvaises pages si vous n’utilisez pas les canonicals pour clarifier les choses.

Pour résoudre ce problème, vous devez identifier les pages dupliquées et empêcher qu’elles soient crawlées en effectuant un des actions suivantes :

  • Supprimer les pages dupliquées
  • Configurer les paramètres nécessaires dans robots.txt
  • Configurer les paramètres nécessaires dans les balises meta
  • Configurer une redirection 301.
  • Utilisez rel=canonical

16. Utilisation JS et CSS

Il est vrai qu’en 2015, Google a officiellement déclaré :

Tant que vous n’empêchez pas Googlebot de crawler vos fichiers JavaScript ou CSS, nous sommes généralement capables de présenter et comprendre vos pages web comme des navigateurs modernes.

Cela dit, ce n’est pas le cas pour les autres moteurs de recherche (Yahoo, Bing, etc.). Notons en plus que « généralement » veut dire qu’il y a des cas où la bonne indexation n’est pas garantie.

17. Contenu Flash

Utiliser Flash ne comporte pas que des avantages à la fois pour l’expérience utilisateur (les fichiers Flash ne sont pas pris en charge par certains appareils mobiles) et pour le SEO. Un texte ou un lien dans un élément Flash a peu de chance d’être indexé par les crawlers.

Nous vous conseillons donc de ne pas l’utiliser sur votre site.

18. Les frames HTML

Si votre site contient des frames, c’est à la fois bon et mauvais. C’est bon, parce que cela signifie probablement que votre site est suffisamment mature. C’est mauvais, parce que les frames HTML sont obsolètes depuis longtemps et mal indexés : vous devez donc les remplacer par une solution plus récente le plus vite possible.

Déléguez la routine, concentrez-vous sur l’action

Ne pas parvenir à se faire remarquer par le radar de Google n’est pas nécessairement un problème de mots clés ou de contenu. L’optimisation parfaite d’une page ne garantit pas son bon positionnement (ni son positionnement tout court) dans les moteurs de recherche. Le contenu peut ne pas être délivré pour des raisons de mauvaise indexabilité.

Pour déceler ce qui bloque ou désoriente les crawlers de Google sur votre site, vous devez passer intégralement en revue votre domaine. Il est laborieux de le faire manuellement, c’est pourquoi vous devriez confier ce type de tâches routinières à des outils appropriés. La plupart des solutions d’audit vous aident à identifier, catégoriser et prioriser les problèmes afin que vous puissiez passer à l’action aussitôt reçu le rapport. De plus, de nombreux outils vous permettent de sauvegarder les données des audits précédents, ce qui vous permet d’avoir une bonne vue d’ensemble de la performance technique de votre site dans le temps.

Connaissez-vous d’autres problèmes que vous jugez importants pour l’indexabilité d’un site ? Utilisez-vous des outils qui vous aident à optimiser et résoudre ces problèmes rapidement ? N’hésitez pas à partager vos suggestions dans les commentaires !

Partager
Author Photo
Elena Terenteva, Product Marketing Manager at Semrush. Elena has eight years public relations and journalism experience, working as a broadcasting journalist, PR/Content manager for IT and finance companies. Bookworm, poker player, good swimmer.
En savoir plus