Votre navigateur est obsolète. Le site pourrait ne pas s'afficher correctement. Veuillez mettre votre navigateur à jour.

Dépannage pour Audit de site

Manual

Votre Audit de site ne se déroule pas comme il devrait ?

Il existe un certain nombre de raisons pour lesquelles les pages peuvent être bloquées par le robot d'exploration d'Audit de site. Cela dépend de la configuration et de la structure de votre site web. Vous pouvez notamment rencontrer les cas suivants :  

  • Robots.txt bloque le robot d'exploration
  • La portée de l'exploration exclut certaines zones du site
  • Le site web n'est pas directement en ligne en raison d'un hébergement partagé
  • Les pages se trouvent derrière une passerelle / zone de base des utilisateurs du site.
  • Le robot d'exploration est bloqué par une balise noindex
  • Le domaine n'a pas pu être résolu par le DNS - le domaine saisi dans la configuration est hors ligne
  • Le contenu du site web est créé en Javascript - notre système ne vérifie que le contenu fixe du site web et ne peut fournir qu'un audit partiel des éléments dynamiques

Les étapes du dépannage

Suivez ces étapes de dépannage pour voir si vous pouvez effectuer certains réglages par vous-même avant de demander de l'aide à notre équipe d'assistance.

Vérifiez si votre fichier Robots.txt contient des commandes d'interdiction

Un fichier Robots.txt donne des instructions aux bots sur la manière d'explorer (ou de ne pas explorer) les pages d'un site web. Vous pouvez autoriser et interdire à des bots, tels Googlebot ou Semrushbot, d'explorer l'ensemble de votre site ou des zones spécifiques de votre site en utilisant des commandes telles que Allow (autoriser)Disallow (interdire), et Crawl Delay (délai d'exploration). 

Si votre fichier robots.txt empêche notre bot d'explorer votre site, notre outil Audit de site ne sera pas en mesure de parcourir votre site.

Vous pouvez vérifier que votre Robots.txt ne contient pas de commandes d'interdiction empêchant les robots d'exploration comme le nôtre d'accéder à votre site web. 

Pour permettre au bot Semrush Audit de site (SemrushBot-SA) de parcourir votre site, ajoutez ce qui suit dans votre fichier robots.txt :

User-agent: SemrushBot-SA

Disallow:   

(laisser un espace après “Disallow:”)

Voici un exemple de ce à quoi peut ressembler un fichier robots.txt :

Dépannage pour Audit de site image 1

Notez les différentes commandes en fonction de l'agent utilisateur (robot d'exploration) auquel le fichier s'adresse.

Ces fichiers sont publics et, pour être trouvés, ils doivent être hébergés au niveau supérieur d'un site. Pour trouver le fichier robots.txt d'un site web, saisissez son domaine racine suivi de /robots.txt dans votre navigateur. Par exemple, le fichier robots.txt sur Semrush.com se trouve là : https://semrush.com/robots.txt.

Parmi les termes que l'on peut rencontrer dans le fichier robots.txt, on trouve :

  • User-Agent = le robot d'exploration du web auquel vous donnez des instructions. 
    • Ex : SemrushBot-SI, Googlebot
  • Allow = une commande (uniquement pour Googlebot) qui indique au bot qu'il peut explorer une page ou une zone spécifique d'un site, même si la page ou le dossier parent est interdit.
  • Disallow = une commande qui indique au bot de ne pas explorer une URL ou un sous-dossier spécifique d'un site. 
    • Ex : Disallow: /admin/
  • Crawl Delay = une commande qui indique aux bots combien de secondes ils doivent attendre avant de charger et d'explorer une autre page. 
  • Sitemap = indique où se trouve le fichier sitemap.xml pour une URL spécifique.
  • / = utilisez le symbole "/" après une commande disallow pour indiquer au bot qu'il ne doit pas explorer l'intégralité de votre site 
  • * = un symbole joker qui représente toute chaîne de caractères possibles dans une URL, il est utilisé pour indiquer une zone d'un site ou tous les agents utilisateurs. 
    • Ex : Disallow: /blog/* indique toutes les URL dans le sous-dossier blog d'un site
    • Ex : User agent: * indique que les instructions concernent tous les bots

Google vous en apprendra plus sur les spécifications pour Robots.txt, mais vous pouvez aussi jeter un œil à notre blog Semrush.

Supprimez les balises restrictives de votre site

Si vous voyez le code suivant sur la page principale d'un site web, il indique que nous ne sommes pas autorisés à indexer/suivre des liens sur ce site et que notre accès est bloqué.

<meta name="robots" content="noindex, nofollow" >

Par ailleurs, une page contenant au moins un des éléments suivants :  "
noindex", "nofollow", "none", conduira a une erreur d'exploration.

Pour permettre à notre bot d'explorer une telle page, supprimez ces balises "noindex" du code de votre page. Pour plus d'informations sur la balise noindex, veuillez vous référer à cet
article d'Aide Google.

Mettez SemrushBot sur liste blanche

Pour inscrire le bot sur liste blanche, contactez votre webmaster ou votre hébergeur et demandez-lui de mettre SemrushBot-SA et SiteAuditBot sur liste blanche.

Les adresses IP du bot sont :

  • 46.229.173.68
  • 46.229.173.67
  • 46.229.173.66
  • 85.208.98.128/25

Le bot utilise les ports standard 80 HTTP et 443 HTTPS pour se connecter.

Si vous utilisez des plugins (Wordpress, par exemple) ou des CDN (réseau de diffusion de contenu) pour gérer votre site, vous devrez également inscrire l'IP du bot sur liste blanche.

Pour mettre sur liste blanche sur Wordpress, contactez le Service d'assistance de Wordpress.

Les CDN les plus courants qui bloquent notre robot d'exploration sont les suivants:

  • Cloudflare - apprenez comment inscrire sur liste blanche ici
  • Imperva - apprenez comment inscrire sur liste blanche ici
  • ModSecurity - apprenez comment inscrire sur liste blanche ici
  • Sucuri - apprenez comment inscrire sur liste blanche ici

Note : si vous avez un hébergement partagé, il est possible que votre hébergeur ne vous permette pas d'ajouter des bots à votre liste blanche ou de modifier le fichier Robots.txt.

Hébergeurs

Vous trouverez ci-dessous une liste de quelques-uns des hébergeurs les plus populaires sur le web, ainsi que la manière de mettre un bot sur liste blanche pour chacun d'eux ou de contacter leur équipe d'assistance pour obtenir de l'aide :

  1. Siteground - instructions pour mettre sur liste blanche 
  2. 1&1 IONOS - instructions pour mettre sur liste blanche 
  3. Bluehost* - instructions pour mettre sur liste blanche 
  4. Hostgator* - instructions pour mettre sur liste blanche 
  5. Hostinger - instructions pour mettre sur liste blanche 
  6. GoDaddy - instructions pour mettre sur liste blanche 
  7. GreenGeeks - instructions pour mettre sur liste blanche 
  8. Big Commerce - Il faut contacter l'assistance 
  9. Liquid Web - Il faut contacter l'assistance 
  10. iPage - Il faut contacter l'assistance
  11. InMotion - Il faut contacter l'assistance
  12. Glowhost - Il faut contacter l'assistance
  13. A2 Hosting - Il faut contacter l'assistance
  14. DreamHost - Il faut contacter l'assistance

* Remarque : ces instructions sont valables pour HostGator et Bluehost si votre site est hébergé sur un VPS ou un serveur dédié.

Vérifiez les limites du compte

Pour voir quelle quantité de votre budget d'exploration a été utilisée, rendez-vous sur Profile - Infos abonnement et regardez la ligne “Pages à explorer” dans “Mon forfait”.

En fonction de votre niveau d'abonnement, vous êtes limité à un certain nombre de pages que vous pouvez explorer par mois (budget mensuel d'exploration). Si vous dépassez le nombre de pages autorisées dans le cadre de votre abonnement, vous devrez acheter des limites supplémentaires ou attendre le mois suivant, lorsque vos limites seront actualisées.

Redirections appropriées (pour les problèmes de DNS)

Si le domaine n'a pas pu être résolu par DNS, cela signifie probablement que le domaine que vous avez saisi lors de la configuration est hors ligne. Les utilisateurs rencontrent souvent ce problème lorsqu'ils saisissent un domaine racine (exemple.com) sans se rendre compte que la version du domaine racine de leur site n'existe pas et qu'il faut saisir la version WWW de leur site à la place (www.exemple.com).  

Pour éviter ce problème, le propriétaire du site web peut ajouter une redirection du site non sécurisé "exemple.com" vers le site sécurisé "www.exemple.com" existant sur le serveur. Ce problème peut également se produire dans l'autre sens, si le domaine racine est sécurisé, mais que sa version WWW ne l'est pas. Dans ce cas, il suffit de rediriger la version WWW vers le domaine racine.

Changez la source d'exploration (Javascript)

Semrush ne peut pas analyser le contenu JavaScript pour le moment, donc si votre page d'accueil contient des liens vers le reste de votre site cachés dans des éléments JavaScript, nous ne serons pas en mesure de les lire et d'explorer ces pages.

Nous explorons les JS et CSS et effectuons des contrôles de performance (minification, compression). Nous ne pouvons pas rendre les JS car nous ne pouvons pas obtenir le contenu et les liens qui ne s'affichent qu'après le rendu.

Cependant, vous pouvez implémenter le schéma d'exploration AJAX. Audit de site trouvera alors les liens dans votre JavaScript et les suivra pour atteindre le contenu de votre site auquel ils renvoient. Il vous suffit de relancer votre campagne et de changer la source d'exploration : Sitemap au lieu de Site Web. Vous en apprendrez davantage sur ce point dans notre section Quoi de neuf ?

Pour que nous ne manquions pas les pages les plus importantes de votre site web lors de notre exploration, vous pouvez changer votre source d'exploration de Site Web en Sitemap. En effet, nous ne raterons aucune des pages qui sont mentionnées dans le sitemap.

Bien que nous ne puissions pas explorer le contenu JavaScript, nous pouvons explorer le HTML d'une page qui contient des éléments JS et examiner les paramètres de vos fichiers JS et CSS avec nos contrôles de Performance.

Changez l'agent utilisateur

Votre site web peut bloquer SemrushBot dans votre fichier robots.txt. Si vous changez l'agent utilisateur de SemrushBot en GoogleBot, votre site web pourra alors probablement autoriser l'agent utilisateur de Google à explorer le site. Pour effectuer ce changement, trouvez l'icône d'engrenage des paramètres dans votre projet et sélectionnez User Agent.

Dépannage pour Audit de site image 2

Contournez Disallow dans Robots.txt

Si cette option est utilisée, les ressources internes bloquées et les pages bloquées pour les contrôles d'exploration ne seront pas activées. N'oubliez pas que pour l'utiliser, la propriété du site devra être vérifiée.

Cette option est utile pour les sites qui sont en cours de maintenance. C'est également pratique lorsque le propriétaire du site ne souhaite pas modifier le fichier robots.txt.

Explorez avec vos identifiants

Pour auditer les zones privées de votre site web, qui sont protégées par un mot de passe, entrez vos informations d'identification dans l'option "Explorer à l'aide de vos identifiants" après avoir cliqué sur l'icône d'engrenage des paramètres. Cela permet au bot d'Audit de site d'atteindre ces pages et de les auditer pour vous.

Ceci est fortement recommandé pour les sites en cours de développement, ou ceux qui sont privés et entièrement protégés par un mot de passe.

Dépannage pour Audit de site image 3

Contactez le service d'assistance de Semrush

Si vous rencontrez toujours des difficultés pour exécuter votre Audit de site, envoyez un e-mail à mail@semrush.com ou appelez-nous au numéro indiqué dans le footer du site pour nous expliquer votre problème.

Consultés récemment