Votre Audit de site ne se déroule pas comme il devrait ?
Il existe un certain nombre de raisons pour lesquelles les pages peuvent être bloquées par le robot d'exploration d'Audit de site. Cela dépend de la configuration et de la structure de votre site web. Vous pouvez notamment rencontrer les cas suivants :
- Robots.txt bloque le robot d'exploration
- La portée de l'exploration exclut certaines zones du site
- Le site web n'est pas directement en ligne en raison d'un hébergement partagé
- Les pages se trouvent derrière une passerelle / zone de base des utilisateurs du site.
- Le robot d'exploration est bloqué par une balise noindex
- Le domaine n'a pas pu être résolu par le DNS - le domaine saisi dans la configuration est hors ligne
- Le contenu du site web est créé en Javascript - notre système ne vérifie que le contenu fixe du site web et ne peut fournir qu'un audit partiel des éléments dynamiques
Les étapes du dépannage
Suivez ces étapes de dépannage pour voir si vous pouvez effectuer certains réglages par vous-même avant de demander de l'aide à notre équipe d'assistance.
Un fichier Robots.txt donne des instructions aux bots sur la manière d'explorer (ou de ne pas explorer) les pages d'un site web. Vous pouvez autoriser et interdire à des bots, tels Googlebot ou Semrushbot, d'explorer l'ensemble de votre site ou des zones spécifiques de votre site en utilisant des commandes telles que Allow (autoriser), Disallow (interdire), et Crawl Delay (délai d'exploration).
Si votre fichier robots.txt empêche notre bot d'explorer votre site, notre outil Audit de site ne sera pas en mesure de parcourir votre site.
Vous pouvez vérifier que votre Robots.txt ne contient pas de commandes d'interdiction empêchant les robots d'exploration comme le nôtre d'accéder à votre site web.
Pour permettre au bot Semrush Audit de site (SiteAuditBot) de parcourir votre site, ajoutez ce qui suit dans votre fichier robots.txt :
User-agent: SiteAuditBot
Disallow:
(laisser un espace après “Disallow:”)
Voici un exemple de ce à quoi peut ressembler un fichier robots.txt :
Notez les différentes commandes en fonction de l'agent utilisateur (robot d'exploration) auquel le fichier s'adresse.
Ces fichiers sont publics et, pour être trouvés, ils doivent être hébergés au niveau supérieur d'un site. Pour trouver le fichier robots.txt d'un site web, saisissez son domaine racine suivi de /robots.txt dans votre navigateur. Par exemple, le fichier robots.txt sur Semrush.com se trouve là : https://semrush.com/robots.txt.
Parmi les termes que l'on peut rencontrer dans le fichier robots.txt, on trouve :
- User-Agent = le robot d'exploration du web auquel vous donnez des instructions.
- Ex : SiteAuditBot, Googlebot
- Allow = une commande (uniquement pour Googlebot) qui indique au bot qu'il peut explorer une page ou une zone spécifique d'un site, même si la page ou le dossier parent est interdit.
- Disallow = une commande qui indique au bot de ne pas explorer une URL ou un sous-dossier spécifique d'un site.
- Ex : Disallow: /admin/
- Crawl Delay = une commande qui indique aux bots combien de secondes ils doivent attendre avant de charger et d'explorer une autre page.
- Sitemap = indique où se trouve le fichier sitemap.xml pour une URL spécifique.
- / = utilisez le symbole "/" après une commande disallow pour indiquer au bot qu'il ne doit pas explorer l'intégralité de votre site
- * = un symbole joker qui représente toute chaîne de caractères possibles dans une URL, il est utilisé pour indiquer une zone d'un site ou tous les agents utilisateurs.
- Ex : Disallow: /blog/* indique toutes les URL dans le sous-dossier blog d'un site
- Ex : User agent: * indique que les instructions concernent tous les bots
Google vous en apprendra plus sur les spécifications pour Robots.txt, mais vous pouvez aussi jeter un œil à notre blog Semrush.
Si vous voyez le code suivant sur la page principale d'un site web, il indique que nous ne sommes pas autorisés à indexer/suivre des liens sur ce site et que notre accès est bloqué.
<meta name="robots" content="noindex, nofollow" >
Par ailleurs, une page contenant au moins un des éléments suivants : "noindex", "nofollow", "none", conduira a une erreur d'exploration.
Pour permettre à notre bot d'explorer une telle page, supprimez ces balises "noindex" du code de votre page. Pour plus d'informations sur la balise noindex, veuillez vous référer à cet article d'Aide Google.
Pour inscrire le bot sur liste blanche, contactez votre webmaster ou votre hébergeur et demandez-lui de mettre SiteAuditBot sur liste blanche.
Les adresses IP du bot sont 85.208.98.128/25
Le bot utilise les ports standard 80 HTTP et 443 HTTPS pour se connecter.
Si vous utilisez des plugins (Wordpress, par exemple) ou des CDN (réseau de diffusion de contenu) pour gérer votre site, vous devrez également inscrire l'IP du bot sur liste blanche.
Pour mettre sur liste blanche sur Wordpress, contactez le Service d'assistance de Wordpress.
Les CDN les plus courants qui bloquent notre robot d'exploration sont les suivants:
- Cloudflare - apprenez comment inscrire sur liste blanche ici
- Imperva - apprenez comment inscrire sur liste blanche ici
- ModSecurity - apprenez comment inscrire sur liste blanche ici
- Sucuri - apprenez comment inscrire sur liste blanche ici
Note : si vous avez un hébergement partagé, il est possible que votre hébergeur ne vous permette pas d'ajouter des bots à votre liste blanche ou de modifier le fichier Robots.txt.
Hébergeurs
Vous trouverez ci-dessous une liste de quelques-uns des hébergeurs les plus populaires sur le web, ainsi que la manière de mettre un bot sur liste blanche pour chacun d'eux ou de contacter leur équipe d'assistance pour obtenir de l'aide :
- Siteground - instructions pour mettre sur liste blanche
- 1&1 IONOS - instructions pour mettre sur liste blanche
- Bluehost* - instructions pour mettre sur liste blanche
- Hostgator* - instructions pour mettre sur liste blanche
- Hostinger - instructions pour mettre sur liste blanche
- GoDaddy - instructions pour mettre sur liste blanche
- GreenGeeks - instructions pour mettre sur liste blanche
- Big Commerce - Il faut contacter l'assistance
- Liquid Web - Il faut contacter l'assistance
- iPage - Il faut contacter l'assistance
- InMotion - Il faut contacter l'assistance
- Glowhost - Il faut contacter l'assistance
- A2 Hosting - Il faut contacter l'assistance
- DreamHost - Il faut contacter l'assistance
* Remarque : ces instructions sont valables pour HostGator et Bluehost si votre site est hébergé sur un VPS ou un serveur dédié.
Pour voir quelle quantité de votre budget d'exploration a été utilisée, rendez-vous sur Profile - Infos abonnement et regardez la ligne “Pages à explorer” dans “Mon forfait”.
En fonction de votre niveau d'abonnement, vous êtes limité à un certain nombre de pages que vous pouvez explorer par mois (budget mensuel d'exploration). Si vous dépassez le nombre de pages autorisées dans le cadre de votre abonnement, vous devrez acheter des limites supplémentaires ou attendre le mois suivant, lorsque vos limites seront actualisées.
De plus, si vous rencontrez l'erreur "Vous avez atteint la limite de campagnes exécutées simultanément" lors de la configuration, n'oubliez pas que les limites d'audits simultanés varient en fonction du niveau d'abonnement souscrit.
- Free: 1
- Pro: 2
- Guru: 2
- Business: 5
Si le domaine n'a pas pu être résolu par DNS, cela signifie probablement que le domaine que vous avez saisi lors de la configuration est hors ligne. Les utilisateurs rencontrent souvent ce problème lorsqu'ils saisissent un domaine racine (exemple.com) sans se rendre compte que la version du domaine racine de leur site n'existe pas et qu'il faut saisir la version WWW de leur site à la place (www.exemple.com).
Pour éviter ce problème, le propriétaire du site web peut ajouter une redirection du site non sécurisé "exemple.com" vers le site sécurisé "www.exemple.com" existant sur le serveur. Ce problème peut également se produire dans l'autre sens, si le domaine racine est sécurisé, mais que sa version WWW ne l'est pas. Dans ce cas, il suffit de rediriger la version WWW vers le domaine racine.
Si votre page d’accueil contient des liens vers le reste de votre site cachés dans des éléments JavaScript, vous devez activer le rendu JS afin que nous puissions lire et explorer ces pages. Cette fonctionnalité est disponible avec le forfait Guru ou Business.
Pour que les pages les plus importantes de votre site Web soient bien prises en compte lors de notre exploration, vous pouvez choisir « Sitemap » comme source d’exploration plutôt que « Site Web ». Ainsi, toutes les pages mentionnées dans le sitemap seront explorées.
Nous pouvons également explorer le code HTML d’une page contenant des éléments JS et examiner les paramètres de vos fichiers JS et CSS grâce à nos contrôles de performance.
Votre site web peut bloquer SemrushBot dans votre fichier robots.txt. Si vous changez l'agent utilisateur de SemrushBot en GoogleBot, votre site web pourra alors probablement autoriser l'agent utilisateur de Google à explorer le site. Pour effectuer ce changement, trouvez l'icône d'engrenage des paramètres dans votre projet et sélectionnez User Agent.
Si cette option est utilisée, les ressources internes bloquées et les pages bloquées pour les contrôles d'exploration ne seront pas activées. N'oubliez pas que pour l'utiliser, la propriété du site devra être vérifiée.
Cette option est utile pour les sites qui sont en cours de maintenance. C'est également pratique lorsque le propriétaire du site ne souhaite pas modifier le fichier robots.txt.
Pour auditer les zones privées de votre site web, qui sont protégées par un mot de passe, entrez vos informations d'identification dans l'option "Explorer à l'aide de vos identifiants" après avoir cliqué sur l'icône d'engrenage des paramètres. Cela permet au bot d'Audit de site d'atteindre ces pages et de les auditer pour vous.
Ceci est fortement recommandé pour les sites en cours de développement, ou ceux qui sont privés et entièrement protégés par un mot de passe.
Contactez le service d'assistance de Semrush
Si vous avez besoin de l’assistance personnalisée, merci de contacter notre support client.