Base de connaissances
Les boîtes à outils Semrush
SEO
Audit de site
Résolution des problèmes d’Audit de site

Résolution des problèmes d’Audit de site

Audit de site ne fonctionne pas correctement ?

Plusieurs raisons liées à la configuration et à la structure de votre site peuvent expliquer le blocage du robot d’exploration d’Audit de site :  

  • le fichier robots.txt bloque notre robot ;
  • la portée de l’exploration exclut certaines parties du site ;
  • le site n’est pas accessible directement en raison d’un hébergement partagé ;
  • la taille de la page de destination dépasse 2 Mo ;
  • les pages sont protégées par une passerelle d’accès ou un identifiant de connexion ;
  • une balise noindex bloque notre robot ;
  • le domaine n’a pas pu être résolu par le DNS, car le domaine saisi lors de la configuration est hors ligne ;
  • le contenu du site est développé en JavaScript : bien qu’Audit de site sache interpréter le JavaScript, certains problèmes surviennent encore occasionnellement.

Étapes de dépannage

Suivez ces étapes de dépannage pour essayer de résoudre le problème par vous-même avant de contacter notre service d’assistance pour obtenir de l’aide.

Un fichier robots.txt donne des instructions aux robots sur la manière d’explorer (ou de ne pas explorer) les pages d’un site. Dans ce fichier, vous pouvez autoriser ou interdire aux robots tels que Googlebot ou Semrushbot d’explorer l’ensemble de votre site ou des zones spécifiques de votre site en utilisant des directives telles que Allow, Disallow, et Crawl Delay. 

Si votre fichier robots.txt n’autorise par l’exploration de votre site par notre robot, l’outil Audit de site ne pourra pas l’analyser. 

Commencez par inspecter votre fichier robots.txt à la recherche de directives disallow qui pourraient empêcher les robots d’exploration comme le nôtre d’accéder à votre site. 

Pour permettre au robot d’Audit de site de Semrush (SiteAuditBot) d’explorer votre site, ajoutez les paramètres suivants à votre fichier robots.txt :

User-agent: SiteAuditBot

Disallow:   

(laissez un espace vide après « Disallow »)

Voici un exemple de fichier robots.txt :

Liste des directives allow et disallow dans un exemple de fichier robots.txt. Les directives disallow sont mises en évidence en rouge et les directives allow en vert clair. On trouve également des instructions supplémentaires du côté droit de la capture d’écran : Disallow = instruction pour les robots de NE PAS explorer cette zone du site (en rouge), Allow = instruction pour les robots d’explorer cette zone du site (en vert).

Comme vous pouvez le voir, les directives sont adressées à différents agents utilisateurs (robots d’exploration).

Ces fichiers sont publics et doivent être hébergés à la racine d’un site pour être trouvés. Pour trouver le fichier robots.txt d’un site, saisissez son domaine racine suivi de « /robots.txt » dans la barre de recherche de votre navigateur. Par exemple, le fichier robots.txt de Semrush.com se trouve à l’adresse https://semrush.com/robots.txt.

Voici quelques termes que vous pouvez trouver dans un fichier robots.txt.

  • Le User-agent (agent utilisateur) correspond à l’identifiant du robot d’exploration auquel les directives sont adressées. 
    • Exemple : SiteAuditBot, Googlebot.
  • La directive Allow indique au robot Google (uniquement) qu’il est autorisé à explorer une page précise ou une section donnée du site, même si la page ou le dossier de niveau supérieur est interdit à l’exploration.
  • La directive Disallow interdit au robot d’exploration de parcourir une URL ou un sous-dossier donné du site. 
    • Exemple : Disallow: /admin/.
  • La directive Crawl Delay (délai d’exploration) ordonne au robot d’attendre un certain nombre de secondes avant de charger et d’explorer la page suivante. 
  • Sitemap est l’instruction indiquant l’emplacement du fichier sitemap.xml associé à une URL donnée.
  • Le signe / après une directive disallow indique au robot de ne pas explorer l’intégralité du site. 
  • * est un caractère générique représentant toute chaîne possible de caractères dans une URL, utilisé pour désigner une section du site ou l’ensemble des agents utilisateurs. 
    • Exemple 1 : Disallow: /blog/* désigne toutes les URL du sous-dossier blog du site.
    • Exemple 2 : User-agent: * indique que les instructions qui suivent sont adressées à tous les robots.

Pour en savoir plus, consultez l’article Google Comment Google interprète la spécification robots.txt ou le blog Semrush.

Si vous trouvez le code suivant sur la page principale d’un site, cela indique que nous ne sommes pas autorisés à indexer/suivre les liens présents sur la page, et notre accès est bloqué.



De même, si une page contient au moins l’une des valeurs de directive noindex, nofollow ou none, l’exploration échouera.

Pour permettre à notre robot d’explorer la page, retirez ces directives restrictives du code de votre page. Pour plus d’informations sur la balise noindex, veuillez consulter cet article de l’Aide Google.

Pour mettre le robot de Semrush sur liste blanche, contactez votre webmaster ou hébergeur et demandez de placer SiteAuditBot sur liste blanche.

L’adresse IP du robot est 85.208.98.128/25 (sous-réseau utilisé uniquement par Audit de site).

Le robot utilise les ports standards 80 HTTP et 443 HTTPS pour se connecter.

Si vous utilisez des modules complémentaires (Wordpress, par exemple) ou des réseaux de diffusion de contenu pour gérer votre site, vous devrez également placer l’IP du robot sur liste blanche au sein de ces derniers.

Pour l’ajout à la liste blanche sur Wordpress, veuillez contacter le service d’assistance de Wordpress.

Certains réseaux de diffusion de contenu ont tendance à bloquer notre robot :

Remarque : si vous disposez d’un hébergement partagé, il est possible que votre hébergeur ne vous autorise pas à mettre des robots en liste blanche ou à modifier le fichier robots.txt.

Fournisseurs d’hébergement

Vous trouverez ci-dessous une liste des fournisseurs d’hébergement les plus populaires sur le Web et des instructions sur comment mettre un robot en lite blanche ou contacter l’assistance pour chacun d’eux : 

  1. Siteground (voir comment mettre sur liste blanche) ; 
  2. 1&1 IONOS (voir comment mettre sur liste blanche) ; 
  3. Bluehost* (voir comment mettre sur liste blanche) ; 
  4. Hostgator* (voir comment mettre sur liste blanche) ; 
  5. Hostinger (voir comment mettre sur liste blanche) ; 
  6. GoDaddy (voir comment mettre sur liste blanche) ; 
  7. GreenGeeks (voir comment mettre sur liste blanche) ; 
  8. Big Commerce (contacter l’assistance) ; 
  9. Liquid Web (contacter l’assistance) ; 
  10. iPage (contacter l’assistance) ;
  11. InMotion (contacter l’assistance) ;
  12. Glowhost (contacter l’assistance) ;
  13. Hosting (contacter l’assistance) ;
  14. DreamHost (contacter l’assistance).

* Remarque : ces instructions fonctionnent pour HostGator et Bluehost si votre site se trouve sur un serveur VPS ou un hébergement dédié.

Si la taille de votre page de destination ou la taille totale des fichiers JavaScript/CSS dépasse 2 Mo, nos robots d'exploration ne pourront pas la traiter en raison des limitations techniques de l'outil.

Pour en savoir plus sur la cause possible de l'augmentation de la taille et la résolution de ce problème, référez-vous à cet article de notre blog.

Pour savoir combien de votre budget d’exploration a été utilisé, accédez à Profil—Infos abonnement et recherchez « Pages à explorer » sous « Boîte à outils SEO ».

En fonction de votre forfait, vous bénéficiez d’un nombre déterminé de pages à explorer par mois (budget d’exploration mensuel). Une fois cette limite atteinte, vous devrez acheter des unités d'utilisation supplémentaires ou attendre la réinitialisation de votre budget d’exploration le mois suivant.

Si le message d'erreur « Vous avez atteint la limite de campagnes pouvant être exécutées simultanément » s'affiche pendant la configuration, cela signifie que vous avez atteint la limite d'audits réalisables en même temps prévue par votre forfait.

Nos différents forfaits prévoient les limites suivantes :

  • compte gratuit — 1 audit de site à la fois ;
  • boîte à outils SEO Pro — jusqu'à 2 audits de site simultanément ;
  • boîte à outils SEO Guru — jusqu'à 2 audits de site simultanément ;
  • boîte à outils SEO Business — jusqu'à 5 audits de site simultanément.

Si le domaine ne peut pas être résolu par le DNS, cela signifie probablement que le domaine que vous avez saisi lors de la configuration est hors ligne. Généralement, les utilisateurs rencontrent ce problème lorsqu’ils saisissent un domaine racine (exemple.com) sans se rendre compte que la version du domaine racine de leur site n’existe pas, et qu’ils doivent plutôt saisir la version avec « www » de leur site (www.exemple.com).  

Pour éviter ce problème, le propriétaire du site peut ajouter une redirection depuis le site non sécurisé « exemple.com » vers le site sécurisé « www.exemple.com » qui existe sur le serveur. Ce problème peut également se produire dans l’autre sens, si le domaine racine est sécurisé, mais que la version « www » ne l’est pas. Dans ce cas, il suffit de rediriger la version WWW vers le domaine racine.

Si votre page d’accueil contient des liens vers le reste de votre site cachés dans des éléments JavaScript, vous devez activer le rendu JavaScript afin que nous puissions y accéder et explorer ces pages. Cette fonctionnalité est disponible avec les forfaits Guru et Business de la boîte à outils SEO.

Instructions pour trouver l’endroit où activer le rendu JavaScript dans les paramètres d’Audit de site. L’onglet et la section des paramètres en question sont mis en évidence.

Pour éviter que nous passions à côté des pages les plus importantes de votre site lors de notre exploration, vous pouvez modifier votre source d’exploration en passant de « site Web » à « sitemap ». De cette manière, les robots d’exploration n’omettront aucune page, même celles qui sont difficiles à trouver naturellement sur le site lors de l’audit.

Instructions pour trouver les paramètres de la source d’exploration dans Audit de site. Le menu déroulant est mis en évidence et présente toutes les options de source d’exploration disponibles.

Nous pouvons également explorer le code HTML d’une page contenant des éléments JavaScript et examiner les paramètres de vos fichiers JavaScript et CSS lors des contrôles de performance.

Le fichier robots.txt de votre site bloque peut-être notre robot. Vous pouvez faire passer l’agent utilisateur de SemrushBot à GoogleBot, ce qui permettra à votre site d’être exploré par le robot d’exploration de Google. Pour ce faire, cliquez sur l’icône d’engrenage dans votre projet et sélectionnez « User-agent ».

Instructions pour trouver les paramètres du user agent dans Audit de site. Dans le rapport Vue d’ensemble, l’icône d’engrenage dans le coin supérieur droit est mise en évidence pour indiquer le menu déroulant qui s’ouvre lorsque l’utilisateur clique dessus. Vous pouvez faire défiler vers le bas le menu des paramètres pour trouver les paramètres exacts nécessaires, en l’occurrence les paramètres du user-agent (cette ligne est également mise en évidence dans le menu).

Cette option indique robot d’exploration d’ignorer les directives disallow du fichier robots.txt, lui permettant d’explorer les pages et les ressources internes autrement inaccessibles. N’oubliez pas que pour utiliser cette option, nous devons vérifier la propriété du site.

Cela peut être utile pour les sites en cours de maintenance ou lorsque le propriétaire du site ne veut pas modifier son fichier robots.txt.

Pour auditer les zones de votre site protégées par un mot de passe, saisissez vos identifiants dans l’option « Exploration avec vous identifiants » sous l’icône des paramètres.

Cela est vivement recommandé pour les sites encore en développement ou ceux qui sont privés et entièrement protégés par un mot de passe.

Résolution des problèmes d’Audit de site image 5

Pour des raisons de sécurité ou de performances, certains sites ou plateformes d’hébergement, comme Shopify, bloquent par défaut les robots inconnus. Si votre audit échoue sur ces plateformes, l’ajout d’une signature d’authentification Web Bot permet au robot de Semrush de s’identifier et de prouver qu’il est autorisé à accéder à votre site.

Résolution des problèmes d’Audit de site image 6

Si vous n’avez pas fourni de signature lors de la configuration de l’outil et que votre site est inaccessible, Semrush détectera cette restriction et vous invitera à y remédier sans quitter l’outil.

Résolution des problèmes d’Audit de site image 7

« Les paramètres de votre robot d’exploration ont été modifiés depuis votre précédent audit. Cela pourrait affecter vos résultats d’audit actuels et le nombre de problèmes détectés. »

Ce message apparaît dans Audit de site après avoir mis à jour les paramètres et relancé l’audit. Il n’indique pas un problème, mais que si les résultats de l’exploration ont changés, cala en est probablement la raison.

Consultez notre article de blog, Problèmes SEO courants et résolution.