Aller directement au contenu
Base de connaissances
Les boîtes à outils Semrush
SEO
Audit de site
Pourquoi quelques pages seulement de mon site web sont-elles explorées ?

Pourquoi quelques pages seulement de mon site web sont-elles explorées ?

Si vous avez remarqué que seules 4 à 6 pages de votre site web sont explorées (votre page d'accueil, les URL des sitemaps et le fichier robots.txt), c'est très probablement parce que notre robot n'a pas pu trouver de liens internes sortants sur votre page d'accueil. Vous trouverez ci-dessous les raisons possibles de ce problème.

Il se peut qu'il n'y ait pas de liens internes sortants sur la page principale ou qu'ils soient en JavaScript. Notre robot ne peut pas analyser le contenu JavaScript, donc si votre page d'accueil contient des liens vers le reste de votre site cachés dans des éléments JavaScript, nous ne pourrons pas les lire et explorer ces pages.

Bien que nous ne puissions pas explorer le contenu JavaScript, nous pouvons explorer le HTML d'une page contenant des éléments JS, et nous pouvons examiner les paramètres de vos fichiers JS et CSS avec nos contrôles de performance.

Dans les deux cas, il existe un moyen de s'assurer que notre robot explorera vos pages. Pour cela, vous devez changer la source d'exploration de "Site web" à "Sitemap" ou "URL du fichier" dans les paramètres de votre campagne :

Site Audit crawl source

"Site web" est la source par défaut. Cela signifie que nous allons parcourir votre site web en utilisant un algorithme de parcours en largeur (ou BFS, pour Breadth-First Search en anglais) et naviguer à travers les liens que nous voyons dans le code de votre page, en commençant par la page d'accueil.

Si vous choisissez l'une des autres options, nous explorerons les liens qui se trouvent dans le sitemap ou dans le fichier que vous téléchargez.

Notre robot d'exploration a pu être bloqué sur certaines pages dans le fichier robots.txt du site ou par des balises noindex/nofollow. Vous pouvez vérifier si c'est le cas dans votre rapport Pages explorées :

Site Audit blocked pages

Vous pouvez examiner votre fichier Robots.txt à la recherche de toute commande disallow qui empêcherait les robots d'exploration comme le nôtre d'accéder à votre site web.

Si vous voyez le code suivant sur la page principale d'un site web, il nous indique que nous ne sommes pas autorisés à indexer/suivre des liens sur ce site et que notre accès est bloqué. Ou encore, une page contenant "nofollow" ou "none" entraînera une erreur d'exploration.

<meta name="robots" content="noindex, nofollow">

Vous trouverez plus d'informations sur ces erreurs dans notre article de dépannage.

Audit de site est équipé actuellement pour analyser les pages d'accueil dont la taille ne dépasse pas 4 Mo.

Pourquoi quelques pages seulement de mon site web sont-elles explorées ? image 3

La limite pour les autres pages de votre site web est de 2 Mo. Dans le cas où une page a une taille HTML trop importante, vous verrez l'erreur suivante :

Pourquoi quelques pages seulement de mon site web sont-elles explorées ? image 4