Website Crawler : comment crawler un site web (avec Semrush)

Erika Varangouli

août 18, 202112 min de lecture
crawler un site web
Partager

TABLE DES MATIÈRES

Tout comme les PDG ont leurs assistants et le Père Noël ses lutins, Google (ainsi que d'autres moteurs de recherche) a ses robots d'exploration de sites Web.

Les robots d'exploration de sites Web (ou crawlers) peuvent sembler un peu effrayants. Quelles sont ces choses mystérieuses qui rampent sur le Web et que font-elles exactement ?

Dans ce guide, nous verrons ce que sont les crawlers, comment les moteurs de recherche les utilisent et comment ils peuvent être utiles aux propriétaires de sites Web.

Nous vous indiquerons également comment utiliser notre outil gratuit d'exploration de sites web, l'outil Audit de site, pour découvrir ce que les robots d'exploration web pourraient trouver sur votre site et comment vous pouvez améliorer vos performances en ligne en conséquence. 

Qu'est-ce qu'un crawler et à quoi sert-il ?

Un crawler est un robot Internet, également connu sous le nom d'araignée, d'indexeur automatique ou de robot Web, qui explore systématiquement le Web. Ces robots sont presque comme les archivistes et les bibliothécaires de l'internet.

Ils rassemblent et téléchargent des informations et du contenu, qui sont ensuite indexés et catalogués dans les SERP afin qu'ils puissent apparaître aux utilisateurs par ordre de pertinence.

C'est ainsi qu'un moteur de recherche tel que Google est capable de répondre rapidement aux requêtes des utilisateurs en leur fournissant exactement ce qu'ils recherchent : en appliquant son algorithme de recherche aux données des crawlers web.

Donc, la crawlabilité est un attribut de performance clé pour votre site internet.

Comment fonctionnent les robots d'exploration du Web ?

Pour trouver les informations les plus fiables et les plus pertinentes, un robot commencera par une certaine sélection de pages web. Il y cherchera (ou crawl) des données, puis suivra les liens qui y sont mentionnés (ou spider) vers d'autres pages, où il recommencera la même opération.

Au final, les crawlers produisent des centaines de milliers de pages, dont les informations ont le potentiel de répondre à votre requête de recherche. 

L'étape suivante pour les moteurs de recherche comme Google consiste à classer toutes les pages en fonction de facteurs spécifiques afin de présenter aux utilisateurs uniquement le contenu le meilleur, le plus fiable, le plus précis et le plus intéressant.

Les facteurs qui influencent l'algorithme et le processus de classement de Google sont nombreux et en constante évolution. Certains sont plus connus (les mots clés, le placement des mots clés, la structure des liens internes et les liens externes, etc.). D'autres sont plus complexes à cerner comme, par exemple, la qualité générale du site web.

En fait, lorsque nous parlons de la facilité d'exploration de votre site web, nous évaluons la facilité avec laquelle les robots web peuvent explorer votre site à la recherche d'informations et de contenu. Plus la structure et la navigation de votre site sont faciles à explorer, plus vous avez de chances d'être mieux classé dans les SERP.

Les robots d'indexation et la facilité d'indexation font partie intégrante du référencement.

Comment Semrush utilise les crawlers Web ?

Les crawlers de sites Web ne sont pas seulement un outil secret des moteurs de recherche. Chez Semrush, nous utilisons également des crawlers web. Nous le faisons pour deux raisons essentielles :

  1. Construire et maintenir notre base de données de backlinks
  2. Pour vous aider à analyser la santé de votre site

Notre base de données de backlinks constitue une part importante de ce que nous utilisons pour renforcer nos outils. Nos crawlers recherchent régulièrement sur le web de nouveaux backlinks pour nous permettre de mettre à jour nos interfaces. 

Grâce à cela, vous pouvez étudier les backlinks de votre site avec l'outil Backlink Audit et vérifier les profils de backlink de vos concurrents grâce à notre outil Analyse de backlinks

En gros, vous pouvez garder un œil sur les liens que vos concurrents créent et brisent, tout en vous assurant que vos backlinks sont sains.

Nous utilisons aussi des robots d'exploration du Web pour notre outil Audit de site. Cet outil est un robot d'exploration de sites Web très puissant qui passe au peigne fin et catégorise le contenu de votre site, pour vous permettre d'analyser sa santé

Lorsque vous effectuez un audit de site par le biais de Semrush, l'outil parcourt le Web pour vous afin de mettre en évidence toutes les erreurs, ce qui vous permet de changer de vitesse et d'optimiser votre site Web sur le champ. C'est un moyen très simple d'explorer un site web.

Pourquoi utiliser l'outil Audit de site de Semrush pour explorer votre site ?

En utilisant l'outil Audit de site, vous demandez à nos robots d'accéder à un site. Les robots d'exploration renvoient ensuite une liste de problèmes, qui montrent exactement ce qu'un site Web donné doit améliorer pour renforcer son référencement (SEO).

Il y a plus de 120 questions que vous pouvez vérifier, y compris : 

  • le contenu dupliqué
  • les liens brisés
  • l'implémentation d'un HTTPS
  • la facilité d'accès des crawlers (oui, nous pouvons vous dire à quel point il est facile pour les crawlers d'accéder à votre site Web !)
  • l'indexabilité. 

Et tout cela se fait en quelques minutes, avec une interface utilisateur facile à suivre, de sorte qu'il n'y a pas à craindre de perdre des heures pour se retrouver avec un énorme document de données illisibles.

audit de site

Quels sont les avantages du crawling pour vous ?

Mais pourquoi est-il si important de vérifier ce genre de choses ? Examinons les avantages de quelques-uns de ces contrôles.

Explorabilité 

Il n'est pas surprenant que la vérification de l'aptitude à crawler soit la plus pertinente. Nos robots d'exploration du Web peuvent vous dire exactement à quel point il est facile pour les robots de Google de naviguer sur votre site et d'accéder à vos informations. 

Vous apprendrez à nettoyer la structure de votre site et à organiser votre contenu, en mettant l'accent sur votre sitemap, votre fichier robots.txt, vos liens internes et votre structure URL.

Parfois, certaines pages de votre site ne peuvent pas être explorées du tout. Il y a plusieurs raisons pour lesquelles cela peut se produire. Il peut s'agir d'une réponse lente du serveur (plus de 5 secondes) ou d'un refus d'accès catégorique du serveur. L'essentiel est qu'une fois que vous savez que vous avez un problème, vous pouvez commencer à le résoudre.

L'implémentation d'un HTTPS

Il s'agit d'une partie très importante de l'audit si vous souhaitez faire passer votre site web de HTTP à HTTPS. Nous vous aiderons à éviter certaines des erreurs les plus courantes commises par les propriétaires de sites dans ce domaine, en recherchant les certificats appropriés, les redirections, les éléments canoniques, le cryptage, etc. Nos robots d'indexation rendront cela aussi clair que possible. 

Liens brisés

Les liens brisés sont une cause classique de mécontentement des utilisateurs. Un trop grand nombre de liens brisés peut même faire chuter votre classement dans les SERP, car ils peuvent amener les robots d'exploration à penser que votre site est mal entretenu ou mal codé. 

Nos robots d'exploration trouveront ces liens brisés et les répareront avant qu'il ne soit trop tard. Les solutions sont simples : supprimez le lien, remplacez-le ou contactez le propriétaire du site vers lequel vous vous dirigez et signalez le problème. 

Contenu dupliqué

Le contenu dupliqué peut causer de gros problèmes à votre référencement. Dans le meilleur des cas, cela peut amener les moteurs de recherche à choisir l'une de vos pages dupliquées pour la classer, en écartant l'autre. Dans le pire des cas, les moteurs de recherche peuvent supposer que vous essayez de manipuler les SERP et déclasser ou interdire complètement votre site web.

Un audit de site peut vous aider à étouffer ce problème dans l'œuf. Nos robots d'exploration du Web trouveront le contenu dupliqué sur votre site et le répertorieront de manière ordonnée. 

Vous pouvez alors utiliser la méthode de votre choix pour résoudre le problème, qu'il s'agisse d'informer les moteurs de recherche en ajoutant un lien rel="canonical" vers la bonne page, d'utiliser une redirection 301 ou de modifier concrètement le contenu des pages concernées.

Comment configurer un robot d'exploration de site Web à l'aide de l'Audit de site Semrush ?

La mise en place d'un robot d'exploration de sites Web par le biais de l'Audit de site Semrush est si simple qu'elle ne nécessite que six étapes.

Avant de commencer, assurez-vous que vous avez configuré votre projet. Vous pouvez le faire facilement à partir de votre tableau de bord. Vous pouvez aussi reprendre un projet que vous avez déjà commencé mais pour lequel vous n'avez pas encore fait d'audit de site.

nouveau projet semrush

Étape 1 : Paramètres de base

Une fois que votre projet est établi, il est temps de passer à la première étape : la configuration de vos paramètres de base.

Tout d'abord, définissez la portée de votre crawl. Quel que soit le domaine, le sous-domaine ou le sous-dossier spécifique que vous souhaitez explorer, vous pouvez le saisir ici dans la section "portée de l'exploration". Comme indiqué ci-dessous, si vous saisissez un domaine, vous pouvez également choisir si vous souhaitez explorer tous les sous-domaines qui le composent.

configuration audit de site

Plus vous parcourrez de pages, plus votre audit sera précis, mais il est également important de tenir compte de votre propre engagement et de votre niveau de compétence. Quel est le niveau de votre abonnement ? Combien de fois allez-vous revenir et auditer à nouveau ?

Pour les professionnels, nous recommanderions de crawler jusqu'à 20 000 pages par audit. Pour les gourous, nous recommandons la même chose, soit 20 000 pages par audit, et pour les professionnels d'une entreprise, nous recommandons 100 000 pages par audit. Trouvez ce qui fonctionne pour vous.

pages audit site

Choisissez votre source de crawl. C'est ce qui détermine la façon dont notre robot parcourt votre site Web et trouve les pages à vérifier.

source d'exploration

Comme indiqué, il existe quatre options.

  1. Site Web : avec cette option, nous explorerons le site comme le GoogleBot (via un algorithme de recherche de type "breadth-first"), en naviguant à travers vos liens (en commençant par votre page d'accueil). C'est un bon choix si vous souhaitez uniquement explorer les pages les plus accessibles d'un site à partir de sa page d'accueil. 
  2. Sitemaps sur le site : si vous choisissez cette option, nous n'explorerons que les URL trouvées dans le sitemap du fichier robots.txt. 
  3. Saisir l'URL du sitemap : cette fonction est similaire à celle des plans de site sur le site, mais dans ce cas, vous pouvez saisir votre propre URL de plan de site, ce qui rend votre audit un peu plus spécifique. 
  4. URL du fichier : c'est ici que vous pouvez être vraiment spécifique et déterminer exactement les pages que vous souhaitez auditer. Il vous suffit de les avoir enregistrées sous forme de fichiers .csv ou .txt sur votre ordinateur et qu'elles soient prêtes à être téléchargées directement sur Semrush.
    Cette option est idéale lorsque vous n'avez pas besoin d'un aperçu général. Par exemple, lorsque vous avez apporté des modifications spécifiques à certaines pages et que vous souhaitez simplement voir comment elles se comportent. Cela peut vous épargner du budget de crawl et vous permettre d'obtenir les informations que vous souhaitez vraiment voir.

Étape 2 : Paramètres du crawler

Ensuite, vous devez décider du type de robot que vous souhaitez voir parcourir votre site. Il existe quatre combinaisons possibles, selon que vous choisissez la version mobile ou de bureau du SemrushBot ou du GoogleBot.

crawl du site

Choisissez ensuite les paramètres de votre Crawl-Delay. Décidez entre Délai minimum entre les pages, Respecter robots.txt, ou 1 URL par 2 secondes. 

  1. Choisissez le "délai minimum" pour que le robot puisse ramper à sa vitesse habituelle. Pour le SemrushBot, cela signifie qu'il laissera environ une seconde avant de commencer à explorer la page suivante.
  2. L'option "Respecter le robots.txt" est idéale lorsque vous avez un fichier robots.txt sur votre site et que vous avez besoin d'un délai d'indexation spécifique. 
  3. Si vous craignez que votre site Web soit ralenti par notre robot d'exploration, ou si vous n'avez pas encore de directive d'exploration, vous voudrez probablement choisir "1 URL toutes les 2 secondes". Cela peut signifier que l'audit prendra plus de temps, mais cela ne détériorera pas l'expérience de l'utilisateur pendant l'audit.

Étape 3 : Autoriser/refuser les URLs

C'est ici que vous pouvez vraiment personnaliser votre audit en décidant des sous-dossiers que vous voulez absolument que nous explorions et de ceux que vous ne voulez absolument pas que nous explorions. 

Pour faire cela correctement, vous devez inclure tout ce qui se trouve dans l'URL après le TLD. Les sous-dossiers que vous voulez absolument que nous fassions crawler se trouvent dans la case de gauche :

sous-dossier audit

Et ceux que vous ne voulez absolument pas faire crawler vont dans la case de droite :

crawl sous-dossier

Étape 4 : Suppression des paramètres d'URL 

Cette étape nous permet de nous assurer que votre budget d'exploration n'est pas gaspillé pour explorer deux fois la même page. Il suffit de spécifier les paramètres d'URL que vous utilisez sur votre site pour les supprimer avant l'exploration.

crawl budget

Étape 5 : Contourner les restrictions du site Web

C'est parfait lorsque vous avez besoin d'une petite solution de rechange. Supposons, par exemple, que votre site Web soit encore en pré-production, ou qu'il soit masqué par l'authentification d'accès de base. Si vous pensez que cela signifie que nous ne pouvons pas effectuer un audit pour vous, vous avez tort.

Vous avez deux possibilités pour contourner ce problème et faire en sorte que votre audit soit opérationnel.

restrictions audit de site
  1. L'option 1 consiste à contourner l'interdiction dans le fichier robots.txt et par la balise robots meta, ce qui implique de télécharger le fichier .txt, que nous vous fournirons, dans le dossier principal de votre site Web. 
  2. L'option 2 consiste à crawler avec vos informations d'identification. Pour ce faire, il vous suffit de saisir le nom d'utilisateur et le mot de passe que vous utiliseriez pour accéder à la partie cachée de votre site Web. Le SemrushBot utilisera ces informations pour effectuer l'audit. 

Étape 6 : Planning

La dernière étape consiste à nous indiquer la fréquence à laquelle vous souhaitez que votre site soit audité. Cela peut être chaque semaine, chaque jour ou juste une fois. Quelle que soit votre décision, il est conseillé de procéder à des audits réguliers pour veiller à la santé de votre site.

planning audit de site

Et c'est tout ! Vous avez appris à explorer un site à l'aide de l'outil Audit de site.

Examiner les données de votre robot d'exploration Web avec Semrush

Toutes les données, relatives à vos pages Web collectées au cours de l'exploration, sont enregistrées et sauvegardées dans la section Audit du site de votre projet.

projet audit de site

Ici, vous pouvez trouver votre score de santé du site :

santé du site

Vérifier également le nombre total de pages explorées, réparties en pages "saines", "rompues" ou "ont des problèmes". Cette vision réduit pratiquement de moitié le temps nécessaire à l'identification des problèmes et à leur résolution.

page explorées

Enfin, vous trouverez également ici notre évaluation de la facilité d'exploration de vos pages :

explorabilité site web

En accédant à la section "Explorabilité", vous aurez un aperçu encore plus précis de votre budget d'exploration, de la profondeur d'exploration, du plan de site par rapport aux pages explorées, de l'indexabilité, etc.

budget exploration site

Vous savez maintenant comment mettre en place votre audit de site par robot et où trouver les données que nous pouvons rassembler pour vous.

N'oubliez pas : lorsque vous améliorez votre capacité d'exploration, vous faites en sorte que les moteurs de recherche comprennent votre site Web et son contenu. En facilitant l'exploration de votre site par les moteurs de recherche, vous obtiendrez un meilleur classement et grimperez lentement dans les SERP.

Partager
Author Photo
I am responsible for building meaningful connections between Semrush and the SEO community. To achieve this I create content that is helpful, brings new insights and adds value to the community. I am also a public speaker, regular webinar host and awards judge. Mainly fueled by caffeine and music.