Pour rendre notre contenu accessible à un plus grand nombre d'utilisateurs, nous avons traduit cet article de l'anglais à l'aide de la traduction automatique. Clique ici pour lire l'article original. Si tu remarques des problèmes dans le contenu, n'hésite pas à nous contacter à report-osteam@semrush.com.
Qu'est-ce que le contenu dupliqué ?
Le contenu dupliqué est un contenu identique ou très similaire qui apparaît à plusieurs endroits en ligne.
Ainsi, même si un contenu n'est pas une copie exacte d'une autre page, il peut être considéré comme un doublon s'il est suffisamment similaire à cette autre page.
Voici à quoi ressemblent les contenus identiques et similaires :
Il peut y avoir du contenu en double sur différentes pages web de ton site. Ou sur des sites Internet distincts.
Pour être considéré comme un doublon, un contenu doit présenter les caractéristiques suivantes :
- Chevauchement notable de la formulation, de la structure et du format avec un autre article.
- Peu ou pas d'informations originales
- Aucune valeur ajoutée pour le lecteur par rapport à une page similaire.
Dans cet article, nous allons expliquer comment le contenu dupliqué a un impact sur le référencement et cinq causes courantes de contenu dupliqué. Et te montrer comment éviter et résoudre les problèmes de contenu dupliqué.
Commençons par l'impact sur le référencement.
Quel est l'impact du contenu dupliqué sur le référencement ?
Il n'y a pas de pénalité Google pour le contenu dupliqué, sauf s'il a l'intention "d'être trompeur et de manipuler les résultats des moteurs de recherche."
Alors, pourquoi le contenu dupliqué est-il un problème pour le référencement ? Jetons un coup d'œil:
Cela peut nuire à ton classement
L'objectif de Google est de présenter aux internautes des pages contenant des informations originales et utiles. Pas les pages qui ne font que reprendre un contenu déjà trouvé ailleurs (y compris le contenu de ton propre site web).
C'est pourquoi ils ont des systèmes de classement des recherches conçus pour donner la priorité au contenu original lors du classement des résultats.
Ainsi, si tu as plusieurs pages qui se ressemblent, Google fera de son mieux pour identifier quelle page est l'originale.
Mais s'il ne peut pas identifier l'original, ton classement pourrait en souffrir. Et la page pourrait ne pas être classée du tout.
Et si ton contenu se classe, la version choisie par Google n'est peut-être pas celle que tu souhaites voir apparaître dans les pages de résultats des moteurs de recherche (SERP).
Il peut distribuer des backlinks inutilement
Les backlinks sont des liens sur d'autres sites Web qui renvoient à ton site Web.
Chaque lien retour est comme un vote de confiance de la part de cet autre site Web. Ce qui indique à Google que ton contenu est probablement exact et utile.
Le fait d'avoir deux ou plusieurs versions d'un même contenu peut diluer l'équité des liens - la réputation et l'autorité qui se transmettent d'une page à l'autre par le biais d'un lien retour.
Voici pourquoi.
Disons que tu as deux pages identiques avec les URL suivantes :
- https://www.gardeningwebsite.com/gardening/planting-flowers
- https://www.gardeningwebsite.com/flowers/planting-flowers
Ainsi, si tu as 50 backlinks entre ces deux pages, 30 d'entre eux pourraient aller vers la première URL tandis que les 20 restants renvoient vers la seconde.
Au lieu d'avoir une page renforcée par 50 backlinks, tu obtiens deux pages avec moins de backlinks chacune.
Cette répartition peut potentiellement conduire à un classement inférieur dans les moteurs de recherche car aucune des deux pages n'acquiert autant d'autorité qu'une seule page.
Cela peut nuire à l'indexation de ton site
Les moteurs de recherche comme Google doivent explorer et indexer (c'est-à-dire trouver et stocker) ton contenu pour qu'il apparaisse dans les résultats de recherche.
Les pages dupliquées gaspillent ton budget d'exploration (le temps et les ressources que les robots des moteurs de recherche consacrent à l'exploration de ton site avant de passer à autre chose). Parce que les robots d'indexation peuvent finir par examiner plusieurs versions du même contenu.
Cela réduit le nombre de pages qui peuvent être explorées. Ce qui peut avoir un impact sur la visibilité de ton site dans les résultats de recherche.
Pour en savoir plus : Crawlabilité & Indexabilité : Ce qu'elles sont & Comment elles affectent le référencement
5 causes communes derrière le contenu dupliqué accidentel
Il y a de nombreuses raisons pour lesquelles le contenu peut être accidentellement dupliqué, ce qui implique principalement des problèmes de structure du site Web tels que des variations d'URL et du contenu copié.
Voici cinq causes courantes :
1. Gestion inadéquate des variations WWW et non-WWW
Les utilisateurs peuvent souvent accéder à des sites Web par le biais d'une URL comprenant "www" au début et d'une URL qui n'en contient pas.
Si ton site est accessible dans les deux sens et que tu ne gères pas correctement ces variations, cela peut entraîner des problèmes de contenu dupliqué.
Imagine que ton site Internet est une maison avec plusieurs entrées. Certaines personnes pourraient entrer dans ta maison par la porte d'entrée en utilisant "www.example.com". Et d'autres peuvent entrer par la porte arrière en utilisant "exemple.com".
Même s'il s'agit de la même maison, les variations d'URL peuvent la faire passer pour deux maisons distinctes aux yeux des moteurs de recherche.
2. Autoriser l'accès avec HTTP et HTTPS
Le fait que ton site web soit accessible à la fois par les protocoles HTTP et HTTPS peut également conduire à du contenu dupliqué.
Cela revient à avoir une porte normale avec l'URL "http://example.com" pour certains visiteurs. Et une porte super sécurisée et verrouillée avec l'URL "https://example.com" pour les autres.
Les robots de recherche voient cela comme des portes de différentes maisons si tu ne leur dis pas quelle porte est l'entrée principale.
3. Utilisation de barres obliques de fin de ligne et de barres obliques de fin de ligne
Google considère les variantes d'une URL avec et sans barre oblique ("/") comme du contenu dupliqué.
Par exemple, les deux URL suivantes seraient considérées comme uniques par les moteurs de recherche :
- www.example.com/page/
- www.example.com/page
Pour éviter ces doublons, choisis une approche pour les barres obliques de fin dans les URL de tes pages et respecte-la. (Tu en sauras bientôt plus sur la façon d'utiliser les redirections 301 pour résoudre ce problème).
C'est ce que nous avons fait sur notre propre blog.
Ainsi, si tu saisis "https://www.semrush.com/blog" dans ton navigateur, tu seras immédiatement redirigé vers "https://www.semrush.com/blog/"
4. Inclure du contenu récupéré ou copié
Le scraping de contenu se produit lorsque quelqu'un copie le contenu d'un site Web et le publie sur un autre site sans autorisation ou sans donner l'attribution appropriée.
Mais Google fait généralement assez bien la distinction entre la source originale et le contenu copié. Ils ont déjà écrit sur la façon dont ils traitent le contenu gratté, en disant :
Tu ne devrais pas être très inquiet de voir les effets négatifs de la présence de ton site sur Google si tu remarques que quelqu'un racle ton contenu.
5. Avoir des versions distinctes pour les mobiles et les ordinateurs de bureau
Une façon de structurer ton site pour le rendre adapté aux mobiles est d'utiliser des URL distinctes pour les versions de bureau et les versions mobiles.
Par exemple, tu peux utiliser "exemple.com" pour les utilisateurs d'ordinateurs de bureau. Et "m.example.com" pour les utilisateurs mobiles.
Cette approche te permet d'adapter le contenu et la conception spécifiquement pour les appareils mobiles, afin de garantir une expérience plus conviviale.
Mais si elle n'est pas mise en œuvre correctement, l'utilisation d'URL distinctes pour les versions mobile et de bureau peut entraîner des problèmes de contenu dupliqué.
Comment éviter le contenu dupliqué
La première étape pour aborder la question du contenu dupliqué dans le cadre du référencement est de trouver où il se produit sur ton site (si c'est le cas).
Voici deux façons de les trouver :
Vérifie ton site pour identifier le contenu dupliqué
Vérifier régulièrement que ton site ne contient pas de contenu dupliqué t'aide à résoudre les problèmes dès le début.
Tu peux passer tes pages au peigne fin manuellement si ton site est assez petit. Mais c'est inefficace. Et il se peut que tu rates certaines pages
Nous te suggérons donc de faire passer ton site par l'outil d'audit de site de Semrush.
Pour commencer, ouvre l'outil, saisis ton URL dans la barre de recherche et clique sur "Commencer l'audit".
Ensuite, on te demandera de configurer les paramètres de base du crawl. Il s'agit notamment de fixer une limite pour les pages vérifiées et une fréquence de vérification. Tu peux suivre ce guide étape par étape de la configuration de ton audit pour passer à travers les paramètres.
Quand tu es prêt, clique sur "Commencer l'audit du site".
Lorsque tes résultats sont prêts, tu verras apparaître un tableau de bord similaire à celui-ci :
Clique sur l'onglet "Problèmes" pour voir la liste complète des problèmes techniques et le nombre de pages qu'ils affectent.
Ensuite, saisis "duplicata" dans la barre de recherche située au-dessus de la liste des problèmes techniques.
Site Audit signale les pages comme étant du contenu dupliqué si leur contenu est identique à au moins 85 %. Il signale également les titres et les méta descriptions en double.
Si ton domaine comporte des pages dupliquées, tu verras un lien "Pourquoi et comment y remédier" sur la même ligne.
Clique dessus pour voir apparaître une fenêtre contextuelle contenant plus d'informations sur le problème donné et sur la façon dont tu peux le résoudre.
Surveiller les pages indexées dans la console de recherche Google
Google Search Console (GSC) est un outil gratuit que tu peux utiliser pour savoir si toutes tes pages sont indexées. Et lesquelles ne le sont pas.
L'outil t'indique également pourquoi les pages ne sont pas indexées. Et l'une de ces raisons est le contenu dupliqué.
Pour commencer, configure GSC. Si tu ne sais pas comment faire, consulte le guide de Semrush sur Google Search Console pour une découverte étape par étape.
Ensuite, clique sur l'onglet "Pages" dans la section "Indexation" du menu de gauche.
Tu verras un graphique qui t'indiquera le nombre de pages indexées. Et combien de pages ne le sont pas.
Fais défiler vers le bas pour voir les raisons pour lesquelles tes pages n'ont pas été indexées.
Pour obtenir la liste de tes pages dupliquées, clique sur l'erreur "Duplicate, Google a choisi une canonique différente de celle de l'utilisateur" si tu l'as.
Cela ouvrira un rapport qui te montrera un graphique du nombre de pages affectées au fil du temps. Et une liste des pages avec des doublons.
Tu peux résoudre le problème en utilisant l'une des méthodes que nous indiquons ci-dessous. Et clique sur "Valider la correction" pour demander à Google de vérifier ton site.
Comment résoudre les problèmes de contenu dupliqué
Il est maintenant temps de passer en revue ce que tu peux faire pour éviter les problèmes liés au contenu dupliqué. Ou remédier aux problèmes actuels.
Voici deux méthodes que tu peux utiliser :
Mettre en place des balises canoniques
Les balises canoniques (également appelées balises rel="canonical") sont des extraits de code HTML qui spécifient l'URL préférée pour les contenus dupliqués ou très similaires.
Une balise canonique indique aux moteurs de recherche quelle version de ta page tu veux qu'ils indexent et affichent dans les résultats de recherche.
Tu trouveras cette balise dans la section <head> du code HTML d'un site Web. Voici un exemple de ce à quoi ressemble un fichier :
Les balises canoniques autoréférentielles (c'est-à-dire les balises d'une page qui pointent vers elle-même) peuvent également protéger ton contenu contre les scrapers. En effet, cela indique aux moteurs de recherche que la page sur laquelle ils se trouvent est la source originale qui fait autorité.
Si les scrapers copient ton contenu et n'incluent pas cette balise correctement, les moteurs de recherche sont plus susceptibles de reconnaître ta page comme étant l'originale.
L'ajout d'une balise canonique à ta page diffère selon le système de gestion de contenu que tu utilises : WordPress, Webflow, etc.
La façon la plus simple de le faire sur WordPress est d'utiliser le plugin Yoast SEO.
Tout d'abord, connecte-toi à ton compte WordPress.
Ensuite, ajoute Yoast SEO à ton site WordPress en cliquant sur "Plugins" > "Add New" dans le menu de gauche.
Tape "Yoast SEO" dans la barre de recherche. Ensuite, trouve le plugin et clique sur "Installer maintenant".
Après avoir installé le plugin et l'avoir configuré, clique sur "Pages" dans la barre latérale et navigue jusqu'à l'une de tes pages dupliquées.
Ensuite, ouvre la barre latérale Yoast SEO en cliquant sur le logo Yoast SEO qui se trouve en haut à droite de ton écran.
Fais défiler la barre latérale jusqu'à ce que tu vois "Avancé". Clique dessus pour le dérouler et saisis le lien canonique dans l'espace situé sous "URL canonique".
Si la page est un doublon, alors ajoute dans l'espace l'URL de la page que tu veux que Google indexe. Si tu es sur la page que tu souhaites voir indexée, saisis l'URL de cette page pour créer une balise canonique autoréférencée.
Une fois que tu as inséré la balise canonique, l'Audit de site de Semrush pour tester ta mise en œuvre. Et vois si le nombre de pages en double a diminué.
Pour en savoir plus :
Mettre en place des redirections 301 lorsque c'est nécessaire
Une redirection 301 redirige de façon permanente les utilisateurs et les moteurs de recherche d'une URL à une autre. Cette méthode est préférable pour les doublons que tu n'as pas besoin de conserver (comme après être passé de HTTP à HTTPS ou lorsque tu as déplacé une page vers une nouvelle URL).
Disons que tu as changé l'URL de ta page "about" de "www.url.com/about-the-company" à "https://url.com/about".
Tu dois rediriger l'ancienne URL vers la nouvelle. Pour que les utilisateurs et les moteurs de recherche aboutissent à la bonne page.
Certains hébergeurs mettent automatiquement en place une redirection 301 lorsque tu changes l'URL d'une page. Mais les étapes exactes de la mise en œuvre d'une redirection 301 dépendent de ton serveur et du système de gestion de contenu (CMS) que tu utilises.
Pour obtenir des instructions détaillées, consulte notre guide sur les redirections 301.
Surveille et vérifie ton contenu avec Semrush
Le contenu dupliqué peut avoir un impact négatif sur le référencement. Cela peut diminuer ton potentiel de classement et nuire à la navigabilité de ton site.
Mais il existe des moyens d'éviter les problèmes de contenu dupliqué. Et résous les problèmes avant qu'ils ne commencent à avoir un impact sur les performances de ton site web.
Utilise l'outil d'audit de site de Semrush pour surveiller régulièrement la santé de ton site. Et vois rapidement si tu as des problèmes de contenu dupliqué sur ton site web.