Comment détecter les contenus rédigés par l‘IA et le plagiat ?

Le 30 novembre 2022 restera-t-il dans les mémoires comme le jour qui a changé à jamais la rédaction de contenu telle que nous la connaissons ?

Ce jour-là a marqué le lancement de ChatGPT, et depuis, des centaines d'outils de rédaction alimentés par l'IA, d'assistants d'écriture et d'applis de création de contenu ont inondé Internet.

L'objectif ? Aider les rédacteurs de contenu, les spécialistes marketing et SEO à créer du contenu plus rapidement, plus facilement et plus efficacement.

Si certains de ces outils peuvent être très utiles pour trouver des idées, développer la structure de base d'un article ou générer des titres publicitaires accrocheurs, la rédaction en tant que telle peut s'avérer délicate.

Dans son état actuel, le contenu généré purement par l'IA est loin d'être idéal. Bien qu'il ait parfois l'air bien écrit et professionnel, il peut aussi être trompeur, non pertinent ou tout simplement faux (c'est ce que l'on appelle une hallucination artificielle). Il peut également être pénalisé par les moteurs de recherche et affecter négativement ton classement SERP.

Les outils de rédaction assistés par l'IA se multipliant, il est essentiel pour les spécialistes du marketing de contenu et les professionnels du SEO de vérifier leur contenu pour s'assurer qu'il est authentique, digne de confiance et sans plagiat.

Qu'est-ce que la détection de contenu IA ?

En un mot, la détection de contenu IA est un processus qui utilise une combinaison de techniques d'apprentissage automatique et de traitement du langage naturel pour déterminer si le texte a été écrit par un humain ou généré par l'IA.

Les outils qui utilisent ce processus sont appelés "détecteurs de contenu IA" ou "détecteurs d'IA" et sont formés sur de grands ensembles de données de contenu écrit par des humains et des machines afin d'identifier des modèles dans chaque type d'écriture.

Comment font-ils ?

En analysant deux caractéristiques principales du texte : la perplexité (difficulté ou complexité du texte) et la burstiness (ou "éclatement", c’est-à-dire la variation de la fréquence des mots ou expressions).

En d'autres termes, à quel point le texte semble prévisible ou imprévisible pour le lecteur, et à quel point les phrases sont variées ou uniformes.

Si tu as déjà essayé ChatGPT ou d'autres grands modèles de langage pour écrire, en particulier des textes longs, tu remarqueras que les textes IA ont tendance à être plus prévisibles et génériques lorsqu'il s'agit du choix des mots. Il en va de même pour la structure des phrases. Les outils de rédaction IA ont tendance à produire des phrases de longueur similaire et de structure conventionnelle.

L'écriture humaine, en revanche, tend à être plus dynamique, avec une narration moins prévisible et un vocabulaire plus riche. Il est également probable qu'il y ait plus de fautes de frappe que le contenu rédigé par l'IA. Des erreurs humaines, en somme.

Qu'est-ce que la détection du plagiat ? Et le contenu généré par l'IA est-il considéré comme du plagiat ?

Contrairement à la détection de l'IA, qui est encore relativement nouvelle et en pleine évolution, la détection du plagiat existe depuis un certain temps.

Créés en réponse aux cas croissants de plagiat dans le monde universitaire, les outils de vérification du plagiat comparent le texte à de grandes bases de données de contenu Web existant, ainsi qu'à des travaux de recherche, des magazines, des revues et des publications, pour voir s'ils trouvent des passages identiques.

Plutôt que de rechercher des modèles prévisibles dans les mots ou la structure des phrases, comme le font les outils de détection de l'IA, les vérificateurs de plagiat recherchent des correspondances exactes ou parfois imprécises dans les mots clés, les expressions et les phrases entières.

La plupart des vérificateurs de plagiat fonctionnent de manière similaire, mais leurs résultats peuvent varier en fonction des bases de données auxquelles ils ont accès.

Depuis la sortie de ChatGPT, la vérification du plagiat est devenue encore plus pertinente. Bien que le contenu généré par l'IA ne soit pas techniquement considéré comme du plagiat, parce qu'il ne copie pas mot à mot des phrases ou des morceaux de texte, il peut paraphraser le contenu sur lequel il a été formé. Dans ce cas, un vérificateur de plagiat peut tout aussi bien signaler ce texte comme étant un plagiat.

Comment détecter le plagiat et le contenu généré par l'IA ?

Comment savoir alors quel type de contenu se trouve devant nous ?

Par exemple, si tu travailles avec des rédacteurs externes pour le blog de ton entreprise, comment sais-tu si le contenu qu'ils écrivent est original ?

Le plus simple est de laisser les vérificateurs de plagiat et les outils logiciels de détection de l'IA faire le travail. Cependant, en particulier pour l'IA, il y a une autre façon de procéder : recherche les caractéristiques dites "de l'IA".

Parmi les signes courants du contenu généré par l'IA, on trouve :

Informations incorrectes ou périmées
Manque de profondeur et de personnalité
Langage répétitif

Informations incorrectes ou périmées

Bien que le style de la rédaction IA puisse sembler brillant, il est toujours important de vérifier l'exactitude des informations fournies. Étant donné que la plupart des robots sont formés sur des ensembles de données limités (dans le temps, la forme ou la source), ils n'ont pas toujours accès aux informations les plus récentes et les plus complètes.

Manque de profondeur et de personnalité

Comme les outils IA n'écrivent pas vraiment mais génèrent du texte en se basant sur des modèles dans leurs données d'apprentissage, ils ne "comprennent" pas ce qu'ils écrivent de la même manière que les humains. Il en résulte des réponses très superficielles et peu élaborées, un manque d'esprit critique et d'analyse approfondie du sujet.

Elles n'ont pas non plus de personnalité, c'est pourquoi la plupart des textes générés par l'IA manquent d'une touche personnelle et peuvent sembler robotiques et dénués d'émotion.

Contrairement à un outil IA, un journaliste ou un rédacteur peut avoir de vraies conversations avec des experts du domaine sur lequel il écrit. Ce genre de conversations aboutit à des compréhensions plus profondes, à des histoires intéressantes et à des opinions développées d'une manière qu'il est difficile de reproduire avec l'IA.

Langage répétitif

Une autre caractéristique commune de l'IA est l'utilisation des mêmes mots ou expressions à plusieurs reprises.

Cela peut être le résultat d'un mot clé spécifique utilisé dans le prompt, que l'IA répète ensuite mot pour mot. Le texte produit peut aussi manquer de contexte ou simplement contenir des informations limitées et répétitives provenant de la formation de l'outil.

Les modèles d'IA sont également conçus pour être prudents et neutres en général, c'est pourquoi ils peuvent s'appuyer sur des modèles de langage plus conservateurs, qui semblent parfois répétitifs.

Les meilleurs outils de détection du plagiat et de contenu IA pour les spécialistes du marketing de contenu

Une autre façon de repérer le langage IA et le plagiat est de recourir à des outils de détection spécialisés. Bien qu'ils ne soient pas exactes à 100 %, ils peuvent être très utiles si tes compétences en matière d'intelligence artificielle et de détection du plagiat ne sont pas à la hauteur, ce qui est le cas de la plupart d'entre nous, n'est-ce pas ?

Vérificateur de plagiat par The Apps Cloud

d6xI0E1JyHGk75KaJW7hy6YJS391vY_X8KchMQFpyOEfTOpqXpiqsS-Ud8cxmD0EYyKY81xBhlzg6eOtUDAgEmhyHRVlaQHigM2pCjUL5WeKF4nhoIby2EyftZFbHL4E8QI_xjwAe-i2HbGzRhcvIA4

Si tu as déjà un compte chez Semrush et que tu cherches à la fois un détecteur de contenu IA et de plagiat pour tes projets d'écriture, alors Plagiarism Checker par The Apps Cloud est fait pour toi.

Conçu spécialement pour Semrush App Center, Plagiarism Checker est pratique lorsque tu dois vérifier rapidement un texte pour le plagiat, l'écriture générée par l'IA et la lisibilité.

Cet outil gratuit prend en charge la vérification du plagiat dans 34 langues différentes, mais la détection du contenu généré par l'IA n'est disponible qu'en anglais.

Il te permet de vérifier un texte d'une longueur maximale de 6 000 caractères et génère un rapport détaillé mettant en évidence les pourcentages de contenu IA et plagié, ainsi que les éventuels problèmes grammaticaux.

Pour commencer, tu dois créer un compte Semrush gratuit, puis obtenir l'appli Plagiarism Checker à partir de l'App Center. Ensuite, il te suffit de copier et de coller le texte pour commencer ta recherche.

Copyleaks

p_OSfODxtTVuI8InBtolE1LJCDiK3qHJh63fIofFIFyb2McQ9U3G31E1yh8cx4PUatYeUyl7cvP4JZWeKcGUlRiLgYK-ZG_iX40XLrcR4sasz5-v-rH_VEfB5-NX8FAhauwsXG8at9HMwYP4ccwgnrE

Selon une récente étude réalisée par des chercheurs de Cornwell University, Copyleaks a été validé comme étant le détecteur de contenu IA le plus précis, avec une précision de 99,1 %, et une couverture complète des modèles, y compris GPT-4 et Bard.

Fondé en 2015, Copyleaks compte des millions d'utilisateurs, notamment des établissements d'enseignement et des entreprises de premier plan.

La version de base (gratuite) de leur détecteur d'IA est disponible directement sur leur site Internet, sans inscription préalable. Cependant, les fonctions étendues, pour les langues prises en charge notamment, la détection prioritaire et un traitement plus rapide sont disponibles uniquement sur abonnement.

Sa détection du plagiat se présente sous la forme d'un produit autonome et prend en charge l'analyse de fichiers texte ordinaires, d'URL et du code source pour détecter l'écriture artificielle et le plagiat, la comparaison des textes, des codes et des sites les uns par rapport aux autres, ainsi que l'extraction de textes à partir d'images.

La tarification pour le scan de 100 pages ou 25 000 mots commence à 10,99 $ par mois.

Originalité.ai

WHHsKV8CdfxfomiPAtEkOkLIAWCbjDAM2Kr7LXXL9gOBwgq_qjT9gLzV7mXo5MZuEaez0E1BfcXHUmdPm6ch_cWRRSWP0jVnqRqIoRfXQj_O4a73rNaMqxtLMQ5dP8TrbsaSm2VyPttO1PGOJAVdYsY — Source : https://originality.ai

Originality.ai se présente également comme "le vérificateur IA le plus précis pour Chat GPT, Bard, Paraphrasing, et GPT-4", revendiquant une précision de 99% dans la détection du contenu généré par l'IA. Cet outil est spécialement conçu pour les professionnels du contenu et du SEO qui doivent s'assurer que le contenu qu'ils publient est original et sans plagiat.

L'outil n'a pas de version gratuite ou financée par la publicité car il utilise des techniques de traitement du langage naturel qui nécessitent beaucoup plus de puissance de calcul. Contrairement à la plupart des outils de détection de contenu IA, Originality.ai propose également une analyse complète du site, par opposition à une analyse d'un seul document, et n'a pas de limite de caractères.

L'une des caractéristiques les plus frappantes de cet outil est qu'il détecte non seulement le plagiat et l'écriture artificielle, mais aussi le plagiat paraphrastique, c'est-à-dire qu'il peut déterminer si le contenu a été paraphrasé ou non.

L'abonnement de base à Originality.ai commence à 14,95 $ par mois et donne accès à toutes les fonctionnalités de l'outil, y compris celles à venir. Un accès limité est disponible moyennant un paiement unique de 30 $.

Vérifier le contenu IA en toute confiance

Alors que de plus en plus d'entreprises ajoutent des outils de rédaction IA à leur boîte à outils marketing, la relecture et la vérification du plagiat et du langage IA dans les contenus créés avec ces outils se banalisent.

Bien que le contenu généré par l'IA s'améliore et ressemble de plus en plus à celui créé par des humains, il a toujours besoin de notre attention pour s'assurer que la version finale est originale, digne de confiance et qu'elle a cette touche personnelle qui permet à une histoire de se démarquer.

Comment détecter les contenus rédigés par l'IA et le plagiat ?