Mise à jour des Backlinks Semrush 2021 : voici comment nous avons construit un nouvel outil de backlinks

Eugene Levin

juin 15, 20215 min de lecture
Mise à jour des Backlinks Semrush 2021

TABLE DES MATIÈRES

Il y a environ un an et demi, nous nous sommes fixé un objectif.

Cet objectif était de construire la plus grande, la plus rapide et la meilleure base de données de backlinks pour nos clients et d'être meilleur que les principaux concurrents sur le marché.

Maintenant que nous avons atteint notre objectif, nous avons hâte que vous la testiez par vous-même ! 

Vous voulez savoir comment, exactement, nous avons pu construire une telle base de données ?

Tout ce qu'il a fallu, c'est environ 16 722 tasses de café associées à plus de 500 serveurs et 30 000 heures de travail de nos ingénieurs et spécialistes des données.

Cela semble simple, n'est-ce pas ?

img-semblog

Vous n'avez qu'à consulter cet article de blog pour voir à quel point nous sommes plus rapides maintenant.

Parlons d'abord des nouveautés, puis nous vous montrerons comment nous les avons introduites et quels problèmes nous avons résolus. Grâce à un espace de stockage accru et trois fois plus de robots d'exploration, notre base de données de backlinks a désormais la capacité de trouver, d'indexer et de croître encore plus. En moyenne, nous explorons maintenant :

3Te3_lJ1VTKHv-n6QjzxWvAHr4-FGJ1rMcWIz3VcGpyaCpHxuVSLvGjwfMylMmmFHB6ChWM5kK012fT-6BQi6wf8jhIPm7ZLyg5lSpYzl-XOQ00RYIjHeC6HfTAykg

Avant de voir dans le détail ce qui a été amélioré, passons en revue les principes de base du fonctionnement de notre base de backlinks. 

D'abord, nous générons une file d'attente d'URL qui décide des pages qui seront explorées.

Puis, nos robots d'exploration vont sur Internet et inspectent ces pages. Une fois que nos robots d'exploration identifient des hyperliens qui pointent de ces pages vers une autre page sur Internet, ils enregistrent cette information.

Ensuite, il y a un stockage temporaire qui conserve toutes ces données pendant un certain temps avant de les déverser dans le stockage public que tout utilisateur de Semrush peut voir dans l'outil.

Avec notre nouvelle version, nous avons pratiquement supprimé l'étape de stockage temporaire, ajouté trois fois plus de robots d'exploration et ajouté un ensemble de filtres avant la file d'attente, de sorte que l'ensemble du processus est beaucoup plus rapide et efficace.

img-semblog

File d'attente

Pour faire simple, il y a trop de pages à explorer sur Internet.

Certaines doivent être explorées plus souvent, d'autres pas du tout. Par conséquent, nous utilisons une file d'attente qui décide de l'ordre dans lequel les URL seront explorées.

L'un des problèmes courants de cette étape est l'exploration d'un trop grand nombre d'URL similaires et non pertinentes, ce qui peut conduire les internautes à voir plus de spam et moins de domaines référents uniques.

Alors, qu'avons-nous fait ?

Pour optimiser la file d'attente, nous avons ajouté des filtres qui donnent la priorité au contenu unique, aux sites d'autorité supérieure et à la protection contre les fermes de liens. Ainsi, le système trouve maintenant plus de contenu unique et génère moins de rapports avec des liens doublons.

Voici quelques exemples de son fonctionnement actuel :

  • Pour protéger notre file d'attente des fermes de liens, nous vérifions si un grand nombre de domaines proviennent de la même adresse IP. Si nous voyons trop de domaines provenant de la même IP, leur priorité dans la file d'attente est abaissée, ce qui nous permet d'explorer plus de domaines provenant d'IP différentes et de ne pas rester bloqués sur une ferme de liens.
  • Pour protéger les sites et éviter de polluer nos rapports avec des liens similaires, nous vérifions s'il y a trop d'URL provenant du même domaine. Si nous voyons trop d'URL sur le même domaine, elles ne sont pas toutes explorées le même jour.
  • Afin de s'assurer que nous explorons des pages actualisées dès que possible, les URL que nous n'avons pas explorées auparavant sont davantage prioritaires.
  • Chaque page a son propre code de hachage qui nous aide à donner la priorité à l'exploration du contenu unique.
  • Nous tenons compte de la fréquence à laquelle de nouveaux liens sont générés sur la page source.
  • Nous prenons en compte le score d'autorité d'une page web et d'un domaine.

Technique d'amélioration de la file d'attente

  • Plus de 10 facteurs différents pour filtrer les liens inutiles.
  • Plus de pages uniques et de qualité grâce aux nouveaux algorithmes de contrôle qualité.

Robots d'exploration

Nos robots d'exploration suivent les liens internes et externes sur Internet à la recherche de nouvelles pages avec des liens. Ainsi, nous ne pouvons trouver une page que s'il existe un lien entrant vers celle-ci.

En examinant notre ancien système, nous avons constaté qu'il était possible d'augmenter la capacité d'exploration globale et de trouver un meilleur contenu, à savoir le contenu que les propriétaires de sites Web voudraient que nous explorions et indexions.

Alors, qu'avons-nous fait ?

  • Nous avons triplé le nombre de robots d'exploration (de 10 à 30).
  • Nous avons arrêté l'exploration des pages avec des paramètres d'URL qui n'affectent pas le contenu de la page (&sessionid, UTM, etc.).
  • Nous avons augmenté la fréquence de lecture des fichiers robots.txt des sites web et du respect des directives qu'ils contiennent.

Technique d'amélioration des robots d'exploration

  • Plus de robots d'exploration (30 à présent !).
  • Des données propres sans déchets ni liens en double.
  • Une meilleure capacité à trouver le contenu le plus pertinent.
  • Vitesse d'exploration de 25 milliards de pages par jour.

Stockage

Le stockage est l'endroit où nous conservons tous les liens que vous pouvez voir en tant qu'utilisateur Semrush. Ce stockage vous montre les liens dans l'outil et propose des filtres que vous pouvez appliquer pour trouver ce que vous cherchez.

Le principal souci que nous avions avec notre ancien système de stockage était qu'il ne pouvait être complètement réécrit que lors d'une mise à jour. Cela signifie que toutes les 2 ou 3 semaines, il était réécrit et le processus recommençait.

Ainsi, lors de la mise à jour, les nouveaux liens se sont accumulés dans le stockage intermédiaire, créant un retard sur la visibilité de l'outil pour les utilisateurs. Nous voulions voir si nous pouvions améliorer la vitesse de cette étape.

Alors, qu'avons-nous fait ?

Pour améliorer cela, nous avons réécrit l'architecture à partir de zéro. Pour éliminer le besoin de stockage temporaire, nous avons multiplié par plus de quatre le nombre de nos serveurs.

Il a fallu plus de 30 000 heures de travail d'ingénierie pour mettre en œuvre les dernières technologies. Désormais, nous disposons d'un système évolutif qui ne rencontrera aucune limite, ni aujourd'hui ni demain.

Technique d'amélioration du stockage

  • Plus de 500 serveurs au total.
  • 287 To de mémoire RAM.
  • 16 128 cœurs.
  • 30 Po d'espace de stockage total.
  • Un filtrage et des rapports rapides comme l'éclair.
  • MISE À JOUR INSTANTANÉE - plus de stockage temporaire.

Nous avons réalisé une étude en deux parties pour comparer la vitesse de notre Analyse de backlinks à celle de Moz, Ahrefs et Majestic.

Pour voir exactement à quel point notre outil fonctionne plus rapidement que les autres outils de référencement sur le marché, lisez cet article.

Nous sommes tellement fiers de notre nouvelle base de données Analyse de backlinks que nous voulons que tout le monde puisse profiter de tout ce qu'elle a à offrir.

Obtenez un accès GRATUIT en vous inscrivant à un compte Semrush gratuit et la section Analyse de backlinks vous sera entièrement ouverte.

Testez-la et faites-nous savoir ce que vous en pensez !  

Bienvenue dans l'avenir de la gestion dynamique des backlinks !

Partager
Author Photo
Eugene has served as our Chief Strategy and Corporate Development Officer since March 2016. Before joining Semrush he was Investment Director of Target Global from March 2016 to March 2017 and Partner from November 2014 to March 2016. Prior to that, he served as the Co-Founder and Head of Marketing at AggroStudios from September 2013 to November 2014. Eugene also served as a Partner of Foresight Ventures and as a Senior Systems Analyst at Cloudmach Inc.