Goossips SEO : Désaveu de TLD & limites de crawl
Quelques infos sur Google (et Bing parfois) et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à ces questions : Est-il possible et comment désavouer un TLD entier ? La limite du crawl de Google est-elle absolue ?
Comment désavouer un TLD entier
John Mueller (Google) a révélé qu’il est possible de désavouer un TLD entier (comme .xyz) dans le fichier de désaveu de liens, via la directive domain:abc. Pour cela, il suffit d’ajouter domain:xyz dans le fichier de désaveu pour bloquer tous les liens provenant de ce TLD. Il n’est cependant pas possible de faire des exceptions pour certains domaines au sein du TLD désavoué.
Pourquoi c’est utile : Certains TLDs bon marché avec des conditions d’utilisation permissives sont massivement exploités par des spammeurs. Cette fonctionnalité permet de gagner du temps au lieu de désavouer des centaines de domaines un par un.
John Mueller lui-même admet que ce n’est pas documenté officiellement, car c’est un outil très puissant (« a big hammer »). Tous les TLDs contenant tout de même quelques bons sites, Google hésite à le recommander ouvertement.
Source : Search Engine Journal
Taux de fiabilité : 

On est d’accord !
Vous avez déjà été tenté d’utiliser un boulet de démolition pour tuer un moustique ? Cette technique, c’est un peu la même chose. Si la procédure n’est pas nouvelle, elle n’est pas très connue, sans doute en raison de sa radicalité et de son caractère un peu risqué.
Goossip #2
Les limites de crawl de Googlebot sont flexibles
Dans le dernier épisode de Search Off The Record, Gary Illyes et Martin Splitt sont revenus sur les limites de crawl de Googlebot, révélant que ces limites sont bien plus flexibles qu’on ne le pensait. La limite des 15 Mo est une limite par défaut définie au niveau de l’infrastructure pour protéger les serveurs de Google. Elle n’est pas absolue : chaque équipe interne peut la modifier. Par exemple, Google Search la réduit à 2 Mo, tandis que pour les PDFs elle peut monter à 64 Mo.
Pourquoi ces limites existent : Ce n’est pas uniquement une question de bande passante, mais surtout de protection de l’infrastructure. Traiter un document trop volumineux (conversion, indexation…) peut surcharger les systèmes de Google.
Martin Splitt insiste sur le fait que Googlebot n’est pas un système figé et uniforme, mais fonctionne davantage comme un service configurable. Les paramètres peuvent varier selon le type de contenu (HTML, PDF, images), le projet, voire la vitesse d’indexation souhaitée.
Source : Search Engine Journal
Taux de fiabilité : 

On est d’accord !
Une précision intéressante (et utile), qui devrait un peu rassurer les professionnels qui ont été refroidis par les dernières précisions de Google à ce sujet.
L’article “Goossips SEO : Désaveu de TLD & limites de crawl” a été publié sur le site Abondance.

