Google : Fichier robots.txt et présence dans les pages de résultats (SERPS)

Nouvelle intervention de la part de Matt Cutts qui propose un petit coup de projecteur sur le fameux fichier robots.txt ou plus exactement sur son comportement.

Pratiquement, les question sont : « Pourquoi une URL apparaît-t-elle dans les pages de résultats alors qu’elle est bloquée via le fichier robots.txt ? » et « Comment supprimer cette URL de manière effective ? »

Techniquement, la page n’est pas crawlée par le Google Bot et c’est visuellement remarquable par le fait que ledit résultat ne comporte pas de snippet. Ceci dit, la page ressort dans les SERPS car elle bénéficie d’un certain nombre de backlinks la faisant remonter de par les termes présents le(s) lien(s). Dans le cas où le snippet est présent, il est généralement tiré de l’annuaire Dmoz.

Pour faire disparaître une page de l’index de Google, il convient de préciser le meta noindex, bien souvent associé au nofollow :

<meta name="robots" content="noindex,nofollow" />

Ou d’utiliser l’outil de demande de suppression de page web de Google, ce qui est plus rapide et donc plus efficace dans la mesure où il n’est nullement nécessaire d’attendre qu’un robot ne repasse.