Google : Indexation et recherche des documents PDF

Logo GoogleGoogle en est-il avec l’indexation des documents PDF et la façon dont il retourne ces fichiers en résultat aux internautes lors de recherches au travers du moteur ? Le géant de la recherche revenait il y a quelques jours sur plusieurs points concernant ce format bien connu.

Google : Document PDF dans les SERPS

Dans sa volonté de rendre accessible les ressources d’internet, Google commençait à indexer les fichiers PDF en 2001. Des centaines de millions de ces documents sont désormais connus et ressortent donc dans les pages de résultats du moteur de recherche, avec la possibilité en plus des mots clés de limiter les retours à ce seul format via la commande filetype:pdf .

De façon générale, Google indexe tout contenu textuel de PDF, peu importe la langue, à condition qu’il ne soit pas protégé par mot de passe ou encore chiffré. Dans le cas de texte intégré à une image, un algorithme de reconnaissance optique de caractères (OCR) intervient. Les illustrations ne sont quant à elles pas indexées en tant que telles.

Les liens au sein des documents PDF sont traités de la même manière que ceux pouvant se trouver dans une page HTML. Ils distribuent donc PageRank et autres signaux mais ne peuvent être enrichi de l’attribut nofollow.

Pour empêcher ou bloquer une indexation, il convient de faire appel à l’en-tête HTTP X-Robots-Tag: noindex. En PHP par exemple, le code serait le suivant :

<?php header("X-Robots-Tag: noindex"); ?>

Google rappelle de plus l’existence de l’outil de suppression d’URLs disponible dans les webmaster tools pour une plus grande réactivité.

Côté positionnement d’un document PDF dans les pages de résultats, les règles et les possibilités sont les mêmes que celles d’une page web.

Au sensible sujet de la duplication de contenu HTML/PDF (duplicate content), Google conseille plusieurs possibilités :

  • Lien de la version préférée dans le sitemap
  • Canonical via la balise meta HTML
  • Canonical via l’en-tête HTTP

Le titre du snippet de résultat est finalement déterminé à l’aide des deux informations que sont la métadonnée titre du fichier ainsi que l’ancre du lien pointant vers ledit document PDF.

Google conclue l’article en invitant les intéressés à regarder la vidéo de Matt Cutts traitant des bonnes pratiques à mettre en place pour le référencement de PDF.

Pour ma part, je m’interroge sur la non prise en compte de l’en-tête HTTP nofollow permettant théoriquement de bloquer tous les liens…

<?php header("X-Robots-Tag: noindex, nofollow"); ?>

Quelqu’un a-t-il connaissance d’une expérience qui contredirait la communication officielle de Google ?

Source : Google Webmaster Central Blog

Baptiste Simon aka TiChou

Ingénieur développeur web dans le secteur du e-commerce et du tourisme mais avant toute chose passionné par internet et ses intarissables ressources.

5 commentaires, pings et rétroliens

  • AxeNet

    Matt dit ici http://www.youtube.com/watch?feature=player_embedded&v=TkopkUPF-M8 que le nofollow n’empèche pas Google d’aller voir la page, voir même de l’afficher dans ses résultats.

    Je favorise donc le noindex.

  • TiChou

    Merci pour ta réponse, mais elle ne répond pas exactement à mon interrogation.

    Je trouve dommage de techniquement donner des possibilités via l’en-tête HTTP nofollow et de finalement ne pas respecter ces directives. As-tu déjà pu noter une prise en compte de cette information malgré ce que dit Google ?

    Et finalement pourquoi d’ailleurs ? Quel intérêt pour le moteur de ne pas permettre de bloquer les liens dans un document PDF à l’instar de ce qu’on peut faire dans une page HTML quelconque ?

  • AxeNet

    En fait, je n’aborde pas le sujet de la même manière.
    La seule solution efficace que je connaisse pour empêcher une indexation est un disalow dans le htaccess (et encore, j’ai parfois des doutes)

    Sinon, mon constat est que le nofollow sert juste à ne pas transmettre de jus. En aucun cas il empêche l’indexation.

    Si on ne veut pas que les PDF soient indexés, je conseillerai de les mettre tous dans un même répertoire avec un disalow dans le htaccess.

    Si on ne veut pas que les liens dans le pdf soient suivis, je n’ai pas de solution.

    Google indexe tout ce qu’il trouve par tous les moyens possibles (toolbar, liens dans gmail, twitter, etc.). Il est plus difficile de ne pas faire indexer un document que le contraire.
    Attention, quand je dis indexation, ça ne veut pas dire bon positionnement hein !

  • Le Juge

    J’ai souvent conseillé a des clients d’avoir a la fois une version PDF et une version HTML de leurs PDF et je n’ai jamais vraiment eu de problemes de duplicate tout simplement parce que les 2 formats sont différents et ne permettent pas la meme lecture – Naturellement, tous mes clients ont « réécrit » leurs PDFs en les allégeant et du coup je n’ai jamais vraiment eu besoin de prévenir l’indexation des PDFs.

    Si besoin il y a je recommande aussi de places tous ls PDF dans une repertoire et d’en interdire l’acces a GG via robots/htaccess.

  • TiChou

    Merci pour vos retours messieurs :)

Partenaires et blog à la une