Parfois, vous devez exclure un contenu ou des fichiers WordPress spécifiques de l'indexation dans les résultats de recherche Google. Index, ou « indexation » avant l'émergence de Google et d'autres moteurs de recherche, était un mot principalement associé aux livres. Il se trouve généralement à la fin de la plupart des livres, et c'est pourquoi le dictionnaire Cambridge le définit dans ce contexte comme :

Indice: une liste alphabétique, comme celle imprimée à la fin d'un livre indiquant à quelle page se trouve un sujet, un nom, etc.

Avance rapide jusqu'en 1995, pendant le boom d'Internet, nous avons des services comme le moteur de recherche Yahoo, et en 1997, la recherche Google a radicalement changé la façon dont nous recherchons et accédons aux informations sur Internet.

Selon une enquête réalisée en janvier 2018, il existe 1 805 260 010 sites Web (plus de 1,8 milliard) sur Internet, et nombre de ces sites Web ne reçoivent aucun visiteur.

Qu'est-ce que l'indexation Google ?

Il existe différents moteurs de recherche avec un format d'indexation différent, mais les moteurs de recherche populaires incluent Google, Bing et pour les personnes soucieuses de la confidentialité, duckduckgo.

L'indexation de Google fait généralement référence au processus d'ajout de nouvelles pages Web, y compris du contenu numérique tel que des documents, des vidéos et des images, et de leur stockage dans sa base de données. En d'autres termes, pour que le contenu de votre site apparaisse dans les résultats de recherche Google, il doit d'abord être stocké dans l'index Google.

Qu'est-ce que l'indexation Google ?

Google est capable d'indexer toutes ces pages et contenus numériques à l'aide de ses spiders, crawlers ou bots qui explorent à plusieurs reprises différents sites Web sur Internet. Ces bots et crawlers suivent les instructions des propriétaires de sites Web sur ce qu'il faut explorer et ce qui doit être ignoré lors de l'exploration.

Pourquoi les sites Web doivent-ils être indexés ?

En cette ère de l'ère numérique, il est presque impossible de naviguer à travers des milliards de sites Web pour trouver un sujet et un contenu particuliers. Ce sera beaucoup plus facile s'il existe un outil pour nous montrer quels sites sont dignes de confiance, quel contenu est utile et pertinent pour nous. C'est pourquoi Google existe et classe les sites Web dans leurs résultats de recherche.

L'indexation devient un élément indispensable du fonctionnement des moteurs de recherche en général et de Google en particulier. Il aide à identifier les mots et les expressions qui décrivent le mieux une page et contribue globalement au classement de la page et du site Web. Pour apparaître sur la première page de Google, votre site Web, y compris les pages Web et les fichiers numériques tels que les vidéos, les images et les documents, doit d'abord être indexé.

L'indexation est une étape préalable pour que les sites Web soient bien classés sur les moteurs de recherche en général et Google en particulier. En utilisant des mots-clés, les sites peuvent être mieux vus et découverts après avoir été indexés et classés par les moteurs de recherche. Cela ouvre alors des portes à plus de visiteurs, d'abonnés et de clients potentiels pour votre site Web et votre entreprise.

Le meilleur endroit pour cacher un cadavre est la page deux de Google.

Bien que le fait d'avoir beaucoup de pages indexées n'améliore pas automatiquement le classement de vos sites, si le contenu de ces pages est également de haute qualité, vous pouvez obtenir un coup de pouce en termes de référencement.

Pourquoi et comment empêcher le moteur de recherche d'indexer le contenu

Bien que l'indexation soit idéale pour les propriétaires de sites Web et d'entreprises, il existe des pages que vous ne souhaitez peut-être pas afficher dans les résultats de recherche. vous pourriez également risquer d'exposer des fichiers et du contenu sensibles sur Internet. Sans mots de passe ni authentification, le contenu privé risque d'être exposé et d'accéder sans autorisation si les bots ont libre cours sur les dossiers et fichiers de votre site Web.

Au début des années 2000, les pirates utilisé la recherche Google pour afficher les informations de carte de crédit à partir de sites Web avec des requêtes de recherche simples. Cette faille de sécurité a été utilisée par de nombreux pirates pour voler des informations de carte sur des sites de commerce électronique.

Un autre récent une faille de sécurité s'est produite l'année dernière sur box.com, un système de stockage cloud populaire. La faille de sécurité a été révélée par Markus Neis, responsable du renseignement sur les menaces chez Swisscom. Il a signalé que de simples exploits de moteurs de recherche, notamment Google et Bing, pouvaient exposer des fichiers et des informations confidentiels de nombreuses entreprises et clients individuels.

De tels cas se produisent en ligne et peuvent entraîner une perte de ventes et de revenus pour les propriétaires d'entreprise. Pour les sites Web d'entreprise, de commerce électronique et d'adhésion, il est extrêmement important de bloquer d'abord l'indexation de la recherche de contenu sensible et de fichiers privés, puis de les placer probablement derrière un système d'authentification d'utilisateur décent.

Voyons comment vous pouvez contrôler le contenu et les fichiers qui peuvent être explorés et indexés par Google et d'autres moteurs de recherche.

1. Utilisation de Robots.txt pour les images

Robots.txt est un fichier situé à la racine de votre site qui fournit aux robots de Google, Bing et d'autres moteurs de recherche des instructions sur ce qu'il faut explorer et ce qu'il ne faut pas. Alors que robots.txt est généralement utilisé pour contrôler le trafic d'exploration et les robots d'exploration Web (mobile vs ordinateur), il peut également être utilisé pour empêcher l'apparition d'images dans les résultats de recherche Google.

Un fichier robots.txt de sites Web WordPress normaux ressemblerait à ceci :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Le fichier robots.txt standard commence par une instruction pour l'agent utilisateur et un astérisque. L'astérisque est une instruction pour tous les bots qui arrivent sur le site Web de suivre toutes les instructions fournies ci-dessous.

Éloignez les robots de fichiers numériques spécifiques à l'aide de Robot.txt

Robots.txt peut également être utilisé pour arrêter l'exploration par les moteurs de recherche de fichiers numériques tels que PDF, JPEG ou MP4. Pour bloquer l'exploration de recherche de fichiers PDF et JPEG, ceci doit être ajouté au fichier robots.txt :

Fichiers PDF

User-agent: *
Disallow: /pdfs/ # Block the /pdfs/directory.
Disallow: *.pdf$  # Block pdf files from all bots. Albeit non-standard, it works for major search engines.

Images

User-agent: Googlebot-Image
Disallow: /images/cats.jpg #Block cats.jpg image for Googlebot specifically.

Si vous souhaitez empêcher toutes les images .GIF d'être indexées et de s'afficher dans la recherche d'images Google tout en autorisant d'autres formats d'image tels que JPEG et PNG, vous devez utiliser les règles suivantes :

User-agent: Googlebot-Image
Disallow: /*.gif$

Important: Les extraits ci-dessus empêcheront simplement votre contenu d'être indexé par des sites tiers tels que Google. Ils sont toujours accessibles si quelqu'un sait où chercher. Pour rendre les fichiers privés afin que personne ne puisse y accéder, vous devez utiliser une autre méthode, telle que ces plugins de restriction de contenu.

Le Googlebot-Image peut être utilisé pour empêcher les images et une extension d'image particulière d'apparaître dans la recherche d'images Google. Si vous souhaitez les exclure de toutes les recherches Google, par exemple la recherche sur le Web et les images, il est conseillé d'utiliser à la place un agent utilisateur Googlebot.

D'autres agents utilisateurs de Google pour différents éléments sur un site Web incluent Googlebot-Video pour les vidéos de candidature dans la section vidéo de Google sur le Web. De même, l'utilisation de l'agent utilisateur Googlebot empêchera toutes les vidéos de s'afficher dans les vidéos Google, la recherche Web ou la recherche Web mobile.

Robots txt sans index

Veuillez garder à l'esprit que l'utilisation de Robots.txt n'est pas une méthode appropriée pour bloquer les fichiers et contenus sensibles ou confidentiels en raison des limitations suivantes :

  • Robots.txt ne peut instruire que les robots d'exploration bien comportés ; d'autres moteurs de recherche et robots non conformes pourraient simplement ignorer ses instructions.
  • Robots.txt n'empêche pas votre serveur d'envoyer ces pages et fichiers à des utilisateurs non autorisés sur demande.
  • Les moteurs de recherche peuvent toujours trouver et indexer la page et le contenu que vous bloquez au cas où ils seraient liés à d'autres sites Web et sources.
  • Robots.txt est accessible à toute personne qui pourrait alors lire toutes vos instructions fournies et accéder directement à ces contenus et fichiers

Pour bloquer l'indexation de la recherche et protéger plus efficacement vos informations privées, veuillez plutôt utiliser les méthodes suivantes.

2. Utilisation de la balise Meta sans index pour les pages

L'utilisation d'une balise META sans index est une méthode appropriée et plus efficace pour bloquer l'indexation de la recherche de contenu sensible sur votre site Web. Contrairement au robots.txt, la balise meta sans index est placée dans la section d'une page Web avec une balise HTML très simple :

<html>
<head>
<title>...</title>
<meta name="robots" content="noindex">
</head>

Toute page avec cette instruction dans l'en-tête n'apparaîtra pas dans les résultats de recherche Google. Autres directives tels que nofollow et notranslate peuvent également être utilisés pour dire aux robots d'exploration Web de ne pas explorer les liens et offrent respectivement la traduction de cette page.

Vous pouvez donner des instructions à plusieurs robots d'exploration en utilisant plusieurs balises META sur une page comme suit :

<html>
<head>
<title>...</title>
<meta name="googlebot" content="nofollow">
<meta name="googlebot-news" content="nosnippet">
</head>

Il existe deux façons d'ajouter ce code à votre site Web. Votre première option consiste à créer un thème enfant WordPress, puis dans votre functions.php, vous pouvez utiliser le crochet d'action WordPress wp_head pour insérer un noindex ou toute autre balise META. Vous trouverez ci-dessous un exemple de la façon dont vous n'indexeriez pas votre page de connexion.

add_action( 'wp_head', function() {
    if ( is_page( 'login' ) ) {
        echo '<meta name="robots" content="noindex">';
    }
} );

Votre deuxième option consiste à utiliser votre plugin SEO pour contrôler la visibilité d'une page. Par exemple, avec Yoast SEO, vous pouvez accéder à la section des paramètres avancés d'une page et simplement choisir « Non » pour les options permettant au moteur de recherche d'afficher la page :

Réglage des résultats de recherche Yoast SEO

3. Utilisation de l'en-tête HTTP X-Robots-Tag pour d'autres fichiers

Le X-Robots-Tag vous donne plus de flexibilité pour bloquer l'indexation de recherche de votre contenu et de vos fichiers. En particulier, comparée à la balise Meta sans index, elle peut être utilisée comme réponse d'en-tête HTTP pour n'importe quelle URL donnée. Par exemple, vous pouvez utiliser le X-Robots-Tag pour les fichiers image, vidéo et document où il n'est pas possible d'utiliser les balises méta robots.

Tu peux lire Guide complet des balises meta robots de Googlemais voici comment vous pouvez demander aux robots de ne pas suivre et indexer une image JPEG en utilisant le X-Robots-Tag sur sa réponse HTTP :

HTTP/1.1 200 OK
Content-type: image/jpeg
Date: Sat, 27 Nov 2018 01:02:09 GMT
(…)
X-Robots-Tag: noindex, nofollow
(…)

Toutes les directives pouvant être utilisées avec une balise méta robots s'appliquent également à une balise X-Robots. De même, vous pouvez également demander à plusieurs robots de moteurs de recherche :

HTTP/1.1 200 OK
Date: Tue, 21 Sep 2018 21:09:19 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: bingbot: noindex
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Il est important de noter que les robots des moteurs de recherche découvrent les balises méta Robots et les en-têtes HTTP X-Robots-Tag lors du processus d'exploration. Donc, si vous voulez que ces bots suivent vos instructions de ne pas suivre ou indexer tout contenu et document confidentiels, vous ne devez pas empêcher ces URL de page et de fichier d'explorer.

S'ils ne peuvent pas explorer à l'aide du fichier robots.txt, vos instructions sur l'indexation ne seront pas lues et donc ignorées. Par conséquent, si d'autres sites Web renvoient vers votre contenu et vos documents, ils seront toujours indexés par Google et d'autres moteurs de recherche.

4. Utilisation des règles .htaccess pour les serveurs Apache

Vous pouvez également ajouter l'en-tête HTTP X-Robots-Tag à votre fichier .htaccess pour empêcher les crawlers d'indexer les pages et le contenu numérique de votre site Web hébergé sur un serveur Apache. Contrairement aux balises méta sans index, les règles .htaccess peuvent être appliquées à un site Web entier ou à un dossier particulier. Sa prise en charge des expressions régulières offre une flexibilité encore plus grande pour cibler plusieurs types de fichiers à la fois.

Pour empêcher Googlebot, Bing et Baidu d'explorer un site Web ou un répertoire spécial, utilisez les règles suivantes :

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteRule .* - [R=403,L]

Pour bloquer l'indexation de recherche de tous les fichiers .txt, .jpg, .jpeg et .pdf sur l'ensemble de votre site Web, ajoutez l'extrait suivant :

<Files ~ ".(txt|jpg|jpeg|pdf)$">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

5. Utilisation de l'authentification de page avec nom d'utilisateur et mot de passe

Les méthodes ci-dessus empêcheront votre contenu et vos documents privés d'apparaître dans les résultats de recherche Google. Cependant, tous les utilisateurs disposant du lien peuvent accéder à votre contenu et accéder directement à vos fichiers. Pour des raisons de sécurité, il est fortement recommandé de configurer une authentification appropriée avec un nom d'utilisateur et un mot de passe ainsi qu'une autorisation d'accès au rôle.

Utilisation de l'authentification de page

Par exemple, les pages qui incluent des profils personnels du personnel et des documents sensibles auxquels les utilisateurs anonymes ne doivent pas accéder doivent être poussées derrière une porte d'authentification. Ainsi, même lorsque les utilisateurs parviennent d'une manière ou d'une autre à trouver les pages, il leur sera demandé des informations d'identification avant de pouvoir consulter le contenu.

Protection par mot de passe WordPress

Pour ce faire avec WordPress, définissez simplement la visibilité d'un article sur protégé par mot de passe. De cette façon, vous pouvez sélectionner un mot de passe requis pour afficher le contenu de cette page. C'est assez facile à faire par article/page. Pour une confidentialité plus complète du site, essayez d'ajouter l'un de ces plugins d'adhésion WordPress à votre site Web.

Veuillez garder à l'esprit que les pages protégées par mot de passe ou cachées des moteurs de recherche et des visiteurs ne protègent pas nécessairement les documents, vidéos et images attachés à son contenu. Pour une réelle protection de vos téléchargements de fichiers WordPress, un service premium tel que

exclure-wordpress-contenu-google