Comment empêcher l’indexation d’un site internet ?

Que ce soit un site en cours de développement ou une interface que vous ne souhaitez pas voir apparaître dans les pages de résultats, il n’est pas simple d’empêcher les robots des moteurs de recherche de venir fouiner dans vos dossiers sensibles…

Il existe plusieurs solutions pour bloquer les moteurs de recherche, je vous propose de les découvrir ci-dessous :

Bloquer l’indexation via htaccess

Htaccess et mot de passe

Beaucoup de personnes connaissent le htaccess, mais nettement moins utilisent la protection via mot de passe pour empêcher l’indexation de leurs sites. Pourtant, il s’agit de l’arme ultime pour protéger votre site contre les spiders des moteurs de recherche. En effet, les robots sont dans l’incapacité de réaliser une connexion, cela garantit une protection parfaite de vos contenus de tous les regards extérieurs.

Comment mettre en place une protection htaccess / htpasswd ?

Rien de plus simple, il suffit de renseigner les quelques lignes suivantes dans votre fichier htaccess :

AuthUserFile /var/www/vhosts/mon-site.com/httpdocs/.htpasswd
AuthName "Zone protégée par mot de passe"
AuthType Basic

<limit GET POST>
require valid-user
</limit>

Puis de créer un fichier htpasswd :

max:fMdcvpgH757U62

Du côté du htaccess, cela permet dans un premier temps, de renseigner le chemin de votre htpasswd contenant vos identifiants de connexion. Dans un deuxième temps, le message présent dans l’encart de connexion et enfin, le type de protection (ici, nous mettons en place une protection basic par identifiant et mot de passe).

Au niveau du htpasswd, il faut renseigner un identifiant et un mot de passe par ligne (mot de passe en clair ou crypté). Pour ma part, j’utilise cet outil pour le cryptage : https://shop.alterlinks.com/htpasswd/passwd.php (il s’agit d’un outil en ligne, soyez prudent. N’utilisez pas vos mots de passe courants !)

Il existe différentes instructions permettant un niveau plus ou moins élevé de sécurité à l’instar du ‘valid-user’. L’objectif de cet article n’est pas de vous faire un long récit sur les fonctionnalités du htaccess, mais de vous présenter une solution simple et efficace contre l’indexation de votre site internet. Je vous invite donc à consulter cet article si vous souhaitez plus d’informations : http://www.commentcamarche.net/contents/7-apache-les-fichiers-htaccess#proteger-un-repertoire-par-un-mot-de-passe

N.B: il s’agit de la protection que je vous recommande si vous souhaitez éviter tout problème !

Bloquer l’indexation via le robots.txt

Beaucoup plus répandue, cela consiste à créer un fichier robots.txt à la racine du site internet et de renseigner directement le ou les chemins vous ne souhaitez pas voir indexer par tel ou tel moteur de recherche. Vous trouverez trois exemples ci-dessous. Le premier consiste à bloquer l’accès à tout le site pour l’ensemble des moteurs de recherche. Dans le deuxième, nous bloquons l’accès au site uniquement aux robots de Google. Enfin, dans le dernier, nous empêchons l’accès d’un répertoire à tous les moteurs de recherche.

Exemple 1 :

User-agent: *
Disallow: /

Exemple 2 :

User-Agent: Googlebot
Disallow: /

User-Agent: Googlebot-Mobile
Disallow: /


User-Agent: Googlebot-Image
Disallow: /

Exemple 3 :

User-Agent:  *
Disallow: /mon-repertoire/

Empêcher l’indexation via la meta robots

La balise méta robots est une balise présente entre les balises <head> </head> de chaque page du site internet. Pour empêcher l’indexation, il vous faut notifier cette balise de la manière suivante :

<head>
<meta name="robots" content="noindex,nofollow"/>
</head>

Ainsi, vous bloquez l’accès aux différents moteurs de recherche.

Vous pouvez également remplacer la valeur name pour cibler uniquement un moteur de recherche à l’instar de Google comme vous pourrez le constater ci-dessous.

<head>
<meta name="googlebot" content="noindex,nofollow"/>
</head>

En découvrir davantage sur le référencement naturel ?

10 pièges à éviter en matière de référencement naturel : Lire cet article
Le pogosticking est-il un critère pour le référencement naturel ? : Consulter cet article

 

5 commentaires sur “Comment empêcher l’indexation d’un site internet ?”

Vous pouvez laisser une réponse ou un Trackback sur cet article.
  1. L’article est bien expliqué en revanche j’ai eu quelques difficultés à trouver le chemin d’accès jusqu’au .htaccess sur mon serveur mutualisé.
    Merci

  2. Bonjour Maxime
    Je me lance dans la construction d’un site wordpress et je voudrais savoir quel code installer dans htaccess de wordpress seo pour empêcher l’indexation du site le temps de faire le site.
    Voilà ci-dessous le code affiché actuellement dans le fichier htaccess, à quel endroit de ce fichier faut-il placer le code :
    Merci, à bientôt
    # BEGIN WordPress

    RewriteEngine On
    RewriteBase /
    RewriteRule ^index\.php$ – [L]
    RewriteCond %{REQUEST_FILENAME} !-f
    RewriteCond %{REQUEST_FILENAME} !-d
    RewriteRule . /index.php [L]

    • Bonjour,

      Deux options s’offrent à vous pour bloquer l’accès au robots des moteurs de recherche sur votre site WordPress. La première consiste à vous rendre dans votre espace d’administration dans l’onglet Réglages > Lecture > Visibilité pour les moteurs de recherche et de cocher la case présente. Automatiquement, la balise

       ‹meta name="robots" content="noindex,nofollow" /› 

      sera présente sur toutes les pages de votre site WordPress.
      L’autre option consiste à mettre un htaccess / htpassword. Êtes-vous suffisamment à l’aise avec le htaccess pour tenter cette manipulation ?
      Sinon la première me parait la plus appropriée.

      Cordialement

  3. Bonjour Maxime,

    J’ai un gros soucis avec un site qui est sorti de terre en juin 2016 donc récent !
    Ce site a indexé avec son robot tous mon site : « Poivré Seb » (un blog de recettes de cuisine) en prenant tous mes articles y compris ceux qui n’ont pas forcément rapport avec la cuisine. Il n’a demandé aucune autorisation pour faire cela … Aucun contact vis à vis de moi. Je veux bloquer son indexation, je connais son adresse IP et j’ai les cordonnées de son indexation. Puis je le faire depuis la partie réglage de mon site WordPress ? ou il vaudrait mieux le faire depuis le fichier .htaccess ?

    Merci pour cet article utile et votre future réponse !

    Sébastien

Laisser un commentaire

Votre e-mail ne sera pas publié.