Générateur de robots.txt
⚡ Presets rapides
Appliquez une configuration pré-configurée en 1 clic :
⚙️ Configuration
🔧 User-agents
📄 Résultat — robots.txt
Qu'est-ce que le robots.txt ?
Le fichier robots.txt est un fichier texte placé à la racine de votre site web qui indique aux robots d'indexation (crawlers) quelles pages ils sont autorisés ou non à explorer. Il fait partie du protocole Robots Exclusion Standard.
Il est lu par les moteurs de recherche comme Google, Bing, ou des crawlers tiers avant qu'ils ne commencent à explorer votre site.
Les directives principales
Un fichier robots.txt est composé de blocs User-agent + règles. Voici les directives disponibles :
- User-agent : le robot ciblé (
*= tous les robots) - Disallow : chemin interdit au crawl (ex:
/admin/) - Allow : chemin explicitement autorisé (override d'un Disallow)
- Sitemap : URL vers votre sitemap XML (recommandé)
- Crawl-delay : délai entre deux requêtes en secondes
- Request-rate : limite de requêtes par unité de temps
User-agent: * s'applique à tous les robots, sauf si une règle plus spécifique est définie pour un robot particulier.
User-agent: *
Disallow: /admin/
Allow: /public/
Crawl-delay: 1
User-agent: Googlebot
Disallow: /private/
Sitemap: https://exemple.com/sitemap.xml
Structure et syntaxe du robots.txt
Le format du robots.txt suit une structure simple et stricte :
Règles syntaxiques importantes
- Sensibilité à la casse : Les chemins sont sensibles à la casse (
/Admin/≠/admin/) - Un paramètre par ligne : Chaque directive doit être sur sa propre ligne
- Format clé-valeur :
Directive: valeur(avec deux points et espace) - Wildcard * : Représente n'importe quelle séquence de caractères
- Dollar ($) : Marque la fin d'une chaîne (ex:
/*.php$)
Disallow: /*.php$→ bloque tous les fichiers PHPDisallow: /*?*→ bloque les URLs avec paramètresDisallow: /user/*/profile→ bloque les profils utilisateurs
Bonnes pratiques SEO et recommandations
📌 Recommandations essentielles
- ✅ Inclure le Sitemap : Toujours indiquer l'URL de votre
sitemap.xmlpour faciliter la découverte de pages - ✅ Protéger les zones sensibles : Bloquez
/admin/,/tmp/,/private/,/test/ - ✅ Ne pas bloquer les ressources : CSS et JS doivent être accessibles — Google les analyse pour le rendu
- ✅ Éviter de bloquer les images : Les images contribuent au SEO, laissez les bots les crawler
- ✅ Tester avant de déployer : Utilisez Google Search Console pour valider votre robots.txt
- ✅ Utiliser des chemins spécifiques : Bloquez les dossiers précis, pas les ressources critiques
🚀 Optimisation pour les moteurs de recherche
Un robots.txt bien configuré améliore votre SEO en :
- Économisant le budget crawl : Les moteurs de recherche ont un budget limité. Ne les faites pas crawler les pages inutiles.
- Ciblant les bots : Vous pouvez avoir des règles différentes pour Googlebot, Bingbot, etc.
- Indiquant la priorité : Le sitemap aide à indiquer quelles pages sont les plus importantes
- Améliorant l'indexation : Un robots.txt bien configuré = meilleure couverture d'indexation
⚡ Cas d'usage courants
| Cas | Action recommandée | Exemple |
|---|---|---|
| Site en développement | Bloquer tous les bots | Disallow: / |
| Site WordPress | Bloquer wp-admin et wp-includes | Disallow: /wp-admin/ |
| E-commerce | Bloquer panier et checkout | Disallow: /cart/ |
| Blog personnel | Bloquer recherche et archives | Disallow: /?s= |
https://votredomaine.com/robots.txt. Ne l'utilisez pas pour cacher des informations confidentielles — les utilisateurs malveillants peuvent le consulter directement. Utilisez .htaccess ou l'authentification pour protéger réellement le contenu.
Exemples concrets
Site WordPress standard
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://exemple.com/sitemap.xml
Bloquer un robot spécifique
User-agent: AhrefsBot
Disallow: /
User-agent: *
Disallow: /admin/
Sitemap: https://exemple.com/sitemap.xml
E-commerce (bloquer filtres et panier)
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /?s=
Sitemap: https://exemple.com/sitemap.xml
Erreurs courantes à éviter
❌ Erreur 1 : Bloquer accidentellement CSS et JS
L'une des plus grandes erreurs est de bloquer les ressources CSS et JavaScript. Les moteurs de recherche en ont besoin pour comprendre la mise en page et l'interactivité.
# ❌ MAUVAIS
Disallow: *.css
Disallow: *.js
# ✅ BON
Disallow: /admin/
# Laisser CSS et JS accessibles
❌ Erreur 2 : Oublier le Sitemap
Ne pas inclure la ligne Sitemap rend plus difficile pour les moteurs de recherche de découvrir toutes vos pages.
❌ Erreur 3 : Mauvaise compréhension de Disallow vs Allow
Beaucoup de développeurs pensent que Disallow: /page/ empêche d'indexer /page/subpage/. En réalité, c'est le cas ! Utilisez les wildcards intelligemment.
# Cela BLOQUE /page/ ET /page/subpage/ et /page/autre/
Disallow: /page/
# Cela BLOQUE uniquement /page/ mais PAS /page/subpage/
Disallow: /page$
❌ Erreur 4 : Placer robots.txt au mauvais endroit
Le fichier DOIT être à la racine : https://votresite.com/robots.txt, pas dans un sous-dossier.
❌ Erreur 5 : Trop de restrictions
Un robots.txt trop restrictif empêche Google d'explorer et d'indexer votre contenu. Demandez-vous vraiment si vous devez bloquer chaque chemin.
Comment tester votre robots.txt
🔍 Méthode 1 : Google Search Console
- Allez dans Google Search Console
- Sélectionnez votre propriété
- Allez dans Paramètres → Crawl → Fichier robots.txt
- Validez votre fichier et testez des URLs
🔍 Méthode 2 : Vérifier directement
Accédez à https://votresite.com/robots.txt et vérifiez que le contenu s'affiche correctement. Si vous voyez une erreur 404, le fichier n'est pas à la bonne place.
🔍 Méthode 3 : Outils en ligne
Conclusion
Le fichier robots.txt est un outil SEO fondamental souvent sous-estimé. En le configurant correctement, vous :
- ✅ Optimisez votre budget crawl pour les moteurs de recherche
- ✅ Protégez vos zones sensibles sans bloquer l'indexation
- ✅ Améliorez votre taux d'indexation global
- ✅ Facilitez la découverte de vos pages importantes
- ✅ Évitez les pièges d'indexation courants
Utilisez notre générateur de robots.txt ci-dessus pour créer votre fichier en quelques clics, puis testez-le avec Google Search Console avant de le publier. N'oubliez pas : un robots.txt bien fait, c'est des bases solides pour votre SEO ! 🚀