Les expressions régulières (ou regex) sont des outils permettant d’analyser, de filtrer et de modifier du texte. En SEO, elles sont particulièrement utiles pour auditer un site, configurer la Google Search Console et optimiser le crawl.
Voici un guide pratique pour bien les utiliser.
Les regex sont un atout puissant notamment en SEO technique. Elles permettent d’identifier rapidement des motifs dans des URLs, des logs serveur ou encore des fichiers comme robots.txt.
En maîtrisant quelques bases, vous pouvez véritablement gagner un temps fou dans vos analyses.
Il existe plusieurs bonnes raisons d’utiliser les regex en référencement naturel :
Avant de plonger dans les regex comme un hacker chevronné, voici quelques bases essentielles :
Nous vous avons listé ici les principales regex pouvant vous être utiles. Attention les yeux, ça risque de piquer un peu… 🙈
^(https://www\.mon-site\.com/)(blog|produits)/
➡ Capture toutes les pages situées dans "blog" ou "produits".
\?.*
➡ Capture toutes les URLs contenant un "?", souvent synonyme de paramètres superflus.
^(https?://)?(www\.)?mon-site\.com
➡ Capture les URLs avec ou sans "www" et HTTP/HTTPS.
"GET (.*) HTTP.*" 404
➡ Trouve toutes les URLs ayant retourné une erreur 404.
Disallow: /*?*
➡ Bloque toutes les pages contenant des paramètres dans l’URL.
Un jour, un SEO a voulu exclure une section de son site et a tapé dans son robots.txt :
Disallow: /.*
Résultat ? Son site entier s’est retrouvé bloqué pour Google.
✅ Solution :
Toujours tester ses regex et être plus précis :
Disallow: /recherche\?q=*
➡ Ne bloque que les pages contenant des paramètres de recherche.
Certains caractères ont une signification spéciale en regex et doivent être échappés avec \.
www.mon-site.com/page(1|2|3)
🔴 Cette regex risque de ne pas fonctionner.
✅ Solution :
www\.mon-site\.com/page(1|2|3)
^https://www\.mon-site\.com/.*
➡ Capture toutes les pages, y compris / !
✅ Solution :
^https://www\.mon-site\.com/.+
➡ Capture uniquement les pages avec un chemin après /.
Une regex classique :
^https://www.mon-site.com/Produits/
❌ Ne capture pas /produits/.
✅ Solution :
Ajouter une regex insensible à la casse :
^https://www\.mon-site\.com/[Pp]roduits/
Quand on parle de filtrer des URLs ou d’analyser des logs en SEO, plusieurs méthodes existent. Les regex sont ultra-puissantes, mais elles ne sont pas les seules options.
Les wildcards sont souvent utilisées dans des fichiers comme robots.txt ou dans certains outils SEO, mais elles sont bien plus limitées que les regex.
bash
CopierModifier
Disallow: /blog/*
➡ Cela bloque toutes les pages sous /blog/, qu’il y ait ou non des sous-dossiers.
bash
CopierModifier
^https://www\.mon-site\.com/blog/.*
➡ Même résultat, mais avec plus de flexibilité, car on pourrait affiner davantage (ex : exclure certaines pages tout en bloquant d’autres).
🚨 Limite : Impossible de faire des recherches avancées comme exclure certaines parties du site ou repérer des URLs spécifiques.
Certains outils comme Google Search Console, Screaming Frog ou Google Analytics proposent des filtres avancés qui ressemblent aux regex, mais qui sont en réalité des expressions conditionnelles.
🚨 Limite : Moins flexible que les regex. Impossible de faire des règles avancées avec des groupes de capture ou des exclusions complexes.
Les regex sont un outil puissant pour optimiser votre SEO technique, mais leur utilisation demande de la précision. En maîtrisant les bases, vous gagnerez du temps et éviterez les erreurs courantes. 😉