En informatique, une expression régulière ou expression rationnelle ou expression normale ou motif, est une chaîne de caractères, qui décrit, selon une syntaxe précise, un ensemble de chaînes de caractères possibles. Les expressions régulières sont également appelées regex (de l'anglais regular expression). Elles sont issues des théories mathématiques des langages formels. Les expressions régulières sont aujourd’hui utilisées pour la lecture, le contrôle, la modification, et l'analyse de textes ainsi que la manipulation des langues formelles que sont les langages informatiques.
L'exemple d'expression régulière suivant permet de valider qu'une chaîne de caractère correspond à la syntaxe d'un nombre entier non signé, c'est à dire une suite non vide de chiffres :
[0-9]+
En détails :
- Les crochets spécifient l'ensemble des caractères auquel doit appartenir le caractère courant de la chaîne. Dans cet exemple, l'ensemble est celui des chiffres de 0 à 9 inclus.
- Le caractère plus indique de répéter le motif précédent au moins une fois (suite non vide).
MySQL utilise l'opérateur REGEXP ou RLIKE pour la validation d'une chaîne de caractères :
SELECT '123' REGEXP '^[0-9]+$'; -- 1
Les expressions rationnelles peuvent être analysées et testées via un débogueur en ligne comme https://regex101.com/.
Caractère | Type | Explication |
---|---|---|
. | Point | n'importe quel caractère |
[...] | crochets | classe de caractères : tous les caractères énumérés dans la classe, avec possibilité de plages dont les bornes sont séparées par "-". Ex : [0-9a-z] pour tout l'alphanumérique en minuscule, ou [0-Z] pour tous les caractères de la table Unicode entre "0" et "Z", c'est-à-dire l'alphanumérique majuscule plus ":;<=>?@"[1]. |
[^...] | crochets et circonflexe | classe complémentée : tous les caractères sauf ceux énumérés. |
^ | circonflexe | marque le début de la chaine, la ligne... |
$ | dollar | marque la fin d'une chaine, ligne... |
| | barre verticale | alternative - ou reconnaît l'un ou l'autre |
(...) | parenthèses | groupe de capture : utilisée pour limiter la portée d'un masque ou de l'alternative |
* | astérisque | 0, 1 ou plusieurs occurrences |
+ | le plus | 1 ou plusieurs occurrences |
? | interrogation | 0 ou 1 occurrence |
{...} | accolades | comptage : détermine un nombre de caractères remplissant les critères qu'il suit. Ex : a{2} deux occurrences de "a", a{1,10} (sans espace) entre une et dix. |
(?P<nom>pattern) | named subpattern | nomme le résultat d'un groupe de capture par un nom. |
Remarques :
- Les caractères de débuts et fin de chaines (
^
et$
) ne fonctionnent pas dans[]
où ils ont un autre rôle. - Les opérateurs
*
et+
sont toujours avides, pour qu'ils laissent la priorité il faut leur apposer un?
à leur suite[2].
Classe | Signification |
---|---|
[[:alpha:]] | n'importe quelle lettre |
[[:digit:]] | n'importe quel chiffre |
[[:xdigit:]] | caractères hexadécimaux |
[[:alnum:]] | n'importe quelle lettre ou chiffre |
[[:space:]] | n'importe quel espace blanc |
[[:punct:]] | n'importe quel signe de ponctuation |
[[:lower:]] | n'importe quelle lettre en minuscule |
[[:upper:]] | n'importe quelle lettre capitale |
[[:blank:]] | espace ou tabulation |
[[:graph:]] | caractères affichables et imprimables |
[[:cntrl:]] | caractères d'échappement |
[[:print:]] | caractères imprimables exceptés ceux de contrôle |
Expression | Signification |
---|---|
\A | Début de chaine |
\b | Caractère de début ou fin de mot |
\d | Chiffre |
\D | Non chiffre |
\n | Fin de ligne |
\\pL, \p{L}, \p{Letter} | Lettre (dans tout langage) |
\s | Caractères espace |
\S | Non caractères espace |
\t | Tabulation |
\w | Caractère alphanumérique : lettre, chiffre ou underscore |
\W | Caractère qui n'est pas lettre, chiffre ou underscore |
\X | Caractère Unicode |
\z | Fin de chaine |
Constructeurs spéciaux : Ces fonctions précèdent l'expression à laquelle elles s'appliquent, et le tout doit être placé entre parenthèses.
?:
: groupe non capturant. Ignorer le groupe de capture lors de la numérotation des backreferences. Exemple :((?:sous-chaine_non_renvoyée|autre).*)
.?>
: groupe non capturant indépendant.?<=
: positive lookbehind.?<!
: negative lookbehind.?=
: positive lookahead.?!
: negative lookahead. Exclusion d'une chaine. Il faut toujours la faire suivre d'un point. Exemples :
Introduction
En MySQL 5.1, les expressions régulières fonctionnent sur des textes en octets et peuvent donc donner des résultats inattendus avec des textes en Unicode[7].
MySQL propose plusieurs opérateurs et fonctions pour le regex[8]. toutefois, c'est assez limité car en MySQL 8.0 il n'existe toujours pas de groupe de capture.
REGEXP
Syntaxe
SELECT 'string' REGEXP 'pattern'
RLIKE
est synonyme de REGEXP
.
L'antislash fait office de caractère d'échappement.
Exemples
- Est-ce que la sélection est différente des lettres de A à Z :
SELECT 'a' REGEXP '^[a-z]'; -- 1
SELECT 'A' REGEXP '^[a-z]'; -- 1
SELECT '1' REGEXP '^[a-z]'; -- 0
SELECT 'é' REGEXP '^[a-z]'; -- 0
- Sélectionner les pages de wiki qui matchent un pattern :
USE frwiki_p;
SELECT p.page_title
FROM page p
JOIN page_props pp ON p.page_id = pp.pp_page
WHERE p.page_namespace = 0 AND pp.pp_page REGEXP '\n *titre *='
REGEXP_REPLACE
Fonctionne comme la fonction REPLACE() mais avec du regex. Exemple pour retirer les caractères spéciaux d'une chaine :
select REGEXP_REPLACE('hello+$ù^:world', '[^a-z]', '');
-- helloworld
REGEXP_SUBSTR
Extrait une sous-chaine (substring). Ex :
SELECT REGEXP_REPLACE(REGEXP_REPLACE('<html><title>Page 1</title>...</html>', '.*<title>', ''), '</title>.*', '');
-- Page 1
Références
- ↑ https://unicode-table.com/fr/
- ↑ https://docstore.mik.ua/orelly/webprog/pcook/ch13_05.htm
- ↑ https://www.regular-expressions.info/posixbrackets.html
- ↑ http://www.regular-expressions.info/unicode.html
- ↑ https://www.regextester.com/15
- ↑ Jan Goyvaerts, Steven Levithan, Regular Expressions Cookbook, O'Reilly Media, Inc., (lire en ligne)
- ↑ Pour se familiariser avec Unicode, on peut lire À la découverte d'Unicode
- ↑ https://dev.mysql.com/doc/refman/8.0/en/regexp.html