Les expressions régulières sont extrêmement puissantes, et souvent utilisées dans pas mal de tâches informatiques, notamment de traitement automatique des langues. Cependant, la nature complexe des phénomènes à traiter entraîne souvent des expressions qui sont des soupes de symboles, difficiles à comprendre et à modifier.
Problématique
Dans le cadre d’un des mes projets de recherche, j’ai récemment eu à écrire une expressions régulière très longue, dont la première particularité est d’avoir des classes de caractères assez longues. Exit donc [a-zA-z]. Et puisqu’il fallait des groupes de caractères plus précis que l’alphabet entier, l’utilisation de la classe unicode \p{Bopomofo} n’était pas possible.