séquence 209_6

3. Construction d'un AFN à partir d'une expression rationnelle

Du fait de l'équivalence entre langages reconaissables et langages rationnels, des méthodes permettant de passer d'une expression rationnelle à un AFN ont été mises au point.

Remarque : un intérêt de cette conversion est la possibilité de mettre en place des traitements de validation de suites de symboles ou d'évènements dans des langages ne gérant pas les expressions rationnelles ou lorsque les traitements associés ne sont pas facilement descriptibles ou pas très performants dans ces langages.

3.1. Méthode de Thompson

Il existe de nombreuses stratégies pour construire de façon automatique un automate fini à partir d'une expression rationnelle [Watson93a] (cette référence présente de manière formelle différents algorithmes dont celui de Thompson). L'algorithme présenté ici est l'algorithme de construction de Thompson [Thompson68]. Plusieurs variantes sont possibles. Celle présentée ici est simple et surtout facile à implanter (ce qui n'est pas le cas de toutes les méthodes).

L'algorithme est dirigé par la syntaxe, c'est-à-dire qu'il utilise la structure syntaxique de l'expression rationnelle pour guider le processus de construction. Il est récursif sur l'arbre syntaxique de l'expression rationnelle. A partir d'une expression r sur un alphabet A, on cherche à construire un AFN T(r) qui reconnaît L(r) (le langage reconnu par r).

Si l'expression est réduite à un symbole s alors on construit l'automate :

{A, {i,f}, {i}, {f}, {μ(ε,i)=f}} pour ε. Cet automate reconnaît alors le langage {ε}.
{A, {i,f}, {i}, {f}, {μ(a,i)=f}} pour tout symbole a ∈ A. Cet automate reconnaît alors le langage {s}.

Si l'expression n'est pas un symbole, il faut alors la décomposer selon l'opérateur utilisé puis construire les automates T(r₁)=T₁={A, Q₁, I₁={i₁}, F₁={f₁}, μ₁} et T(r₂)=T₂={A, Q₂, I₂={i₂}, F₂={f₂}, μ₂} associés aux opérandes r₁ et r₂. Enfin, selon le type d'expression :

r₁|r₂ : on construit l'automate T(r₁|r₂) = {A, Q₁∪Q₂∪ {i,f}, {i}, {f}, μ₁ ∪ μ₂ ∪ {μ(ε,i)=i₁; μ(ε,i)=i₂; μ(ε,f₁)=f; μ(ε,f₂)=f}}
où i est un nouvel état de départ et f un nouvel état d'acceptation. Il y a une ε-transition depuis i vers les états de départ de T(r₁) et T(r₂) et depuis les états finaux de T(r₁) et T(r₂) vers f. Les états de départ et d'acceptation de T(r₁) et T(r₂) sont des états de transition pour T(r₁|r₂). Tout chemin depuis i vers f doit traverser soit T(r₁) soit T(r₂) exclusivement donc l'automate composé reconnaît L(r₁) ∪ L(r₂).
r₁r₂ : on construit l'automate T(r₁r₂) = {A, Q₁∪Q₂ ∪ {i,f}, {i}, {f}, μ₁ ∪ μ₂ ∪ {μ(ε,i)=i₁; μ(ε,f₁)=i₂; μ(ε,f₂)=f}} = {A, Q₁∪Q₂, {i₁}, {f₂}, μ₁ ∪ μ₂ ∪ {μ(ε,f₁)=i₂}} (il est aussi possible de fusionner f₁ et i₂)
où l'état de départ de T(r₁) devient celui de T(r₁r₂) et l'état d'arrivée de T(r₂) devient celui de T(r₁r₂). L'état d'acceptation de T(r₁) et celui de départ de T(r₂) (états de transition) peuvent être fusionnés. Un chemin depuis i₁ vers f₂ doit d'abord traverser T(r₁) puis T(r₂) sans retour en arrière possible. Donc, T(r₁r₂) reconnaît le langage L(r₁)L(r₂).
r₁* : on construit l'automate T(r₁*) = {A, Q₁ ∪ {i,f}, {i}, {f}, μ₁ ∪ {μ(ε,i)=i₁; μ(ε,i)=f; μ(ε,f₁)=i₁; μ(ε,f₁)=f}}
où i est un nouvel état de départ et f un nouvel état d'acceptation. On peut aller soit directement de i à f en suivant une ε-transition qui représente le fait que ε ∈ L(r₁*) soit aller de i à f en traversant T(r₁) une ou plusieurs fois. Cet automate reconnaît le langage L(r₁*).
(r₁) : on construit l'automate T((r₁)) = T(r₁).

Chaque fois que l'on construit un nouvel état, on lui donne un nom distinct pour qu'il n'y ait pas deux états de même nom. Même si un symbole apparaît plusieurs fois dans l'expression rationnelle, on crée pour chaque symbole un AFN séparé avec ses propres états. Chaque étape de la construction produit un AFN qui reconnaît le langage correct.

L'AFN ainsi produit possède les propriétés suivantes :

il possède au plus deux fois plus d'états qu'il n'y a de symboles et d'opérateurs dans l'expression (i.e. |Q| ≤ 2(n+m) où n est le nombre de symboles et m le nombre d'opérateurs) ;
il a exactement un état de départ et un état d'acceptation. On peut même aller plus loin, il est normalisé.
Chaque état de l'automate a soit une transition sortante sur un symbole de A soit au plus deux ε-transitions sortantes.
Il n'y a pas de boucles d'ε-transitions. Il n'est pas possible de revenir sur un état en suivant uniquement des ε-transitions.

Appliquons de cet algorithme sur l'expression régulière (a² | b*a⁺)*. Tout d'abord, il faut construire l'arbre syntaxique associé à cette expression (attention, plusieurs arbres sont souvent possibles) :

Ensuite, il suffit d'appliquer les règles de Thompson en partant des feuilles. Donc, il faut d'abord construire r4, r5, r8, r9 et r11.

Remarque : il n'est pas toujours nécessaire d'étiqueter (numéroter) les états. Dans ce type d'algorithme, il n'est pas utile de les repérer (pas nécessaire de les identifier).

Ensuite, il faut construire r2, r6 et r10 :

Puis, on construit r7 :

Puis, c'est le tour de r3 :

Ensuite, c'est r1 :

Pour terminer, r permet de construire l'automate suivant :

Ouf !

Sur l'expression (a|b)*abb, Thompson permet d'obtenir l'automate suivant :

Ici, le produit est effectué par fusion de l'état final du premier avec l'état initial du second.

Remarque : il est possible de construire directement un AFD à partir d'une expression régulière dite "étendue", c'est-à-dire à laquelle on ajoute en fin le caractère #. Nous n'aborderons pas cette méthode ici (voir [ASU91], pp.159-165).

3.2. Méthode de Glushkov

Bien évidemment, l'algorithme de Thompson n'est pas le seul possible. Il en existe de nombreux dont celui de Glushkov. Cette algorithme est intéressant, car il construit un automate ε-libre et homogène.

Le principe de cette méthode est le suivant : si tous les symboles de l'expression sont différents alors il est possible d'associer un état à chaque symbole et une transition est présente entre deux états si les deux symboles associés se suivent dans un mot du langage.

Plus précisément, cette méthode se divise en 4 étapes :

numéroter de 1 à n les symboles de l'alphabet présents dans l'expression (un symbole présent plusieurs fois sera numéroté autant de fois) ;
créer un état par numéro, l'état initial 0 et rendre final tout état dont le symbole associé peut terminer un mot du langage (0 est final si ε est un mot de ce langage) ;
créer une transition μ(j,i)=j s'il existe le facteur x_ix_j dans un mot du langage et μ(j,0)=j si le symbole associé à l'état j peut commencer un mot ;
remplacer les numéros des transitions par le symbole correspondant dans l'expression.

Pour l'étape 1, si un symbole représente une classe de symboles alors on peut se contenter de ce symbole mais en phase 4 il faudra créer autant de transitions qu'il y a de symboles de l'alphabet dans la classe.

Il faut noter aussi que l'expression ne doit pas contenir ε afin de ne pas générer un automate avec des ε-transitions.

Reprenons notre exemple habituel, l'expression (a²| b*a⁺)*. On passe alors par les étapes suivantes :

(a₁a₂|b₃*a₄+)*
(pour alléger l'automate, une couleur est associée à chaque numéro)

De cet exemple, on déduit que l'automate produit à de grandes chances de ne pas être déterministe.

3.3. Autres méthodes

Du théorème de Kleene et de ses conséquences, nous en déduisons facilement une méthode manuelle pour construire un AFN à partir d'une expression rationnelle. Il suffit de décomposer l'expression comme une suite d'opérations (produit, union et étoile) sur des langages typiques ou réduits à un mot voire à un symbole. Puis on construit les automates finis correspondant à ces langages "élémentaires" ( Cf. la démonstration du lemme du langage réduit à un mot). On applique ensuite les opérateurs sur ces automates (Cf. démonstrations des théorèmes du produit cartésien, de la mise à l'étoile et de l'union).

Remarque : la décomposition peut être arrêtée dès que l'on voit apparaître une expression dont l'automate est "classique" (a*, a⁺, a?, a|b...).

Par exemple, étudions le langage décrit par (a²| b*a⁺)*.

Les automates reconnaissant r₁=a², r₂=b* et r₃=a⁺ sont faciles à obtenir :

Ensuite, on construit l'automate produit reconnaissant r₄=r₂r₃ :

Ensuite, nous obtenons r₀ par l'union de r₁ avec r₄ :

	a	b
1,4∈ I	2,6	0,4
2,6 ∈ F	3,6	0,0
0,4	0,6	0,4
3,6 ∈ F	0,6	0,0
0,6 ∈ F	0,6	0,0

D'où :

En minimisant (ou en réfléchissant dès le départ car a² ⊂ b*a⁺ !) on obtient r₀=r₄ !

Enfin, r = r₄* donne l'automate homogène suivant :

3.4. Suite d'expressions rationnelles

Nous venons de présenter des méthodes permettant de passer d'une expression rationnelle décrivant un langage à un automate fini (déterministe minimal) le reconnaissant. Cependant, il est souvent plus facile de définir un langage à l'aide d'un ensemble d'expressions plutôt qu'avec une seule et unique expression. Pour cela, il est possible de donner un ensemble de définitions rationnelles. Le langage décrit est alors l'union des langages définis par chacune des définitions.

Par exemple, supposons un langage L composé d'identificateurs et d'entiers, il y aura alors les deux définitions rationnelles (elles-mêmes basées sur deux classes de symboles) suivantes :

Nous allons maintenant présenter une méthode pour regrouper les différents automates associés à chacune des définitions.

Soit une suite de définitions rationnelles de la forme :

A₁ → R₁ ;
A₂ → R₂ ;
...
A_n → R_n.

La génération pour cet ensemble d'expressions rationnelles passera par les étapes suivantes (en figures l'application sur L) :

La production des AFNs M_i=(A_i, Q_i, I_i, F_i, μ_i) pour les expressions rationnelles R_i (algorithme de Thompson par exemple) avec des ensembles Q_i disjoints.
La construction de l'AFN M=(A, Q, I, F, μ), union des M_i. Cet AFN est donc obtenu par la mise en commun des différents AFNs.
L'application de l'algorithme par construction des sous-ensembles sur M permettant de le rendre déterministe. On obtient M'=AFN2AFD(M).
L'application de l'algorithme de minimisation sur M'.

Exercices et tests :

Exercice 3.1. Donner les automates finis reconnaissant les langages définis par les expressions rationnelles suivantes sur {a,b,c} selon les trois méthodes vues dans cette section (méthode intuitive, de Thompson et de Glushkov) :

a+
ab|c
a(b|c)*

Exercice 3.2. Donner l'automate fini optimal reconnaissant le langage défini par l'expression rationnelle suivante sur {a,b} : (ab*)|(ab)*

mardi, 25/11/03 17:02