séquence 209_4

2. Structure d'une grammaire

Une grammaire à structure de phrase G permet de caractériser un langage L(G), qui est un ensemble de phrases (ou mots), appelé le langage engendré par la grammaire. Une telle grammaire ressemble à une définition rationnelle, en plus riche, plus expressif. Elle repose sur :

La connaissance d'un vocabulaire terminal (noté V_T) dont chaque élément est appelé symbole terminal. Ce vocabulaire correspond à l'alphabet pour les langages rationnels et les symboles terminaux aux symboles de l'alphabet. Nous avons donc L(G) ⊆ V_T*. Dans ce cours, nous ne considérerons que les vocabulaires terminaux composés de symboles (lettres, chiffres, caractères spéciaux comme '+', '-', ';'...). En compilation, ce vocabulaire est un ensemble d'unités lexicales (identificateurs réservé ou non, paramètres, nom, opérateurs...).
La connaissance d'un vocabulaire non terminal (noté V_N) dont chaque élément est appelé symbole non terminal. Les symboles non terminaux peuvent être vus comme les nouveaux symboles des définitions rationnelles (utilisés comme membres gauches des règles). Ils ont toutefois un rôle un peu plus large. Ils n'appartiennent pas au vocabulaire de base (terminaux) et sont destinés à être éliminés, remplacés pour former les mots du langage.
Des règles permettant de déterminer quelles séquences de V_T* sont légales. Ces règles ressemblent à celles des définitions rationnelles mais sont plus souples et plus générales.

Grammaire

Une grammaire formelle, appelée aussi grammaire de Chomsky, G est une description de la forme des symboles et des phrases d'un langage noté L(G). Elle est définie par un quadruplet G = (V_T, V_N, S, R) où :

V_T est un ensemble fini non vide : le vocabulaire terminal ou alphabet ;
L(G) ⊆ V_T*
V_N est un ensemble fini non vide : le vocabulaire non terminal (on parle aussi de variable ou de catégorie syntaxique) ; On a V_T ∩ V_N = ∅ et on note V=V_T ∪ V_N le vocabulaire de la grammaire ;
S ∈ V_N est un symbole non terminal particulier appelé l'axiome ;
R est un ensemble de règles, appelées règles de production (ou règles de réécriture), de la forme α → β avec α ∈ V⁺ et β ∈ V*.

Une règle de production α → β se lit "α peut être remplacé par β". α est appelé "partie gauche" et β "partie droite" de la règle. On peut également écrire des règles de la forme α → β₁ | β₂ | ... | β_n avec n ≥ 1 et pour tout 1 ≤ i ≤ n, β_i ∈ V* pour abréger n règles ayant α en partie gauche, de la forme α → β_i .

Quelques exemples de grammaires :

G₀=({0, 1}, {S, X}, S, R) avec R :
- R1 : S → 0X1
- R2 : 0X → 00X1
- R3 : X → ε
G₁=({0, 1}, {S, X}, S, R) avec :
- R = {S → 0X1 ; 0X → 00X1 ; 0X → 001}
- ou R = {S → 0X1 ; 0X → 00X1 | 001} (équivalent)
G₂=({0, 1}, {S}, S, R) avec :
- R = {S → 0S1 | 01}
G₃=({0, 1}, {S, X}, S, R) avec :
- R = {S → 0S | OX ; X → 1X | 1}

Intuitivement, la grammaire G₀ définit le langage L(G₀)={0ⁿ1ⁿ | n ≥ 1} sur le vocabulaire terminal (ou alphabet) A={0,1}. En effet, de façon informelle :

Appliquer une règle va consister à remplacer dans un mot une occurrence du membre gauche de la règle par le membre droit correspondant. Sur l'exemple, à partir de 0X1, on peut obtenir 00X11 en appliquant R2 (le lieu du remplacement étant signalé par les lettres en orange et la nouvelle chaîne est soulignée), ce que l'on peut noter :
0X1 =R2⇒ 00X11.
On considérera l'ensemble des mots que l'on peut atteindre en prenant l'axiome S comme mot de départ et en appliquant les règles un nombre fini de fois. Sur l'exemple, on peut ainsi atteindre (entre autres) les mots "0X1" (par S =R1⇒ 0X1), "00X11" (par S =R1⇒ 0X1=R2⇒ 00X11) et "01" (par S=R1⇒0X1=R3⇒01); remarquons que l'on peut également atteindre S, par l'application successive de 0 règles. Les mots ainsi accessibles sont appelés "formes sententielles" et les suites d'applications de règles, "dérivations".
Les mots du langage caractérisé par la grammaire sont les mots accessibles (au sens du point précédent) qui ne sont composés que de symboles terminaux. Sur l'exemple, parmi les mots de L(G₀), il y a "01" (S=R1⇒0X1=R3⇒01), mais aussi "0011" (S=R1⇒0X1=R2⇒ 00X11=R3⇒0011), et "000111" ...

On démontrera rigoureusement plus loin que L(G₀) est exactement {aⁿbⁿ | n ≥ 1}. Auparavant, nous donnons les définitions rigoureuses correspondant aux idées que nous venons de présenter intuitivement.

Formes sententielles et langage d'une grammaire

Soit G = (V_T,V_N, S, R) une grammaire et V=V_T∪ V_N, alors :

l'ensemble des formes sententielles (ou proto-phrases) de G est défini récursivement par :
- L'axiome "S" est une forme sententielle de G.
- Pour tous v, x, y, z ∈ V*, si "xyz" est une forme sententielle de G et si y → v ∈ R, alors "xvz" est une forme sententielle de G.
Le langage engendré par G est L(G)={x ∈ V* | x est une forme sententielle de G et x ∈ V_T*}.

Une forme sententielle est donc un mot sur V. Les formes sententielles ne contenant aucun symbole non terminal sont donc les phrases de L(G). Par ailleurs, la définition par induction des formes sententielles est la base de la notion d'application de règles que nous avons évoquée ci-dessus. Nous précisons ce point dans la section suivante.

mardi, 25/11/03 16:34