1. la première partie est une rapide présentation du $\lambda$-calcul illustrée par l'utilisation d'un module permettant de définir et transformer des $\lambda$-termes.
2. la deuxième partie reprend la partie « pouvoir d'expression du $\lambda$-calcul » en l'illustrant avec les lambda-expressions du langage Python. (CETTE PARTIE RESTE ENCORE A REDIGER)
Le [$\lambda$-calcul](https://fr.wikipedia.org/wiki/Lambda-calcul) a été introduit dans les années 1930, principalement par [Alonzo Church](https://fr.wikipedia.org/wiki/Alonzo_Church) pour des questions de fondements mathématiques, semblables à celles qui ont conduit, à la même époque, [Alan Turing](https://fr.wikipedia.org/wiki/Alan_Turing) à concevoir les [machines](https://fr.wikipedia.org/wiki/Machine_de_Turing) qui portent son nom maintenant.
Avec les machines de Turing, le $\lambda$-calcul est l'un des principaux outils permettant d'étudier l'informatique théorique. Il est en particulier le fondement de la programmation fonctionnelle, et des langages de programmation comme [Lisp](https://fr.wikipedia.org/wiki/Lisp), [Scheme](https://fr.wikipedia.org/wiki/Scheme), [ML](https://fr.wikipedia.org/wiki/ML_(langage)), [Haskell](https://fr.wikipedia.org/wiki/Haskell) lui doivent beaucoup.
## Les $\lambda$-termes
Sommaire de cette partie :
* définition des $\lambda$-termes
* variables libres, liées. Sous-termes
Le tout illustré avec une classe Python pour représenter et manipuler des $\lambda$-termes.
### Définition des $\lambda$-termes
En principe, les $\lambda$-termes sont des mots sur lesquels certaines opérations sont possibles. Ces mots ont vocation à pouvoir exprimer des fonctions, ainsi que leur application à un argument.
Si $f$ est un $\lambda$-terme, on doit pouvoir l'appliquer à un autre terme $x$, mais au lieu d'écrire $f(x)$ comme c'est l'usage en mathématiques, on écrit plutôt $(f\ x)$ et cela forme un nouveau terme nommé *application*.
Il n'y a pas de fonctions à plusieurs variables : toutes les fonctions ont une et une seule variable. Donc si on a en tête de vouloir représenter une fonction à deux variables $f(x,y)$, elle le sera par une fonction à une variable telle que $f(x)$ soit elle aussi une fonction à une variable, et au lieu d'écrire $f(x,y)$ ou même $f(x)(y)$, on écrira $((f\ x)\ y)$.
Enfin si $x$ est une variable et $M$ un terme dépendant éventuellement de $x$, on doit pouvoir définir la fonction $x\mapsto M$. Cette construction est nommée *abstraction* en $\lambda$-calcul et elle est notée $\lambda x.M$.
Formellement, l'alphabet $\Sigma$ utilisé pour les $\lambda$-termes est constitué :
* d'un ensemble infini dénombrable de variables $V=\{x, y, z, t, ...\}$ ;
* et d'un ensemble de cinq symboles $\mathcal{S}=\{\lambda, ., (, ), ESP\}$, $ESP$ désignant l'espace.
Ainsi $\Sigma = V\cup \mathcal{S}$.
Les $\lambda$-termes sont construits inductivement à l'aide des trois règles
1. toute variable est un $\lambda$-terme ;
2. si $T$ est un $\lambda$-terme et $x$ une variable, alors $\lambda x.T$ est un $\lambda$-terme, que l'on appelle *abstraction* de $T$ par $x$ ;
3. si $T$ et $S$ sont deux $\lambda$-termes, alors $(T\ S)$ est un $\lambda$-terme, que l'on appelle *application* de $T$ à $S$.
L'ensemble $\Lambda$ des $\lambda$-termes est donc le plus petit sous-ensemble de $\Sigma^*$ contenant $V$ et stable par abstraction et application.
### Une classe pour les $\lambda$-termes
Le module `lambda_calcul` définit une classe `Lambda_terme` permettant de construire et manipuler des objets représentant des $\lambda$-termes.
**Remarque :** ce module fait appel au module`sly` qui permet de définir des analyseurs lexicaux et syntaxiques. Ce module doit donc être préalablement installé (`pip install sly`).
L'une des façons les plus simples de construire des $\lambda$-termes est d'invoquer le constructeur `Lambda_terme` avec une chaîne de caractères les représentant.
La syntaxe autorisée pour les $\lambda$-termes est
1. pour les variables : n'importe quelles chaîne de caractères ne contenant que des lettres (latins) non accentuées majuscules ou minuscules, ainsi que des chiffres. Autrement dit n'importe quelle chaîne correspondant à l'expression régulière `[A-Za-z][A-Za-z0-9]*`.
2. pour les abstractions : n'importe quelle chaîne débutant par `!` ou $\lambda$ suivie d'une variable, suivie d'un point `.` suivi d'une chaîne décrivant un $\lambda$-terme. Autrement dit n'importe quelle chaîne satisfaisant `(!|λ)VAR.LAMBDA-TERME`.
3. pour les applications : n'importe quelle chaîne débutant par une parenthèse ouvrante `(` et terminant par une parenthèse fermante `)` et comprenant entre les deux la description de deux $\lambda$-termes séparés par un ou plusieurs espaces. Autrement dit n'importe quelle chaîne satisfaisant `(LAMBDA-TERME ESPACES LAMBDA-TERME)`.
**Remarque :** le parenthésage des applications est obligatoire, contrairement à la convention d'associativité à gauche qui permet usuellement d'écrire $M\ N\ P$ au lieu de $((M\ N)\ P)$.
De même deux abstractions successives doivent être explicitement écrites : il n'est pas possible d'écrire $\lambda xy.(x\ y)$, il faut écrire $\lambda x.\lambda y.(x\ y)$.
Les passages à la ligne sont autorisés dans la chaîne transmise au constructeur.
Parmi les variables figurant dans un $\lambda$-terme, certaines sont dites *libres*, et d'autres *liées*.
Les variables libres sont celles qui ne sont pas sous la portée d'une abstraction. L'ensemble $FV(T)$ des variables libres d'un $\lambda$-terme $T$ est défini inductivement par les trois règles :
1. $FV(x) = \{x\}$.
2. $FV(\lambda x.T) = FV(T)\setminus\{x\}$.
3. $FV((T_1\ T_2)) = FV(T_1)\cup FV(T_2)$.
Les variables liées sont celles qui sont sous la portée d'une abstraction. L'ensemble $BV(T)$ des variables liées d'un $\lambda$-terme $T$ est défini inductivement par les trois règles :
1. $BV(x) = \emptyset$.
2. $BV(\lambda x.T) = BV(T)\cup \{x\}$ si $x\in FV(T)$, sinon
$BV(\lambda x.T) = BV(T)$.
3. $BV((T_1\ T_2)) = BV(T_1)\cup BV(T_2)$.
La méthode `variables` donne sous un couple constitué de l'ensemble des variables libres et de l'ensemble des variables liées du $\lambda$-terme.
**Remarque :** Dans un $\lambda$-terme, une variable peut être à la fois libre et liée comme le montre l'exemple du terme `T5` qui contient deux occurrences de la variable $x$, la première étant liée et la seconde libre. Pour être plus précis, on devrait plutôt parler d'*occurrence libre* ou *liée* d'une variable.
Un $\lambda$-terme sans variable libre est appelé *terme clos*, ou encore *combinateur*.
### Sous-termes
Hormis les variables, les $\lambda$-termes sont construits à partir d'autres $\lambda$-termes qui eux-mêmes peuvent être construits à l'aide d'autres $\lambda$-termes encore.
Un $\lambda$-terme contient donc des *sous-termes*.
Voici comment l'ensemble $ST$ des sous-termes d'un $\lambda$-terme est défini inductivement selon la structure de ce terme.
1. Les variables n'ont qu'un seul sous-terme : elles-mêmes. $ST(x) = \{x\}$.
2. Les sous-termes d'une abstraction sont, outre l'abstration elle-même, les sous-termes de son corps. $ST(\lambda x.T) = \{\lambda x.T\}\cup ST(T)$.
3. Les sous-termes d'une application sont, outre l'application elle-même, les sous-termes des deux termes la composant. $ST((T_1\ T_2)) = \{(T_1\ T_2)\}\cup ST(T_1)\cup ST(T_2)$.
La méthode `sous_termes` donne la liste des sous-termes d'un $\lambda$-terme. L'ordre dans lequel figurent les sous-termes dans cette liste est l'ordre d'apparition de ces sous-termes dans une lecture de gauche à droite (autrement dit, un ordre préfixe).
## $\beta$-réduction ou calculer avec des $\lambda$-termes
### Substitution
Étant donnés deux $\lambda$-termes $T$ et $R$, et une variable $x$, on note $T[x:= R]$ le $\lambda$-terme obtenu en substituant le terme $R$ à toutes les occurrences libres de la variable $x$ dans le terme $T$.
1. Si $T$ est une variable, $T[x:=R] = R$ si $T=x$ et $T[x := R] = T$ si $T\neq x$.
2. Si $T=(T_1\ T_2)$ est une application, $T[x:=R] = (T_1[x:=R]\ T_2[x := R])$.
3. Si $T=\lambda y.S$ est une abstraction, alors il faut distinguer deux cas pour définir $T[x:=R]$
* si $y\not\in FV(R)$, alors $T[x:=R] = \lambda y.S[x:= R]$.
* si $y\in FV(R)$, alors $T[x:=R] = \lambda z.S[y:=z][x:=R]$, la variable $z$ étant une nouvelle variable n'apparaissant pas dans $S$ ni dans $R$. On procède à un renommage de la variable d'abstraction ($y$) pour éviter que les occurrences libres de $y$ de $R$ n'entrent sous la portée de l'abstraction.
La méthode `subs` renvoie le terme obtenu en substituant un $\lambda$-terme à toutes les occurrences libres d'une variable.
L'idée principale qui motive la notion de réduction est qu'une abstraction $\lambda x.T$ représente une fonction $x \mapsto T$, et qu'une application d'une abstraction à un terme $R$, $(\lambda x.T\ R)$ représente l'application de la fonction au terme $R$.
De la même façon que l'application la fonction $x\mapsto x^2+2x -1$ à un nombre $y$ se ramène au calcul de l'expression $y^2+2y-1$ obtenue en substituant $y$ à $x$, l'application $(\lambda x.T\ R)$ doit se réduire au terme $T[x:=R]$.
Un terme de la forme $(\lambda x.T\ R)$, autrement dit une application d'une abstraction à un terme, est appelé *redex*.
La *réduction d'un redex* est une relation, notée $\rightarrow_\beta$, est définie par
$$ (\lambda x.T\ R) \rightarrow_\beta T[x:=R].$$
On peut étendre cette notion de réduction à tout $\lambda$-terme dont l'un au moins de ses sous-termes est un redex. Le terme réduit correspondant étant celui obtenu en remplaçant un sous-terme redex par son réduit.
Selon cette définition, seuls les $\lambda$-termes ayant au moins un redex parmi leurs sous-termes peuvent être réduits. Les $\lambda$-termes ne contenant aucun redex sont dit *irréductibles* ou encore sont des *formes normales*.
La méthode `est_redex` permet de distinguer les $\lambda$-termes qui sont des redex.
La méthode `reduit` réduit les redex. La valeur de l'expression `T.reduit()` est un couple (Lambda_terme, bool) dont la valeur dépend du $\lambda$-terme `T` :
* si `T` contient un redex, alors le booléen a la valeur `True` et la première composante du couple est le $\lambda$-terme obtenu en remplaçant le redex le plus à gauche dans `T` par le terme obtenu par une étape de réduction.
* si `T` ne contient aucun redex, alors le couple est `(T, False)`.
Le terme `T6` contient deux redex. Comme il a été signalé la méthode `reduit` réduit le redex le plus à gauche, et dans le cas de `T6` le redex le plus à gauche est `T6` lui-même. Et cela donne le terme `T7`.
Mais comme `T6 = (T4 T5)`, et que `T5` est un redex, considérons le terme `(T4 T5')` dans lequel `T5'` est le terme obtenu en réduisant le redex `T5`.
Nous voyons donc qu'un $\lambda$-terme peut se réduire de plusieurs façons (en fait d'autant de façon que le terme contient de sous-termes qui sont des redex).
En particulier nous avons
*`T6` $\rightarrow_\beta$ `T7` et
*`T6` $\rightarrow_\beta$ `T7bis`.
Si nous envisageons les $\beta$ reductions comme des étapes de calcul, nous avons donc deux voies distinctes pour « calculer » `T6`.
Poursuivons le calcul pour chacun des deux termes `T7` et `T7bis` qui ne sont pas des formes normales.
la notation $T\twoheadrightarrow_{\beta} R$ signifiant qu'il y a un nombre quelconque (y compris nul) d'étapes de $\beta$-réduction pour arriver au terme $R$ en partant de $T$ (dit en terme plus savant, la relation $\twoheadrightarrow_\beta$ est la clôture réflexive et transitive de la relation $\rightarrow_\beta$).
### Formes normales, normalisation
On dit d'un $\lambda$-terme $T$ qu'il est *normalisable* s'il existe un $\lambda$-terme $R$ irréductible tel que
$$ T\twoheadrightarrow_{\beta} R.$$
Dans ce cas, on dit que $R$ est une *forme normale* de $T$.
Par exemple, `T6` est normalisable et admet $((x\ y)\ y)$ pour forme normale.
Deux questions se posent naturellement :
1. est-ce que tout $\lambda$-terme est normalisable ?
2. un $\lambda$-terme normalisable peut-il avoir plusieurs formes normales ?
La réponse à la première question est négative. Il suffit pour s'en convaincre de considérer le terme
Le terme $\Omega$ n'a qu'un seul redex. Il n'y a donc qu'une seule façon de le réduire et cette réduction donne le terme $\Omega$ lui-même. Quelque soit le nombre d'étapes de réduction qu'on effectue on garde toujours le même terme : $\Omega$ n'est donc pas normalisable.
Il existe donc des termes non normalisables, et $\Omega$ en est un exemple les plus simples.
Venons-en maintenant à la deuxième question : un terme normalisable peut-il avoir plusieurs formes normales ?
Cette question est naturelle puisque lorsqu'un $\lambda$-terme possède plusieurs redex, il y a plusieurs façons de le réduire, et il se pourrait bien que ces voies différentes mènent à des formes normales différentes.
Cela n'a pas été le cas pour le terme `T6`. Et il se trouve que cet exemple particulier reflète la situation générale, car la relation de $\beta$-réduction satisfait une propriété qu'on appelle propriété du diamant.
**Propriété du diamant** Soit $T$ un $\lambda$-terme qui peut se réduire en un nombre fini d'étapes en deux termes différents $R_1$ et $R_2$. Alors il existe un terme $R$ en lequel chacun des deux termes $R_1$ et $R_2$ se réduit en un nombre quelconque (y compris nul) d'étapes.
Cette propriété doit son nom à la figure qui l'illustre. Cette propriété est aussi connue sous le nom de *confluence* de la $\beta$-réduction.
![illustration de la propriété du diamant](tikz_diamant.png)
**Conséquence de la propriété du diamant :** Un $\lambda$-terme normalisable ne peut avoir qu'une seule forme normale.
Maintenant que nous avons répondu aux deux questions que nous nous sommes posées, il en vient une troisième.
Étant donné que certains $\lambda$-termes sont normalisables et d'autres non, y a-t-il un moyen de les reconnaître ?
Si par *moyen* nous entendons un algorithme général prenant un $\lambda$-terme en entrée, et répondant OUI si ce terme est normalisable et NON dans le cas contraire, alors la réponse est non. Aucun algorithme ne permet de distinguer les termes normalisables de ceux qui ne le sont pas. Le problème de la reconnaissance des termes normalisables est *indécidable*.
Dit en d'autres termes, l'ensemble des termes normalisables n'est pas récursif. En revanche il est récursivement énumérable. En effet, si un terme est normalisable, pour s'en rendre compte il suffit de suivre tous les chemins de réduction. L'un d'eux mène à un terme irréductible et on le trouvera en un nombre fini d'étapes.
La méthode `forme_normale` calcule la forme normale d'un terme normalisable si ce terme l'est, et ne renvoie rien dans le cas contraire.
Hmmmm ... Comment est-ce possible puisque nous venons de voir qu'aucun algorithme ne permet de décider si un terme est normalisable ?
En fait le nombre d'étapes de réduction dans le calcul d'une forme normale est limité (par défaut à 100 étapes maximum). On peut visualiser chaque étape de calcul avec le paramètre optionnel `verbose` auquel il faut attribuer la valeur `True`.
On voit que la forme normale du terme `T6` est calculé en trois étapes.
Pour un terme non normalisable les calculs peuvent (en principe) être infinis. Voici la tentative de détermination d'une forme normale pour le terme $\Omega$ limité à dix étapes à l'aide du paramètre optionnel `nb_etapes_max`.
La relation $\twoheadrightarrow_\beta$ n'est pas symétrique. En effet, en général, si $T\twoheadrightarrow_\beta R$, on n'a pas $R\twoheadrightarrow_\beta T$.
En considèrant que la forme normale d'un terme normalisable représente sa « valeur », on peut définir une relation d'équivalence sur les $\lambda$-termes normalisables. Cette relation d'équivalence est la clôture symétrique de la relation de réduction $\twoheadrightarrow_\beta$.
Deux $\lambda$-termes $T$ et $S$ (normalisables ou non) sont dit $\beta$-équivalents, et on note $T=_\beta S$, s'il existe un terme $R$ tel que $T\twoheadrightarrow_\beta R$ et $S\twoheadrightarrow_\beta R$.
Ainsi deux termes normalisables ayant la même forme normale sont $\beta$-équivalents.
**Théorème du point fixe** Pour tout $\lambda$-terme $T$, il existe un $\lambda$-terme $X$ tel que
$$ (T\ X) =_\beta X.$$
La démonstration de ce théorème se fait en considérant les $\lambda$-termes
**Remarque** À noter que dans la démonstration du théorème du point fixe, pour établir que $(T\ X) =_\beta X$, on a montré que $X$ se réduit en $(T\ X)$ et non le contraire.
## Pouvoir d'expression du $\lambda$-calcul
Dans cette section, nous allons découvrir que le $\lambda$-calcul permet
* de représenter les nombres entiers et de définir les opérations arithmétiques de base
* de définir des couples, listes, structures à la base de nombreuses autres structures de données
* de définir des booléens, et de simuler des expressions conditionnelles
* d'itérer des fonctions,
* d'exprimer n'importe quelle fonction récursive.
Bref, d'un certain point de vue le $\lambda$-calcul est un langage de programmation ... certes assez peu efficace comme on pourra s'en rendre compte.
### Booléens, opérateurs logiques et conditionnelles
#### Les deux booléens VRAI et FAUX
On peut représenter les deux booléens VRAI et FAUX par les $\lambda$-termes
Le $\lambda$-terme $\mathtt{IF}$ permet d'exprimer des $\lambda$-termes ayant une forme normale bien que l'une ou l'autre de ses sous-termes n'en aient pas, comme par exemple
1. $(((\mathtt{IF}\, \mathtt{VRAI})\, \mathtt{ALORS})\, \mathtt{OMEGA})$ qui se réduit en $\mathtt{ALORS}$ (et a donc une forme normale si $\mathtt{ALORS}$ en a une) bien que $\mathtt{OMEGA}$ n'en ait pas ;
2. ou $(((\mathtt{IF}\, \mathtt{FAUX})\, \mathtt{OMEGA})\, \mathtt{SINON})$ qui se réduit en $\mathtt{SINON}$.
Cette propriété est bien utile en programmation, et servira pour la programmation de fonctions récursives.
Le fait que le terme $\mathtt{IF}$ se comporte bien comme on l'attend résulte du choix de la stratégie de réduction des redex les plus à gauche en priorité. Si la stratégie choisie avait été de réduire le redex le plus à droite, la réduction de chacun des deux termes précédents aurait conduit à la tentative de réduire le terme $\Omega$ qui échoue puisque celui-ci n'est pas normalisable comme on l'a vu.
### Entiers, successeurs, addition, multiplication et exponentiation
#### Numéraux de Church
Il existe plusieurs façons de représenter les entiers naturels par un $\lambda$-terme. La représentation donnée ici est connue sous le nom de *numéraux de Church*.
En appliquant trois fois de suite le terme $\mathtt{SUC}$ sur le terme $\lceil 2\rceil$ on obtient un terme dont la forme normale est le numéral $\lceil 5\rceil$.
Le calcul de la forme normale de $((\mathtt{MUL}\ \lceil 2\rceil)\ \lceil 3\rceil)$ avec cette version de $\mathtt{MUL}$ est bien plus court que le calcul effectué avec la version précédente.
Comme pour la multiplication, on pourrait envisager de définir un terme pour l'exponentiation en considérant qu'il suffit de répéter $m$ fois le terme $\mathtt{MUL}$ appliqué à $n$ pour obtenir un terme qui se réduirait au numéral représentant $n^m$.
Mais il est possible de définir un terme beaucoup plus simple :
**Remarque** Arrivé à ce stade, il nous manque une opération arithmétique de base : la soustraction, et la possibilité de comparaison plus générale permettant de décider si un entier est inférieur à un autre. Ce manque sera comblé une fois que nous aurons vu une représentation des couples.
Comment exprimer un couple de $\lambda$-termes à l'aide d'un $\lambda$-terme ? Une fois ce couple exprimé comment en extraire chacune des deux composantes ?
Soient $M$ et $N$ deux $\lambda$-termes quelconques. Considérons les deux termes $((\mathtt{VRAI}\ M)\ N)$ et $((\mathtt{FAUX}\ M)\ N)$. Il est facile de vérifier que
$$ ((\mathtt{VRAI}\ M)\ N) =_\beta M,$$
et
$$ ((\mathtt{FAUX}\ M)\ N) =_\beta N.$$
On déduit de ce constat que
$$[M, N] = \lambda s.((s\ M)\ N)$$
est un $\lambda$-terme pouvant représenter le couple $(M, N)$ et que la sélection de l'une ou l'autre des deux composantes peut se faire en appliquant le terme sur l'un ou l'autre des deux termes $\mathtt{VRAI}$ ou $\mathtt{FAUX}$ :
$$ ([M, N]\ \mathtt{VRAI}) =_\beta M,$$
et
$$ ([M, N]\ \mathtt{FAUX}) =_\beta N.$$
Ces considérations amènent à définir le terme constructeur de couple $\mathtt{CONS}$
1. le terme $((\mathtt{CONS}\ M)\ N)$ est clos si et seulement si $M$ et $N$ le sont, et il est normalisable si et seulement si $M$ et $N$ le sont.
2. les noms donnés aux termes $\mathtt{CONS}$, $\mathtt{CAR}$ et $\mathtt{CDR}$ font référence aux noms donnés aux constructeurs et sélecteurs de paires dans le langage de programmation LISP (et ses successeurs comme SCHEME).
#### Prédécesseur d'un entier, soustraction
Envisageons la fonction $F$ qui, à un couple $(m, n)$ d'entiers, associe le couple $(n, n+1)$. En partant du couple $(0,0)$ et en itérant $n$ fois cette fonction, on obtient le couple $(n-1, n)$. La première composante de ce couple est l'entier $n-1$, donc l'entier qui précède $n$.
C'est l'idée de base pour définir un $\lambda$-terme $\mathtt{PRED}$ tel que pour tout entier $n\geq 1$ on ait
Classiquement, on peut considérer une liste de termes $ <M_1,M_2, \ldots,M_n>$ comme un couple dont la première composante est l'élément en tête de la liste, et la seconde composante est la liste des éléments qui restent :
Le terme $\mathtt{LCONS}$ permettant d'ajouter un terme $t$ en tête d'une liste $r$ peut alors être facilement écrit de la manière suivante en utilisant $\mathtt{CONS}$.
L = LCONS.applique(M1).applique(LCONS.applique(M2).applique(LCONS.applique(M3).applique(LVIDE)))
print(L.forme_normale())
```
Notons que si $L$ est une liste non vide, alors quelque soit le terme $M$, $(L\ M)$ se réduit en un couple dont la seconde composante est la liste reste de $L$. En particulier, le terme $M$ a disparu.
On l'a vu à plusieurs occasions ($\mathtt{ADD}$, $\mathtt{MUL}$, $\mathtt{EXP}$, $\mathtt{NUL}$, $\mathtt{SUB}$), les numéraux de Church permettent d'itérer l'application d'un terme.
Étudions encore un cas d'école avec la classique fonction factorielle qui peut se programmer en Python à l'aide d'une boucle `for`.
~~~python
def fact(n):
f = 1
for i in range(n+1):
f = f*i
return f
~~~
Ce programme utilise deux variables $\mathtt{i}$ et $\mathtt{f}$.
Si on ajoute la valeur fictive 0 pour la variable $\mathtt{i}$ avant la boucle `for`, le couple ($\mathtt{i}$, $\mathtt{f}$) prend les valeurs successives : (0, 1), (1, 1), (2, 2), (3, 6), ..., ($n$, $n!$). Ainsi à chaque étape de l'itération le couple est transformé selon la règle :
$$ (i, f) \rightarrow (i+1, f\times i).$$
C'est cette règle qui est itérée $n$ fois. Et cette règle peut être représentée par un $\lambda$-terme transformant un couple $[\lceil i\rceil, \lceil f\rceil]$ en le couple $[\lceil i+1\rceil, \lceil f\times i\rceil]$.
En suivant le principe qui a conduit à écrire le terme $\mathtt{FACTv1}$, on comprend que n'importe quelle fonction qui peut être programmée (en Python, ou tout autre langage) peut être représentée par un $\lambda$-terme.
### Et la récursivité ? Et les boucles `while` ?
Dernier point de notre exploration du pouvoir d'expression du $\lambda$-calcul qui achèvera (peut-être) de nous convaincre que c'est un langage de programmation : peut-on représenter des fonctions récursives ? peut-on représenter des fonctions dont l'algorithme nécessite une boucle `while` ?
#### Exprimer la récursivité sans nom ?
Prenons encore la fonction factorielle comme exemple classique de fonction récursive. En Python on peut l'écrire de la façon suivante
~~~python
def fact(n):
if n == 0:
return 1
else:
return n * fact(n - 1)
~~~
<!-- #region -->
En examinant le code de cette version récursive de la fonction factorielle, on s'aperçoit que nous disposons de tous les ingrédients pour écrire un $\lambda$-terme analogue. Le voici :
Ce terme n'est pas valide car dans le terme désigné par le nom $\mathtt{FACT}$, il y a le nom $\mathtt{FACT}$, et en $\lambda$-calcul les seuls noms intervenants dans les $\lambda$-termes sont les variables. Donc le nom $\mathtt{FACT}$ dans le $\lambda$-terme ci-dessus est juste une variable et n'est pas le $\lambda$-terme nommé $\mathtt{FACT}$.
<!-- #endregion -->
En programmation on dit souvent d'une fonction qu'elle est récursive lorsqu'elle fait appel à elle-même, comme le fait la fonction `fact` ci-dessus. Et l'appel à une fonction se fait par le nom de cette fonction.
Comme en $\lambda$-calcul, il n'y a pas de nom, il semble, en apparence, que la définition de $\lambda$-termes suivant un schéma récursif soit impossible.
On va voir qu'il n'en est rien.
#### Avec une couche d'abstraction supplémentaire
Dans l'essai de $\lambda$-terme pour définir $\mathtt{FACT}$, remplaçons le nom $\mathtt{}$ par une variable, $f$ par exemple, et ajoutons une couche d'abstraction sur cette variable afin qu'elle soit liée. Nous obtenons un terme que nous nommerons $\Phi_{fact}$.
Mais, compte-tenu de la couche d'abstraction supplémentaire, ce n'est certainement pas un terme candidat pour être le terme $\mathtt{FACT}$ que nous recherchons.
En fait pour envisager d'utiliser ce terme pour calculer des factorielles, il faut d'abord l'appliquer à un terme (une fonction) $f$ puis appliquer à un entier (de Church). Autrement dit suivre le schéma
$$((\Phi_{fact}\ f)\ \lceil n\rceil).$$
Mais quel terme (ou fonction) $f$ utiliser ?
Et si on commençait par une fonction (un peu bizarre) nulle part définie, ou dit en termes plus $\lambda$-calculesque, par un terme dont aucune application ne possède une forme normale :
$$ \mathtt{BOTTOM} = \lambda y.\Omega,$$
où, pour rappel, $\Omega = (\lambda x.(x\ x)\ \lambda x.(x\ x))$ qui, comme on l'a vu, n'est pas normalisable.
Il est clair que pour n'importe quel terme $M$, on a
$$(\mathtt{BOTTOM}\ M) \rightarrow_\beta\Omega\rightarrow_\beta\Omega\rightarrow_\beta\ldots.$$
Le terme $F_2$ appliqué à $\lceil n\rceil$, avec $n=0\mbox{ ou }1$ donne bien $\lceil n!\rceil$. Mais pour tout autre entier l'application n'est pas normalisable. On progresse.
En fait si on définit la suite de termes $F_n$ par récurrence en posant
\begin{align}
F_0 &= \mathtt{BOTTOM}\\
F_1 &= (\Phi_{fact}\ F_0)\\
F_2 &= (\Phi_{fact}\ F_1)\\
\vdots\\
F_{n+1} &= (\Phi_{fact}\ F_n)
\end{align}
chacun des termes de cette suite est en mesure de représenter une fonction factorielle partielle. Plus précisément, pour chaque entier $n$ on a
$$ (F_n\ \lceil k\rceil) \twoheadrightarrow_\beta \lceil k!\rceil \mbox{ si } 0\leq k <n,$$
et $(F_n\ \lceil k\rceil)$ n'est pas normalisable si $k\geq n$.
F4.applique(TROIS).forme_normale(nb_etapes_max=1510) == SIX
```
Avec le terme $\Phi_{fact}$, nous sommes en mesure de définir des fonctions « approximant » de mieux en mieux la fonction factorielle, mais le procédé itératif décrit ne permet pas d'obtenir le terme $\mathtt{FACT}$ voulu.
Remarquons néanmoins que si nous avons ce terme $\mathtt{FACT}$, alors on a
et cette équivalence montre que le terme $\mathtt{FACT}$ que l'on recherche est un point fixe du terme $\Phi_{fact}$. Or on a vu comment construire un terme point fixe d'un autre.
**Remarque** $Y$ n'est pas normalisable, et quelque soit le $\lambda$-terme $M$, $(Y\ M)$ ne l'est pas. Pourtant ces derniers termes peuvent s'avérer utiles.
Définissions le terme $\mathtt{LONG}$ à l'aide de l'un ou l'autre de nos deux combinateurs de point fixe.
$$ \mathtt{LONG} = (\Theta\ \Phi_{long}).$$
```python
LONG = THETA.applique(PHI_LONG)
```
```python
LONG.applique(LVIDE).forme_normale() == ZERO
```
```python
M1 = Lambda_terme('M1')
M2 = Lambda_terme('M2')
M3 = Lambda_terme('M3')
L = LCONS.applique(M1).applique(LCONS.applique(M2).applique(LCONS.applique(M3).applique(LVIDE)))
LONG.applique(L).forme_normale(nb_etapes_max=135) == TROIS
```
#### Et la boucle `while` ?
Bien ! on voit comment construire un $\lambda$-terme exprimant un algorithme récursif. Mais comment exprimer une itération conditionnelle (boucle `while`) ?
La réponse tient simplement dans le fait qu'une itération conditionnelle s'exprime généralement en suivant le schéma
~~~python
while p(e):
e = t(e)
~~~
dans lequel
*`e` désigne l'état courant des variables,
*`p(e)` exprime une condition dépendant de l'état courant
* et `t(e)` est un traitement pouvant modifier l'état courant.
Ce schéma peut être reformulé de manière récursive en écrivant
Pour terminer, utilisons notre terme $\mathtt{WHILE}$ pour construire une terme permettant de calculer la division euclidienne de deux entiers, dernière opération arithmétique de base que nous n'avons pas réalisée.
On veut un terme $\mathtt{DIV}$ qui comme la fonction `divmod` de Python donne, sous forme d'un couple, le quotient et le reste de la division d'un entier $m$ par un entier $n$.
On pourrait programmer cette fonction en Python de cette façon :
~~~python
def divmod(m, n):
q, r = 0, m
while r >= n:
q, r = q + 1, r - n
return (q, r)
~~~
Dans cet algorithme
* l'état `e` est le triplet de variables `(q, r, n)`
* la condition `p(e)` est exprimée par l'inégalité `r >= n`
* et le traitement `t(e)` modifiant l'état courant est le construction du couple `(q + 1, r - n, n)`.
\begin{align}
P &= \lambda e.((\mathtt{INF}\ (\mathtt{CDR}\ (\mathtt{CDR}\ e))) (\mathtt{CAR}\ (\mathtt{CDR}\ e)))\\
res = DIVMOD.applique(A).applique(B).forme_normale(nb_etapes_max=10000)
#print(res)
tests.append((a, b, res == CONS.applique(Q).applique(CONS.applique(R).applique(B)).forme_normale()))
all(t[2] for t in tests)
```
## Conclusion
Nous arrêtons là ce premier contact avec le $\lambda$-calcul.
Nous avons vu que ce langage très élémentaire, avec l'abstraction et l'application pour seules constructions, et la règle de $\beta$-réduction pour seule transformation de $\lambda$-termes, permet de représenter les données de base de n'importe quel langage de programmation, les booléens, les entiers, les couples, les listes, et permet d'exprimer les expressions conditionnelles, les itérations conditionnelles ou non, et la récursivité. En fait le $\lambda$-calcul est un langage Turing-complet ... même s'il est particulièrement inefficace.
D'autres sujets relatifs au $\lambda$-calcul n'ont pas été abordés :
* stratégies de réduction : paresseuse, par valeurs ..., et leurs conséquences.
Dans cette partie, les lambda-expressions de Python vont être utilisées pour représenter les abstractions, et les applications seront des appels de fonction.
Les seuls mots du langage Python que nous utiliserons seront `lambda` et `if`. Les autres mots (`def`, `while`, `for` ...) seront bannis. Nous utiliserons aussi les entiers prédéfinis dans le langage avec certaines opérations arithmétiques.