Pourquoi il n'y a pas de théorème de dérivation de suites de fonctions

Les cours d’analyse mathématique de deuxième année universitaire ou de classes préparatoires présentent généralement deux résultats concernant une suite de fonctions $f_n : I \subset \mathbb{R} \to \mathbb{R}$ où $I$ est un intervalle non-vide. Nous nous placerons ici seulement dans le cas où $I = [a, b]$ est compact.

Le premier, appelé « théorème d’intégration », établit le fait que si une suite de fonction continues converge uniformément vers une limite, alors la limite des intégrales sur $I$ converge également vers l’intégrale de la limite. Il s’énonce comme ceci :

Théorème (dit « d’intégration » des suites de fonctions). On suppose que les $f_n$ sont continues et que la suite $(f_n)_{n \in \mathbb{N}}$ converge uniformément vers $f : I \to \mathbb{R}$. Alors on a $$\lim_{n \to \infty} \int_a^b f_n(t) \mathrm{d}t = \int_a^b f(t) \mathrm{d}t.$$

Ce qui peut également s’écrire $$\lim_{n \to \infty} \int_a^b f_n(t) \mathrm{d}t = \int_a^b \lim_{n \to \infty} f_n(t) \mathrm{d}t$$ ; autrement dit, on peut intervertir la limite et l’intégrale.

À partir d’une étude d’une suite de fonctions, après avoir prouvé leur continuités et la convergence uniforme, il est donc possible de déduire directement une information sur la limite de la suite de nombres réels $(\int_a^b f_n(t) \mathrm{d}t)_n$.

Le deuxième résultat concerne la dérivation des suites de fonctions et s’énonce comme suit.

Corollaire. On suppose que les $f_n$ sont dérivables sur $]a, b[$, que la suite $(f_n)_n$ converge simplement vers une fonction $f$ et que la suite $(f_n’)_n$ converge uniformément (vers une fonction connue ou non). Alors

La convergence de la suite $(f_n)_n$ est en fait uniforme.
La fonction $f$ est en fait dérivable sur $]a, b[$.
La suite limite de la suite $(f_n’)_n$ est en fait la fonction $f’$.

Remarque : les hypothèses peuvent être affaiblies ou généralisées dans l’un ou l’autre des résultats, mais ce n’est pas l’objet de cet article.

Ce dernier est parfois appelé de manière impropre « théorème de dérivation des séries de fonctions », ce qui m’a personnellement induit en erreur pendant assez longtemps pour plusieurs raisons. D’abord, il est étonnant qu’un théorème soit une conséquence simple et immédiate d’un autre, le mot théorème étant généralement réservé à un résultat important et qui requiert un certain effort de démonstration.

L’autre raison, c’est surtout la différence énorme entre les hypothèses de l’un et de l’autre : dans le premier on se contente d’une convergence uniforme de la suite (ce qui est déjà assez fort), alors que dans l’autre il faut la convergence simple de la suite mais aussi la convergence des dérivées.

Avec cette dénomination trompeuse, je m’attendais à un résultat de ce genre :

Théorème faux « de dérivation ». Soit $(f_n)_n$ une suite de fonctions dérivables qui converge uniformément vers $f$. Alors $f$ est dérivable et $(f_n’)_n$ converge aussi elle aussi uniformément vers $f’$.

Je m’attendais à ce résultat car il est possible de traduire d’une manière plus abstraite le théorème du début. En effet, on peut considérer la « fonction de fonctions » qui à une fonction $f$ associe son intégrale sur $[a,b]$, c’est à dire la « fonctions de fonctions »

$$\varphi (f) = \int_a^b f(t) \mathrm{d}t$$

Son ensemble de définition est, disons, l’ensemble des fonctions continues de $[a,b]$ dans $\mathbb{R}$, et son ensemble d’arrivée est l’ensemble des nombres réels. On a donc

$$\varphi : \mathcal{C}^0([a,b], \mathbb{R}) \to \mathbb{R}.$$

De plus, on sait additionner des fonctions ou les multiplier par un réel $\lambda$ en définissant pour tout $t \in [a, b]$

$$(f + g)(t) = f(t) + g(t) \hspace{1em} \text{et} \hspace{1em} (\lambda f)(t) = \lambda f(t).$$

Grâce, aux propriétés de l’intégrale, on vérifie alors que

$$\varphi(f + g) = \int_a^b f(t) \mathrm{d}t + \int_a^b g(t) \mathrm{d}t = \varphi(f) + \varphi(g)$$

$$\varphi(\lambda f) = \int_a^b \lambda f(t) \mathrm{d}t = \lambda \varphi(f)$$

Autrement dit, la « fonction de fonctions » $\varphi$ est linéaire. On appelle ce genre de transformation un opérateur.

De plus, il est possible de munir l’ensemble de définition de $\varphi$, $\mathcal{C}^0([a,b], \mathbb{R})$, d’une notion de proximité entre les fonctions, grâce à la norme $|| \cdot ||_\infty$ : on va dire que $f$ et $g$ sont proches si $|| f - g||_\infty$ est petit. La convergence uniforme d’une suite de fonctions $(f_n)_n$ vers une fonction $f$ s’écrit en ces termes

$$\lim_{n \to \infty}||f_n - f||_\infty = 0$$

($f_n$ se rapproche de plus en plus de $f$). Le théorème se reformule donc en

$$\varphi(\lim_{n \to \infty}^{|| \cdot ||_\infty} f_n) = \lim_{n \to \infty}^\mathbb{R} \varphi(f_n)$$,

autrement dit il est possible d’intervertir $\varphi$ avec un passage à la limite. Une fonction (ou ici, une fonction de fonctions, c’est à dire un opérateur) qu’il est possible d’intervertir avec les limites s’appelle une fonction continue : plus l’antécédent se rapproche d’un point, plus son image se rapproche de celle de l’image de ce point. On arrive finalement à une dernière formulation du théorème.

Théorème. L’opérateur d’intégration sur $[a,b]$ est continu pour la norme de la convergence uniforme $|| \cdot ||_\infty$.

Il se trouve que la dérivation est elle aussi linéaire : on sait depuis le lycée que $(f+g)’(x) = f’(x) + g’(x)$ et $(\lambda f)’(x) = \lambda f’(x)$. On peut le résumer en disant que l’opérateur défini par

$$\mathcal{D} : \mathcal{C}^1([a,b], \mathbb{R}) \to \mathcal{C}^0([a,b], \mathbb{R})$$

$$f \mapsto \mathcal{D}(f) = f’$$

est un opérateur linéaire. Comme on l’a fait précédemment, il est possible de reformuler le théorème faux du haut grâce à ce langage.

Théorème faux. L’opérateur $\mathcal{D}$ est continu pour la norme $|| \cdot ||_\infty$ (sur l’espace de départ et l’espace d’arrivée).

On peut se convaincre de son absurdité en revenant à l’intuition géométrique de la dérivation et de la norme uniforme. La dérivation mesure le taux d’accroissement, la pente de la tangente au graphe, c’est à dire la variation d’une fonction. Peu importe que la valeur absolue soit en elle même grande ou petite, la dérivée ne se préoccupe que des variations pour un petit changement dans l’argument : plus cette variation est grande par rapport à la taille de l’argument en première approximation, plus la dérivée est grande.

Au contraire, la norme uniforme s’intéresse au maximum de la fonction sur l’intervalle considéré, c’est à dire à la valeur de la fonction en elle-même.

Prenons par exemple une suite de fonctions définies sur $[a,b] = [0,1]$ qui converge uniformément vers la fonction constante nulle, mais dont la dérivée est de plus en plus grande (c’est à dire que les pentes des tangentes sont de plus en plus raides). On pose

$$f_n(x) = \frac{1}{n} \sin(2\pi. 2^n x)$$

dont les dérivées se calculent aisément :

$$f_n’(x) = \frac{2\pi . 2^n}{n} \cos(2\pi . 2^n x)$$

Voici un tracé des premiers termes et de leurs dérivées.

Les normes peuvent être calculées explicitement, car on a $|f_n(x)| \leq \frac{1}{n} \sup_{t \in [0, 2\pi . 2^n]} |\sin(t)| = \frac{1}{n}$, qui est atteint pour une certaine valeur de $x$ d’après la forme de l’intervalle.

D’autre part, $|f_n’(x)| \leq \frac{2\pi .2^n}{n} \sup_{t \in [0, 2\pi . 2^n]} |\cos(t)| = \frac{2\pi . 2^n}{n}$ qui est atteint par exemple en $x = 0$.

Il vient donc,

$$||f_n||_\infty = \frac{1}{n} \xrightarrow[n \to \infty]{} 0$$

et pourtant,

$$||f_n’||_\infty = \frac{2\pi . 2^n}{n} \xrightarrow[n \to \infty]{} \infty.$$

Remarque : on pourrait se demander si, en changement de norme, on ne pourrait pas obtenir la continuité de l’opérateur de dérivation. C’est en effet impossible, en raison de la présence de trop grandes valeurs propres. Les fonctions $\eta_n(x) = e^{nx}$ sont des vecteurs propres de $\mathcal{D}$ associés à la valeur propre $n$. Par linéarité, on a donc pour toute norme $||\mathcal{D}(\eta_n)|| = ||n \eta_n|| = n ||\eta_n||$, et si $\mathcal{D}$ était borné de norme d’opérateur $|||\mathcal{D}||| \in \mathbb{R}^+$, on aurait pour tout $n \in \mathbb{N}$

$$||\mathcal{D}(\eta_n)|| \leq ||\eta_n||.|||\mathcal{D}|||,$$ et donc $$n \leq |||\mathcal{D}|||,$$ ce qui est manifestement impossible.