[SON] [AUDIO_VIDE] Bonjour. Aujourd'hui, nous abordons votre dernière séance de cours et nous allons finir ce cours en apothéose, puisque nous allons démontrer aujourd'hui et commenter un des théorèmes fondamentaux de la théorie des probabilités et en tout cas, un théorème très important dans ce cours sur les probabilités élémentaires, dirais-je, et ce théorème s'appelle le théorème de la limite centrale. Nous allons en voir un certain nombre d'application dans plusieurs domaines et qui, j'espère, vous donneront envie de continuer en probabilité. Donc, nous allons commencer par énoncer ce théorème de la limite centrale, et vous allez voir qu'en fait on peut le voir comme un complément de la loi des grands nombres. Donc, avec ce package de cours 5 et 6, vous avez une vision, déjà, assez précise de ce que l'on peut faire en probabilité sur des suites de variables aléatoires ou des sommes de variables aléatoires indépendantes. Donc, nous nous mettons dans le même contexte que celui de la loi des grands nombres, à savoir que nous considérons une suite Xn de variables aléatoires indépendantes, de même loi, de carré intégrable, et je vais appeler m, l'espérance commune aux Xn et sigma 2, la variance commune aux Xn. Donc, ces variables aléatoires ont toutes la même espérance et la même variance, puisqu'on a supposé qu'elles avaient même loi. Et comme dans le cours 5, nous allons considérer Sn égale la somme des n premières variables aléatoires, donc X1 plus X2 plus Xn. Je vous rappelle que nous avons vu ce théorème de loi des grands nombres qui décrivait le comportement asymptotique de Sn sur n, c'est-à-dire la moyenne empirique des variables aléatoires Xi, quand n tend vers l'infini. Et nous avons montré que sous les hypothèses, que je viens de rappeler ici, la suite Mn converge vers l'espérance m presque-sûrement et en moyenne. Et nous avons vu que ces convergences-là entraînaient aussi la convergence en probabilité puisque la convergence en probabilité est plus faible que les convergences presque-sûr et en moyenne. Ce qui nous intéresse ici, c'est de nous dire très bien, ça converge, on a vu et vous avez vu aussi dans des séances de simulation, que cette convergence était exploitée pour développer des méthodes numériques d'approximation, de quantités physiques qui sont obtenues à partir de limite de moyenne empirique de variables aléatoires. Si on associe cette quantité physique qu'on souhaite calculer, si on l'interprète plutôt comme l'espérance d'une certaine variable aléatoire, c'est ce qu'on appelle les méthodes de Monte-Carlo. Quand on fait une approximation numérique, on a envie de savoir quelle erreur, on fait dans cette approximation. La question que nous nous posons maintenant, sur la loi des grands nombres, cela revient à dire, quelle est la vitesse de convergence, dans mon théorème, ici, de convergence. Donc, en fait, vous voyez, ce que ça veut dire vitesse de convergence, ça veut dire qu'on a envie de savoir, on sait que Mn moins m tend vers 0, presque-sûrement et en moyenne, mais on a envie de savoir à quelle vitesse, comment en fonction de n, Mn moins m tend vers 0. Est-ce que c'est en 1 sur n, en 1 sur racine de n, en 1 sur log n, ou 1 sur exponentielle n, je dis un peu n'importe quoi mais c'est pour vous donner une idée de ce qu'est la vitesse de convergence. Première remarque, nous avons vu dans, et je vous renvoie au cours 5 pour cela, que la variance Mn moins m était égale à sigma au carré sur n. Donc, si on veut avoir une information sur Mn moins m, bah, on voit que la bonne échelle d'information va être en racine de sigma 2 sur n, puisque la variance, c'est, je vous rappelle, l'espérance de Mn moins m au carré. Donc, racine de sigma 2 sur n, c'est sigma sur racine de n. Donc, il est assez naturel d'étudier la variable aléatoire, racine de n sur sigma de Mn moins m, est d'en étudier le comportement limite quand n tend vers l'infini. Donc, une remarque, ces variables aléatoires sont centrées puisque l'espérance de Mn est égale à m, et puisque la variance de Mn moins m est égale à sigma 2 sur n, elles sont aussi réduites, la variance de cette variable-là est égale à 1. Une autre remarque, c'est que si vous développez Mn sous sa forme Sn sur n, eh bien, vous pouvez montrer que cette variable-là est aussi égale à Sn moins n fois m, sur sigma racine de n. Donc, je jouerai sur ces 2 manières d'écrire notre variable aléatoire centrée réduite. Alors, une remarque, bien sûr, on a vu essentiellement, enfin dans le cours 5, les convergences presque-sûres, en moyenne, en probabilité, puisqu'on sait que la loi des grands nombres se réalise pour ces convergences-là, on pourrait se dire que notre suite de variables aléatoires, ici, va converger de ses formes de convergence. En fait, on peut montrer que cette suite de variables aléatoires ne converge pas en probabilité, ce qui est la plus faible de ces convergences, et vous le verrez sous la forme d'un exercice. Et en fait, vous savez qu'on a passé du temps à définir la convergence en loi dans les séances précédentes du cours 6, eh bien, je vous montre une des raisons fondamentales pour introduire cette convergence en loi, c'est qu'ici, on va montrer que cette suite converge mais au sens de la convergence en loi et non pas au sens de la convergence en probabilité. Je vous rappelle que la convergence en probabilité implique la convergence en loi, ici, ce que je vous dis, c'est qu'on n'a pas de réciproque et on le voit à travers ce théorème de la limite centrale. Donc, le théorème est le suivant, je vous rappelle ici, les hypothèses qu'on vient de commenter et ce qu'on peut montrer, c'est que cette suite, donc, de variables aléatoires centrées réduites, converge en loi vers une variable aléatoire normale centrée réduite. Donc, je vous rappelle qu'on a pris n'importe quelle suite de variables aléatoires, n'importe quelle suite, ça veut dire n'importe quelle loi, du moment que c'est une loi de carré intégrable. Et on montre que la moyenne empirique re-normalisée, c'est cette quantité-là, ici, converge vers une variable aléatoire normale, donc une variable de loi normale ou loi gaussienne centrée réduite. Donc, ce que ça vous dit, c'est que Mn moins m, que j'ai développé ici, je vous rappelle qu'on cherchait la vitesse de convergence de cette quantité-là, eh bien, va se converge, se comporter, pardon, comme 1 sur racine de n, fois, une loi normale centrée et de variance sigma 2, si je fais passer le sigma de l'autre côté. Donc, vous voyez que dans la limite, on a 2 informations, on voit que cette quantité-là converge vers une quantité qui est aléatoire et non pas déterministe, comme c'était le cas de la loi des grands nombres, donc, quand on fait, on peut dire, le développement de Mn sur n, on a d'abord un terme déterministe, plus un deuxième terme qui est aléatoire, que ce comportement aléatoire, ici, est gaussien, et que de plus, la vitesse de convergence est donnée par 1 sur racine de n. En fait, c'est une vitesse lente, ce n'est pas 1 sur n puissance 5, ou 1 sur exponentielle n, c'est 1 sur racine de n, c'est un des, on pourrait dire, défauts de la méthode de Monte-Carlo, c'est que la vitesse de convergence est lente, je vous montrerai plus tard pourquoi ce théorème-là, aussi, à un énorme intérêt en termes de vitesse de convergence, pour l'instant, on va plutôt se concentrer sur la preuve. Alors, la preuve, elle est assez délicate, et voyez c'est pour ça que je vous ai mis quand même un commentaire historique sur ce théorème donc, il a été énoncé par Laplace plutôt au début du XIXe siècle, mais en fait, la première preuve rigoureuse apparaît seulement en 1901, c'est Lyapounov qui la montre, il a fallu beaucoup beaucoup de temps pour arriver à une preuve de ce théorème et c'est lié à cette convergence qui fallait d'abord maîtriser, qui est moins naturelle que les convergences, type en moyenne ou presque-sûre, qu'on a vu précédemment, et la preuve que je vais vous donner, alors en tout cas les idées de preuve, parce que je saute quand même sur certaines difficultés techniques, enfin la preuve est due à Paul Lévy, dont on a parlé dans les séances précédentes, et je la trouve très élégante. Donc, rappel, on veut étudier cette quantité-là et regarder sa convergence en loi, quand n tend vers l'infini. Donc, déjà, on va plutôt penser Sn moins n m sur racine de n, Sn, c'est X1 plus X2 plus Xn, donc, vous voyez qu'ici, apparaissent, puisqu'on a n fois m, la somme de i égale 1, à n, des Xi moins m, et donc c'est, ça, qu'on va mettre en évidence et par ailleurs, donc, nous avons vu le théorème de Paul Lévy, dans la séance 4, du cours 6, et qui vous dit qu'on peut caractériser la convergence en loi par la convergence des fonctions, de la suite des fonctions caractéristiques associées à cette suite de variables aléatoires. Donc, l'idée de Paul Lévy, bien sûr, c'est d'utiliser son théorème de convergence et nous allons étudier la fonction caractéristique de notre variable aléatoire Sn moins n m sur racine de n fois sigma. Nous allons étudier la fonction caractéristique de cette quantité en écrivant cette quantité, comme je viens de le dire, sous la forme 1 sur racine de n, somme de i égale 1, à n des Vi, où Vi est égale Xi moins m sur sigma. Donc, remarque Vi est une variable aléatoire centrée, l'espérance de Xi égale n est réduite puisque la variance de Xi est égale à sigma 2. Alors, écrivons ce que vaut la fonction caractéristique de la variable aléatoire Yn, pris en un certain nombre t réel. Première remarque, on va faire passer le racine de n sous le Vi, donc Yn, c'est la somme de i égale 1, à n, des Vi sur racine de n Et nous savons que les X i sont indépendantes, donc les (V i) / racine de n sont indépendantes. Nous avons vu précédemment dans le cours, donc cela doit être la séance 2 du cours 6, que si les variables aléatoires sont indépendantes, la fonction caractéristique de la somme de ces variables aléatoires, est égale au produit des fonctions caractéristiques. Comme de plus ici, les (V i) / racine de n ont même loi, leurs fonctions caractéristiques seront les mêmes. seront identiques, et identiques à celle de (V 1) / racine de n. Donc, phi Y n (t) est égal à la puissance n-ième de phi, la fonction caractéristique de la variable (V 1) / racine de n, pris en t, que l'on peut aussi écrire comme la fonction caractéristique de V 1 pris en (t / racine de n). Et c'est ce que nous faisons ici. Alors, c'est maintenant que je saute sur des difficultés techniques. Je vous rappelle que la fonction caractéristique est liée à l'espérance d'une exponentielle complexe. Mais néanmoins, comme t / racine de n tend vers 0, quand n tend vers l'infini, on va faire un développement de cette exponentielle, comme si c'était une exponentielle réelle. Donc là, il y a toute l'analyse complexe derrière pour justifier ce développement, et nous ne l'aborderons pas dans le cours, donc je vous donne juste l'idée de la preuve. Donc, si on développe comme si c'était une exponentielle réelle, nous obtenons E (1 + (i * t / racine de n) * V 1 - (1 / 2) * (t / racine de n) au carré * (V 1) carré + un petit o ((t / racine de n) au carré), donc un petit o de 1 sur n. Et donc cela, cela veut dire que cela s'écrit sous la forme 1 sur n fois une quantité qui tend vers 0 quand n tend vers l'infini. Alors, là encore on va faire une deuxième, un deuxième saut de difficulté. Vous voyez qu'on prend l'espérance de cette quantité-là, et en fait, ce petit o ici, doit être un petit o de 1 / n, mais uniformément en oméga, ou il faut une hypothèse en oméga, pour quand on en prenne l'espérance, cela reste encore un petit o. Donc, on va supposer nous que l'espérance de ce petit o (t au carré / n) est encore un petit o (t 2 / n). Alors, par ailleurs l'espérance de V 1 est nulle, donc ce terme-là va disparaître. E (V 1 au carré) = 1, puisque nous avons supposé que V 1 était réduite. Et donc, quand on développe finalement ce calcul, on a 1 moins t 2 sur 2 fois racine de n au carré, c'est-à-dire sur 2 n, plus un petit o (t 2 / n). Alors, maintenant nous allons revenir à la fonction caractéristique de Y n, et nous savons que c'est cette quantité-là qu'on vient de calculer, puissance n Et on veut voir le comportement quand n tend vers l'infini. Donc, allons-y, on regarde la limite quand n tend vers l'infini de notre fonction caractéristique phi Y n (t), et on remplace par ce calcul que nous venons de faire. Donc, je vous rappelle que (1- ((t 2) / n) + petit o (t 2 / n)) puissance n, c'est l'exponentielle de n * log (1- ((t 2) / n + petit o ((t 2) / n)). Et cette quantité-là ici, (t 2) / (2 * n) + petit o ((t 2) / n) tend vers 0 quand n tend vers l'infini. Donc là, on utilise un résultat classique d'analyse, qui nous dit que le log de cette quantité est équivalent quand n tend vers l'infini à- (t 2) / (2 * n) + petit o ((t 2) / n). Multiplié par n, cela va me donner un (- (t 2) / 2 + un petit o (1), c'est-à-dire quelque chose qui tend vers 0 quand n tend vers l'infini. Et quand je prends la limite en n de l'exponentielle de cette quantité-là, finalement, cela va me donner e (- (t 2) / 2). Et là, et le miracle. On reconnaît la fonction caractéristique d'une loi normale, centrée, réduite. Bien sûr, comme c'est une fonction caractéristique, elle est continue en 0. Et là, je vous renvoie à la réciproque du théorème de Paul Lévy, que nous avons énoncé en séance 4, qui vous dit que si la suite de fonctions caractéristiques des (Y n) converge point par point vers une fonction continue en 0, eh bien, ici on reconnaît que c'est la fonction caractéristique de la loi normale, centrée, réduite, eh bien, nous savons que la suite (Y n) va converger en loi vers cette variable aléatoire X. C'est une convergence en loi, on n'a pas besoin de construire la variable, c'est la convergence des lois qui nous intéresse. Alors vous voyez, il y a une magie dans ce théorème, qui est qu'on arrive quoi qu'on fasse, quelles que soient ces variables aléatoires (X i) initiales, eh bien, on arrive sur la loi normale, centrée, réduite. Alors, donc j'aurais, je vais vous donner quelques applications, pour finir ce cours, de ce théorème. Vous voyez qu'il y a un caractère universel, et ce n'est pas un hasard si ces variables aléatoires normales, on les appelle aussi gaussiennes, puisqu'elles ont été introduites par le grand mathématicien Gauss, Gauss en allemand, et on les appelle normales, parce qu'elles arrivent quoi qu'on fasse, à partir d'une somme d'un grand nombre de variables aléatoires indépendantes. Si elles sont, ces variables aléatoires sont de même loi et de carré intégrable, eh bien, leur somme va se comporter approximativement comme une loi normale. Vous en verrez des illustrations dans des séances de simulation. Donc, vous voyez, si vous prenez des variables aléatoires avec une loi extrêmement différente d'une loi normale. Par exemple, imaginez une variable de Bernoulli, qui même dissymétrique, avec un paramètre petit p qui vaut 0,05 donc, si vous faites l'histogramme, vous aurez un petit bâton sur 1 et un grand bâton sur 0, par exemple. Eh bien néanmoins, si vous en faites la somme, et pour un nombre suffisamment grand de termes dans cette somme, vous aurez au bout du compte, alors je vous rappelle qu'une somme de Bernoulli indépendante, c'est une loi binomiale, mais néanmoins, au bout du compte, si vous faites tendre n vers l'infini, vous verrez apparaître une densité de loi normale. Donc, cela vous le visionnerez dans les séances de simulations. Alors, ce théorème explique aussi pourquoi, souvent quand on modélise des perturbations aléatoires, et cela, cela peut éclairer un peu des gens, par exemple qui sont ingénieurs parmi vous, on modélise souvent ces perturbations par des variables aléatoires normales. C'est qu'en fait on considère que les perturbations aléatoires dans un phénomène que l'on observe, c'est la somme de plein de petites perturbations, qui a priori n'ont pas de raison d'être de loi différente, donc qui sont toutes de même loi, et qui vont être indépendantes les unes des autres. Et le Théorème Centrale Limite justifie ces perturbations, et justifie à terme, donc là, je parle pour des gens un petit peu plus savants, la modélisation des perturbations sur des systèmes dynamiques, par ce qu'on appelle le mouvement brownien. Mais cela, c'est l'objet d'un cours beaucoup plus évolué. Donc, ce théorème nous donne une réponse aussi pour ce contrôle d'erreur sur lequel on s'était posé la question au début de la loi des grands nombres. On avait vu que l'erreur dans la loi des grands nombres se comporte en 1 / racine de n, et je vous ai dit que c'était quand même bon, cela nous donne une information même si la vitesse est assez lente. Alors, elle est assez lente, mais néanmoins, et cela, je ne vous donne pas ce théorème parce qu'il est un peu délicat, dans le cadre de cette fin de cours. Mais, le théorème de la limite centrale se généralise en dimensions d, pour des vecteurs aléatoires, et pour des vecteurs aléatoires, eh bien la vitesse de convergence est encore la même, c'est-à-dire qu'elle est 1 / racine de n, quelle que soit la dimension de l'espace. Et cela, c'est important puisque dans les méthodes déterministes souvent, la vitesse de convergence est liée à la dimension, et peut devenir très mauvaise quand la dimension est grande. Donc, vous voyez ici, on a un théorème qui n'est pas très bon pour les petites dimensions, mais pour les grandes dimensions, il est très bon, en ce sens que la vitesse de convergence ne dépend pas de la dimension. Alors, dernier point et là, bon j'essaye de vous donner des champs d'ouvertures du domaine des probabilités, pour avoir envie d'aller plus loin ultérieurement. Donc, un dernier point, l'application fondamentale du théorème de la limite centrale, les applications en statistiques, qu'on appelle inférentielles, c'est-à-dire les statistiques qui permettent à partir d'observations de faire de la prédiction, et de quantifier les erreurs de prédiction que l'on peut faire. Donc, le lien entre observation et prédiction, eh bien, vous l'avez un petit peu vu dans des séances de simulations à travers la méthode de Monte-Carlo, puisque ces méthodes d'approximation aléatoire, pour des quantités déterministes, vous pouvez avoir la quantité déterministe qu'on cherche comme justement la chose qu'on cherche à prédire, et les observations sont données par les répétitions de l'expérience. Donc, la loi des grands nombres va vous justifier, vous permettre de construire une théorie statistique qui passe des observations à une prédiction, mais la quantification des erreurs de prédiction sera, vous sera donnée par le théorème de la limite centrale. Donc, ce transparent termine, en fait, ce cours que j'ai appelé Aléatoire donc, qui vous développe un peu la théorie, les premières étapes de théorie des probabilités. Et j'espère que, si vous avez tenu jusque là dans ce cours, vous allez pouvoir continuer en suivant d'autres cours plus tard, et rentrer encore plus dans ce monde magique de l'aléatoire. Donc, je vous remercie beaucoup pour avoir tenu, comme je le dis, jusqu'au bout dans l'écoute de ce cours. C'était assez long et sans doute quelquefois un peu ardu. J'espère que vous en avez tiré profit et je vous remercie beaucoup pour votre attention. Donc, je voudrais quand même finir en remerciant toute l'équipe. Donc, vous allez voir qu'il y a un grand nombre de gens qui ont travaillé pour ce cours. Il y a toute l'équipe pédagogique. Donc, vous avez vu et entendu Jean-René Chazottes et Carl Graham, qui ont développé le cours avec moi, mais il y a aussi les gens cachés, dont Camille Coron, qui s'est occupée de mettre en place le QCM, Manon Costa qui a relu, réécouté toutes les séances pour voir tous les lapsus, erreurs, etc que l'on pouvait dire. Marc Monticelli qui a participé à la création de toutes les simulations, et surtout la création du site interactif sur lequel vous pouvez jouer avec les simulations. Et puis, il y a toute l'équipe audiovisuelle qui nous a énormément aidés et sans qui rien n'aurait été possible. Donc, les cadreurs, Laurent Bouhours et Fabien Dufour, qui dirige cette équipe, et puis tous les cadreurs monteurs, donc Prescillia Garibaldi, Christophe Gorsse, Christian Witz, et Michel Grangenois. Donc, merci aussi au chargé de mission E-learning, Eric Vantroeyen, qui essaye d'organiser toute cette mission de MOOC et de E-learning, et puis moi je voudrais remercier tous les collègues de l'enseignement, de cours qu'on appelle Tronc Commun à l'École Polytechnique et qui s'appelle Aléatoire, puisque c'est grâce à eux que ce cours s'est construit d'année en année. Et en particulier Emmanuel Gobet et Florent Benaych, qui nous ont donné un certain nombre de documents pour ce cours. Et puis finalement, je vais remercier le Directeur de l'Enseignement et de la Recherche de l'École Polytechnique, Frank Pacard, qui nous a beaucoup poussés à faire ce cours et qui arrive maintenant à sa fin. Donc, je vous dis au revoir.