Avez-vous remarqué la connotation négative de tous les termes qui ont trait au hasard? "L'aléa" est synonyme de mauvaise surprise, comme le "risque" d'ailleurs. "Hazardous" signifie dangereux en anglais et en français tout ce qui est "hasardeux" n'a pas franchement la cote non plus. Il faut croire qu'on n'est pas très à l'aise avec l'incertitude en général. Mais comme il faut bien faire avec, on tente de domestiquer les phénomènes aléatoires en les réduisant à leur moyenne, agrémentée de leur "écart-type" si on veut faire pro (qui indique la dispersion typique des mesures autour de la moyenne). Et l'on se représente mentalement la série des valeurs aléatoires gentiment dispersée autour de la moyenne et de plus en plus rares à mesure qu'on s'en éloigne. Cette distribution dite "normale" (les mots ne sont pas neutres) est la fameuse courbe en cloche de Gauss, extraordinairement pratique, mais qui nous induit souvent en erreur comme on va le voir...
Tapons-nous la cloche
La fréquence des tailles au sein d'une population adulte donne une bonne idée de l'allure d'une telle distribution:
Dans ce type de distribution règne la tyrannie de la moyenne:
- l'immense majorité de l'échantillon se concentre autour de la moyenne, à la pointe de la cloche: 68% des valeurs sont à moins d'un écart-type de la moyenne (entre 1m75 et 1m90 dans notre exemple);
- la proportion des valeurs extrêmes diminue exponentiellement quand on s'éloigne de la moyenne: il y a une chance sur un milliard de tomber sur un géant de plus de 2m30.
Les extrêmes sont donc à la fois modérés, rares et de peu d'influence. La loi des grands nombres prédit que la moyenne mesurée à partir de n'importe quel (grand) échantillon donne une très bonne approximation de la moyenne théorique, car aucun individu de l'échantillon n'aura un poids suffisant pour biaiser significativement la mesure. Dans ce Médiocristan comme l'appelle Nassim Nicholas Taleb [1] figure la statistique de l'âge d'une population, du nombre de côtés "pile" quand on lance une pièce de monnaie, du nombre de personnes par foyer, etc.
Pareto: voyage dans le royaume de l'Ekstremistan
En étudiant la répartition des richesses de la population italienne à la fin du XIXeme siècle, Vilfredo Pareto découvrit une tout autre distribution aléatoire, où 20% de la population gagne 80% des revenus d'un pays. Depuis cette époque, les 20% les plus riches gagnent plutôt 40% des revenus en France et aux Etats-Unis parce que les inégalités se sont un peu réduites (ou est-ce parce que les revenus déclarés au fisc reflètent mal la valeur réelle des hauts revenus? ;-) mais on continue d'appeler ça la loi des 80-20:
Ce type de distribution "sauvage" comme l'appelle Benoît Mandelbrot, a cours dans beaucoup de domaines, comme ceux qu'on trouve par exemple sur le site de Gérard Villemin:
- Moins de 1% des loueurs de voitures comptent pour plus de 25% des heures de location;
- 30% des sites Web concentrent 90% des visites;
- 17% de la population mondiale (celles des pays riches) consomment 80% des médicaments etc.
- En biologie les insectes représentent un million des 1 800 000 espèces décrites à ce jour, suivis de loin par les plantes supérieures (270 000) qui elles-mêmes devancent les mollusques (85 000). Mais tout ça n'est rien par rapport aux bactéries qui battent à plate couture toutes les autres formes de vie sur l'arbre du vivant (sur la figure empruntée à Wikipédia, les bactéries sont en bleu) et représenteraient plus de la moitié de la biomasse sur Terre!
La loi des grands nombres: abrogée!
Ici, c'est l'inverse du Médiocristan. Les valeurs extrêmes sont certes rares, mais elles sont tellement spectaculaires que leur présence n'est plus du tout négligeables sur la moyenne. Prenez par exemple la taille des 36 500 communes en France métropolitaine: 1722 habitants en moyenne. Si vous écartez les valeurs extrêmes des 113 villes de plus de 50 000 habitants, votre moyenne tombe à 1324 habitants! 0,35% des données pèsent donc pour 25% de la moyenne. Plus question donc d'appliquer la loi des grands nombres car vous avez de grandes chances que votre échantillon ne soit pas bien représentatif des valeurs extrêmes. Idem pour l'écart-type.
Je me suis amusé à regarder l'historique du Nasdaq depuis 1971 (les données sont téléchargeables ici). Les différences sautent aux yeux quand on compare la distribution des fluctuations quotidiennes du Nasdaq avec celles d'une Gaussienne ayant la même moyenne (0,27) et le même écart-type (27):
Hasard fractal...
Ces distributions extrêmes ont une autre caractéristique: leurs règles étranges sont valables quelque soit l'échelle à laquelle on les regarde. Pour reprendre l'exemple des communes, 23% de la population est concentrée dans 0,34% des communes (les 113 plus grandes villes), mais cette hyperconcentration se vérifie aussi dans la taille des 60 plus grandes villes dont 40% de la population se concentre sur les 6 premières. Et Paris pèse à lui tout seul près de la moitié de ces 6 mégapoles.
Idem pour le Nasdaq, dont l'évolution est étrangement similaire, qu'on l'observe sur 15 ans ou sur 12 mois:
Qui dit invariance d'échelle dit...fractales! Alors que dans une distribution gaussienne, les variations deviennent imperceptibles dès qu'on prend de la hauteur, il n'en est rien pour ces distributions qui conservent la même apparence très irrégulière quelque soit l'échelle à laquelle on les regarde (2).
La raison profonde au fait que la règle des 80-20 reste vraie à toutes les échelles, tient à ce qu'il y a dans toutes ces distributions un effet de renforcement pour les valeurs extrêmes, du type "le gagnant rafle tout": la richesse appelle la richesse (pour la répartition des revenus), la notoriété renforce la notoriété (pour le trafic sur le Web), les grandes villes attirent la population et la Bourse est connue pour ses comportements moutonniers en période de panique ou d'euphorie.
Quand l'ordre dicte la taille...
On a déjà rencontré cette invariance d'échelle dans ce billet sur la loi de Benton: elle suppose que la distribution suive une loi de puissance de type p(x≥h)=h-α, α étant un paramètre fixe. Lorsque cette distribution concerne des phénomènes que l'on peut classer par ordre de grandeur (la longueur des fleuves par exemple), il existe toujours une relation directe entre le rang et la dimension du phénomène. Le phénomène numéro r aura une dimension proportionnelle à (K/r)1/α, K et α étant des constantes caractéristiques de cette distribution.
Un tas de phénomènes naturels ou sociaux vérifient ce lien géométrique entre classement et amplitude:
- la magnitude des séismes, c'est la loi de Gutemberg-Richter:
- la fréquence des mots dans un texte: c'est la loi de Zipf:
- les dimensions des fleuves, des lacs ou des montagnes et de manière générale tout ce qui a trait à la topologie des paysages. C'est d'ailleurs pas très surprenant dans la mesure où la côte Bretonne est LA figure fractale par excellence: son aspect déchiqueté est similaire quelque soit l'échelle à laquelle on l'observe.
Le petit conte des Lacs
Mais n'allez pas croire qu'un tel déterminisme aide en quoique ce soit à prévoir la taille des phénomènes extrêmes. La statistique sur les lacs a inspiré un joli conte sur ce sujet à Mandelbrot, le pape des fractales (3). L'histoire se passe dans une contrée brumeuse à la conquête de laquelle se lancent des explorateurs. Ce pays est jonché d'étendues d'eau, certaines immenses (on dit même qu'il y a un océan de 300 km de large, d'autres réduites à de simples lacs d'un kilomètre de largeur. Nos explorateurs n'ont pas de carte, mais sont des bêtes de statistiques (ou alors ils ont lu le Webinet). Ils savent donc que les lacs font en moyenne 2,5km et que le lac numéro r est large de 122 r-0.6
Une fois qu'on s'engage en bateau sur un lac, le brouillard empêche de distinguer l'autre rive si celle-ci est à plus d'un kilomètre. L'équipage en est alors réduit à spéculer sur la probabilité d'arriver prochainement. Si, au bout de cinq kilomètres on n'a toujours pas vu la rive opposée, les calculs indiquent qu'il reste en moyenne cinq autres kilomètres à couvrir. S'il ne voit toujours rien au bout de dix kilomètres, il lui faut s'apprêter à en parcourir dix de plus.
Tapons-nous la cloche
La fréquence des tailles au sein d'une population adulte donne une bonne idée de l'allure d'une telle distribution:
Dans ce type de distribution règne la tyrannie de la moyenne:
- l'immense majorité de l'échantillon se concentre autour de la moyenne, à la pointe de la cloche: 68% des valeurs sont à moins d'un écart-type de la moyenne (entre 1m75 et 1m90 dans notre exemple);
- la proportion des valeurs extrêmes diminue exponentiellement quand on s'éloigne de la moyenne: il y a une chance sur un milliard de tomber sur un géant de plus de 2m30.
Les extrêmes sont donc à la fois modérés, rares et de peu d'influence. La loi des grands nombres prédit que la moyenne mesurée à partir de n'importe quel (grand) échantillon donne une très bonne approximation de la moyenne théorique, car aucun individu de l'échantillon n'aura un poids suffisant pour biaiser significativement la mesure. Dans ce Médiocristan comme l'appelle Nassim Nicholas Taleb [1] figure la statistique de l'âge d'une population, du nombre de côtés "pile" quand on lance une pièce de monnaie, du nombre de personnes par foyer, etc.
Pareto: voyage dans le royaume de l'Ekstremistan
En étudiant la répartition des richesses de la population italienne à la fin du XIXeme siècle, Vilfredo Pareto découvrit une tout autre distribution aléatoire, où 20% de la population gagne 80% des revenus d'un pays. Depuis cette époque, les 20% les plus riches gagnent plutôt 40% des revenus en France et aux Etats-Unis parce que les inégalités se sont un peu réduites (ou est-ce parce que les revenus déclarés au fisc reflètent mal la valeur réelle des hauts revenus? ;-) mais on continue d'appeler ça la loi des 80-20:
source: d'après le site de Daniel Martin
Ce type de distribution "sauvage" comme l'appelle Benoît Mandelbrot, a cours dans beaucoup de domaines, comme ceux qu'on trouve par exemple sur le site de Gérard Villemin:
- Moins de 1% des loueurs de voitures comptent pour plus de 25% des heures de location;
- 30% des sites Web concentrent 90% des visites;
- 17% de la population mondiale (celles des pays riches) consomment 80% des médicaments etc.
- En biologie les insectes représentent un million des 1 800 000 espèces décrites à ce jour, suivis de loin par les plantes supérieures (270 000) qui elles-mêmes devancent les mollusques (85 000). Mais tout ça n'est rien par rapport aux bactéries qui battent à plate couture toutes les autres formes de vie sur l'arbre du vivant (sur la figure empruntée à Wikipédia, les bactéries sont en bleu) et représenteraient plus de la moitié de la biomasse sur Terre!
La loi des grands nombres: abrogée!
Ici, c'est l'inverse du Médiocristan. Les valeurs extrêmes sont certes rares, mais elles sont tellement spectaculaires que leur présence n'est plus du tout négligeables sur la moyenne. Prenez par exemple la taille des 36 500 communes en France métropolitaine: 1722 habitants en moyenne. Si vous écartez les valeurs extrêmes des 113 villes de plus de 50 000 habitants, votre moyenne tombe à 1324 habitants! 0,35% des données pèsent donc pour 25% de la moyenne. Plus question donc d'appliquer la loi des grands nombres car vous avez de grandes chances que votre échantillon ne soit pas bien représentatif des valeurs extrêmes. Idem pour l'écart-type.
Je me suis amusé à regarder l'historique du Nasdaq depuis 1971 (les données sont téléchargeables ici). Les différences sautent aux yeux quand on compare la distribution des fluctuations quotidiennes du Nasdaq avec celles d'une Gaussienne ayant la même moyenne (0,27) et le même écart-type (27):
1) Les très grandes fluctuations, sur lesquelles j'ai fait un zoom, sont beaucoup plus fréquentes. Il y a eu 64 jours "noirs" où l'indice a chuté de plus de 108 points (4 écarts-types), soit une chance sur 150. Si la distribution était "normale", il aurait fallu attendre plus de 10 ans pour qu'une telle chute se produise (une chance sur 31 000)! L'allure de la queue de la courbe de distribution est donc beaucoup plus "épaisse" que pour une courbe gaussienne, d'où son surnom de "fat tail"...
Pour donner une idée de l'impact de ces journées de folie: depuis quarante ans le Nasdaq a oscillé entre 5060 points (valeur maximale en mars 2000) et 54 (valeur minimale en octobre 1974). Or les 11 jours les plus chahutés de l'histoire du Nasdaq représentent à eux tout seuls une variation cumulée de plus de 3000 points, soit 60% de la variation nette globale!
2) A l'autre bout de l'échelle, il y a beaucoup plus de jours en Bourse où il ne se passe rien du tout ou presque: 2000 jours sans aucune variation là où une Gaussienne n'en compterait que 150. A tel point que j'ai dû raboter le haut de l'échelle des ordonnées pour qu'on puisse voir le reste de la courbe. Paradoxalement, on s'ennuie beaucoup plus fréquemment en Ekstremistan! Les évolutions se passent un peu au rythme d'une veste qu'on ouvre en écartant ses pans, sans prendre le soin de la déboutonner: de longues périodes d'immobilité succèdent à de violents a-coups, chaque fois qu'il y a un bouton à passer.
Avec tout ça, on comprend qu'il soit aussi difficile de faire la moindre prédiction sur la Bourse en extrapolant à partir des valeurs passées. La distribution normale sur laquelle s'appuient encore bon nombre de modèles financiers est manifestement peu adaptée à des évolutions aussi chaotiques.Pour donner une idée de l'impact de ces journées de folie: depuis quarante ans le Nasdaq a oscillé entre 5060 points (valeur maximale en mars 2000) et 54 (valeur minimale en octobre 1974). Or les 11 jours les plus chahutés de l'histoire du Nasdaq représentent à eux tout seuls une variation cumulée de plus de 3000 points, soit 60% de la variation nette globale!
2) A l'autre bout de l'échelle, il y a beaucoup plus de jours en Bourse où il ne se passe rien du tout ou presque: 2000 jours sans aucune variation là où une Gaussienne n'en compterait que 150. A tel point que j'ai dû raboter le haut de l'échelle des ordonnées pour qu'on puisse voir le reste de la courbe. Paradoxalement, on s'ennuie beaucoup plus fréquemment en Ekstremistan! Les évolutions se passent un peu au rythme d'une veste qu'on ouvre en écartant ses pans, sans prendre le soin de la déboutonner: de longues périodes d'immobilité succèdent à de violents a-coups, chaque fois qu'il y a un bouton à passer.
Hasard fractal...
Ces distributions extrêmes ont une autre caractéristique: leurs règles étranges sont valables quelque soit l'échelle à laquelle on les regarde. Pour reprendre l'exemple des communes, 23% de la population est concentrée dans 0,34% des communes (les 113 plus grandes villes), mais cette hyperconcentration se vérifie aussi dans la taille des 60 plus grandes villes dont 40% de la population se concentre sur les 6 premières. Et Paris pèse à lui tout seul près de la moitié de ces 6 mégapoles.
Idem pour le Nasdaq, dont l'évolution est étrangement similaire, qu'on l'observe sur 15 ans ou sur 12 mois:
Qui dit invariance d'échelle dit...fractales! Alors que dans une distribution gaussienne, les variations deviennent imperceptibles dès qu'on prend de la hauteur, il n'en est rien pour ces distributions qui conservent la même apparence très irrégulière quelque soit l'échelle à laquelle on les regarde (2).
La raison profonde au fait que la règle des 80-20 reste vraie à toutes les échelles, tient à ce qu'il y a dans toutes ces distributions un effet de renforcement pour les valeurs extrêmes, du type "le gagnant rafle tout": la richesse appelle la richesse (pour la répartition des revenus), la notoriété renforce la notoriété (pour le trafic sur le Web), les grandes villes attirent la population et la Bourse est connue pour ses comportements moutonniers en période de panique ou d'euphorie.
Quand l'ordre dicte la taille...
On a déjà rencontré cette invariance d'échelle dans ce billet sur la loi de Benton: elle suppose que la distribution suive une loi de puissance de type p(x≥h)=h-α, α étant un paramètre fixe. Lorsque cette distribution concerne des phénomènes que l'on peut classer par ordre de grandeur (la longueur des fleuves par exemple), il existe toujours une relation directe entre le rang et la dimension du phénomène. Le phénomène numéro r aura une dimension proportionnelle à (K/r)1/α, K et α étant des constantes caractéristiques de cette distribution.
[Pour les matheux-curieux: si la probabilité qu'un phénomène x ait une amplitude ≥ h vaut p(x≥h)= h-α alors sur un échantillon de grande taille K, le nombre de phénomènes de taille ≥ h vaut Kh-α
Un phénomène d'amplitude h aura donc le rang r=Kh-α
Le phénomène de rang r aura donc pour taille h=(K/r)1/α ]
Un phénomène d'amplitude h aura donc le rang r=Kh-α
Le phénomène de rang r aura donc pour taille h=(K/r)1/α ]
Un tas de phénomènes naturels ou sociaux vérifient ce lien géométrique entre classement et amplitude:
- la magnitude des séismes, c'est la loi de Gutemberg-Richter:
- la fréquence des mots dans un texte: c'est la loi de Zipf:
- les dimensions des fleuves, des lacs ou des montagnes et de manière générale tout ce qui a trait à la topologie des paysages. C'est d'ailleurs pas très surprenant dans la mesure où la côte Bretonne est LA figure fractale par excellence: son aspect déchiqueté est similaire quelque soit l'échelle à laquelle on l'observe.
Graphique à partir des statistiques disponibles pour les lacs d'Europe.
La très belle corrélation linéaire entre logarithmes équivant à une loi de puissance puisque:
Log(surface)=-1,2Log(rang)+4,67 revient à S=47000r-1,2.
En supposant les lacs circulaires, leur largeur vaut donc L=122r-0,6
La très belle corrélation linéaire entre logarithmes équivant à une loi de puissance puisque:
Log(surface)=-1,2Log(rang)+4,67 revient à S=47000r-1,2.
En supposant les lacs circulaires, leur largeur vaut donc L=122r-0,6
Le petit conte des Lacs
Mais n'allez pas croire qu'un tel déterminisme aide en quoique ce soit à prévoir la taille des phénomènes extrêmes. La statistique sur les lacs a inspiré un joli conte sur ce sujet à Mandelbrot, le pape des fractales (3). L'histoire se passe dans une contrée brumeuse à la conquête de laquelle se lancent des explorateurs. Ce pays est jonché d'étendues d'eau, certaines immenses (on dit même qu'il y a un océan de 300 km de large, d'autres réduites à de simples lacs d'un kilomètre de largeur. Nos explorateurs n'ont pas de carte, mais sont des bêtes de statistiques (ou alors ils ont lu le Webinet). Ils savent donc que les lacs font en moyenne 2,5km et que le lac numéro r est large de 122 r-0.6
Une fois qu'on s'engage en bateau sur un lac, le brouillard empêche de distinguer l'autre rive si celle-ci est à plus d'un kilomètre. L'équipage en est alors réduit à spéculer sur la probabilité d'arriver prochainement. Si, au bout de cinq kilomètres on n'a toujours pas vu la rive opposée, les calculs indiquent qu'il reste en moyenne cinq autres kilomètres à couvrir. S'il ne voit toujours rien au bout de dix kilomètres, il lui faut s'apprêter à en parcourir dix de plus.
"Le fait même d'avoir couvert quelques kilomètres sans rien rencontrer fait taire tout espoir d'être tombé sur un petit lac et augmente celui d'être tombé sur un lac moyen ou grand, et augmente même le risque terrifiant de s'être engagé sans le savoir sur un Océan."
[Pour les algébristes seulement: on peut démontrer cette propriété bizarre d'un accroissement géométrique de l'espérance à mesure qu'on s'éloigne du bord:Dans le monde des fractales, tout se joue donc au départ. Si un projet planifié sur un an au total, met initialement deux mois au lieu d'un seul pour passer son premier jalon, ce n'est pas un mois de retard qu'il risque d'avoir à l'arrivée, mais un an! Du côté des bonnes nouvelles, si le jour de sa sortie en salle un film fait cinq fois plus d'entrées qu'un autre, il a de bonnes chances d'avoir cinq fois plus de succès globalement. C'est sans doute la raison pour laquelle Apple concentre autant d'efforts promotionnels au lancement de son iPad, même s'il est certain du succès de celui-ci.Si p(L≥x)=x-α (c'est l'hypothèse de départ, souvenez-vous) la probabilité conditionnelle p(L≥x) sachant que L≥h s'écrit :
p(L≥x / L≥h) = p(L≥x)/p(L≥h) = (x/h)-α
Si l'on fixe h (5km par exemple), la densité de probabilité vaut
p(x / x≥h)= αhα x-α-1 (c'est la dérivée de la fonction de répartition qu'on vient d'écrire)
et l'espérance E(x / x≥h) est l'intégrale entre h et +∞ de l'expression: αhα x-α-1xdx
Le calcul donne
E(x / x≥h) = hα/(α-1) c'est-à-dire: E(x-h / x≥h)=h/(α-1)
Cette équation barbare se lit de la façon suivante: la distance restant à parcourir quand on a déjà parcouru une distance h est proportionnelle à cette distance h [avec un facteur 1/(α-1) ]
Principe d'incertitude en version macroscopique
Sauf que... le conte de Mandelbrot nous indique aussi qu'on est toujours certain d'être surpris, paradoxe qui ne manque pas de saveur:
"Et puis tout d'un coup, les arbres émergent de la Brume, et on arrive au but. "Haro sur le mauvais faiseur de prévision!" Se moque-t-il de nous, ou commet-il une faute de calcul? Le premier voyageur (bien sûr) l'avait cru, mais il dut se rendre à l'évidence mathématique. C'est curieux, mais c'est ainsi: pendant que l'explorateur abat du travail, la valeur probable de la tâche restante s'allonge à mesure. L'on s'exclame, l'on s'étonne, et les vétérans expliquent patiemment qu'il ne s'ensuit en aucune façon que l'autre rive du lac soit un mirage. Elle existe bel et bien, et les esprits fantasques des Brumes, non seulement finissent toujours par s'attendrir, mais en général s'attendrissent fort rapidement(...) L'autre rivage apparaît juste au moment où rationnellement il paraissait plus éloigné que jamais. Dès lors toutes sortes de clichés s'appliquent de la façon la plus textuelle. Il ne faut pas lâcher pendant le dernier quart d'heure..."
Bref, si les extrapolations gaussiennes sont hors de propos, les prédictions de la statistique fractale ne parviennent pas à faire beaucoup mieux. Elles ne parviennent qu'à nous montrer à quel point tous nos efforts de prédictions sont vains dans beaucoup de domaine. Ce principe d'une "inévitable surprise" -analogue à l'indétermination quantique?- est finalement la seule certitude positive qu'il nous reste. Remarquez, je trouve ça déjà pas mal d'être certain par avance que la nature nous réserve beaucoup d'autres sujets d'étonnement.
Sources:
[1] Nassim Nicholas Taleb, Le Cygne Noir (2007): un excellent bouquin que je vous recommande, même si Taleb a manifestement des comptes à régler avec les économistes!
(2) ...jusqu'à un certain point, mais le problème est qu'on ne sait jamais lequel.
(3) Benoît Mandelbrot, Fractales, hasard et finance (1997). J'ai changé les données du conte original car elles ne collent pas avec mes propres statistiques (tirées de Wikipedia sur les lacs d'Europe) et en plus il me semble qu'elles sont incohérentes (la loi T=100/racine(r) de Mandelbrot ne colle pas avec la taille moyenne de 5km qu'il indique dans son livre).
Billets connexes
Logarithmes: again! Sur la loi de Benton et autres curiosités sur les répartitions logarithmique
La Reine, le Fou et l'Arbre illustre la fractalité des évolutions biologiques et technologiques.
(2) ...jusqu'à un certain point, mais le problème est qu'on ne sait jamais lequel.
(3) Benoît Mandelbrot, Fractales, hasard et finance (1997). J'ai changé les données du conte original car elles ne collent pas avec mes propres statistiques (tirées de Wikipedia sur les lacs d'Europe) et en plus il me semble qu'elles sont incohérentes (la loi T=100/racine(r) de Mandelbrot ne colle pas avec la taille moyenne de 5km qu'il indique dans son livre).
Billets connexes
Logarithmes: again! Sur la loi de Benton et autres curiosités sur les répartitions logarithmique
La Reine, le Fou et l'Arbre illustre la fractalité des évolutions biologiques et technologiques.