Petite expérience de stats...
Prenez n'importe quelle longue série de mesures: typiquement une liste des cours de Bourse et les volumes d'échanges des titres (ici), ou encore des statistiques mondiales sur le PNB, la taille des populations etc. (ici par exemple). Avec un tableur amusez-vous à comparer à quelles fréquences tous ces nombres commencent par un 1, par un 2, par un 3 etc. Qu'en dites-vous? Le bon sens voudrait que toutes ces fréquences soient identiques (soit environ 11% pour chacun des 9 chiffres).
Voici pourtant la distribution que vous allez trouver:
1 dans 30% des cas
2 dans 18% des cas
3 dans 12% des cas etc.
jusqu'au chiffre 9 dont la fréquence est inférieure à 5%: vous avez six fois plus de chance de tomber sur un nombre commençant par 1 que par un 9.
La Loi de Benford
Etrangement, cette répartition suit une loi logarithmique (encore elle): la probabilité pour qu'un nombre commence par le chiffre p est à peu près égale à Log (1+1/p). How strange!
C'est à un astronome américain, Simon Newcomb, que l'on doit cette découverte en 1881. En manipulant les formulaires qu'on utilisait à l'époque pour faire des grands calculs, il s'était aperçu que les premières pages - celles qui concernent les nombres commencent par 1- étaient beaucoup plus usées que les autres et, en creusant le phénomène, il énonça le premier la loi de distribution logarithmique. Mais sa trouvaille n'eut pas beaucoup de succès et il fallut attendre 1938 pour qu'un physicien anglais, Frank Benford, redécouvre cette drôle de loi et la vérifie expérimentalement sur tout un tas de séries de données.
Vous pouvez essayer avec toutes les mesures statistiques qui vous tombent sous la main, de la hauteur des immeubles aux statistiques des naissances, en passant par les longueurs des rivières. La loi de Benford marche plutôt pas mal :
- quand la série des valeurs s'étale sur plusieurs ordres de grandeurs: évitez donc les statistiques concernant l'âge ou le QI des personnes, ou encore le nombre d'enfants par couple par exemple;
- chaque fois que c'est une quantité mesurée: pas la peine d'essayer avec une liste de codes postaux ou de numéros de téléphone;
- lorsqu'il n'y a pas de valeur préférentielle: les listings de prix ne suivent pas très bien cette loi car on préfère toujours un prix de 9,99€ plutôt que de 10€ par exemple.
Pourquoi n'obtient-on pas une distribution uniforme?
Ce qui est étrange c'est qu'on s'attend à ce que tous les nombres d'une grande série soit répartis uniformément sur une échelle de 1 à 1000 par exemple, sans aucune préférence pour tel premier chiffre plutôt que tel autre. Et d'ailleurs, quand bien même il y aurait cette préférence, ne suffit-il pas de changer d'unité de mesure (en passant du dollar à l'euro ou au yen par exemple dans la mesure des PNB) pour qu'une telle distribution vole en éclats? Ah ah! Qu'est-ce qu'il disent là-dessus Benford et Newcomb?
C'est paradoxalement cette objection concernant l'unité de mesure qui permet de comprendre ce qui se passe. Supposons que notre série soit répartie uniformément le long de l'échelle de mesure, avec la même probabilité (11,1%) de commencer par un 1, par un 2, par un 3 etc. Que se passe-t-il si on prend pour la même série de nombre une unité de mesure deux fois plus petite?
Tous les nombres de la série qui commençaient par 1 dans l'unité initiale, vont désormais commencer soit par un 2, soit par un 3 dans la nouvelle unité;
ceux qui commençaient par un 2 dans l'ancienne unité vont désormais commencer par 4 ou 5 dans la nouvelle;
ceux qui commençaient par un 3 vont désormais commencer par 6 ou 7;
ceux qui commençaient par un 4 vont désormais commencer par 8 ou 9.
En revanche tous les nombres qui commençaient par 5, 6, 7, 8 ou 9 vont tous commencer par 1 dans la nouvelle unité:
En changeant d'unité, on passe d'une distribution uniforme des premiers chiffres à une distribution totalement déséquilibrée où les nouvelles mesures commencent par le chiffre 1 dans plus de la moitié des cas. Notre intuition était trompeuse: une distribution uniforme des premiers chiffres n'est absolument pas stable quand on change d'échelle. Si l'on cherche une distribution insensible à l'unité de mesure, il faut manifestement chercher autre chose...
Pourquoi une répartition logarithmique?
La question posée est donc bien: quelle serait une distribution des fréquences du premier chiffre qui serait insensible à n'importe quel changement d'unité?
Pour essayer d'y voir plus clair, utilisons la notation scientifique où 2349,45 s'écrit 2,34945 103. N'importe quel nombre X non nul de la série s'écrit ainsi X= x 10n, avec x € [1,10[ et n entier. Le premier chiffre à gauche du nombre X est la partie entière de x et la distribution recherchée est simplement la distribution des x sur [1,10[. Cette distribution ne doit pas changer si on multiplie x par une constante a.
Comme la distribution des x est la même que celle des ax, celle de Log(x) est la même que celle de Log(ax)=Log(a) + Log(x).
Si on pose y=Log(x), y€[0,1[. La distribution de y est invariante par addition de n'importe quelle constante. Ca marche par exemple si y est uniformément réparti sur [0,1[
Pour que la distribution de x soit invariante par changement d'échelle, ce ne sont pas les x qui doivent être uniformément répartis mais leurs logarithmes!
La probabilité pour que X commence par d (d étant un entier de 1 à 9) se calcule ainsi:
La loi de Benford est juste la conséquence de cette propriété! Dans ces séries, un nombre a autant de chance d'être entre 10 et 100 qu'entre 100 et 1000.
Pourquoi les petits nombres sont-ils privilégiés?
OK des logarithmes répartis uniformément signent donc une distribution insensible à l'unité de mesure. Mais en quoi cela favoriserait-il la fréquence des nombres commençant par un 1? Pourquoi les séries géométriques ont-elles toujours plus de nombres commençant par 1, quelque soit l'origine de la suite 10, 20, 30, 40 ou 90?
La probabilité qu'un nombre commence par un 1 est proportionnelle à la somme des aires des bandes rouges, c'est à dire grosso modo à la largeur cumulée de ces bandes rouges. Idem pour le chiffre 2 et les bandes bleues.
Il suffit de regarder l'échelle logarithmique pour voir que les petits nombres ont la part belle, alors que les 7, 8 et 9 ont la portion congrue de l'échelle. C'est exactement cette inégalité de traitement qui se reflète dans la loi de Benford.
Bon mais ça sert à quoi?
La loi de Benford n'est pas seulement une curiosité scientifique, c'est aussi un redoutable détecteur de fraude fiscale. Oui vous avez bien lu, de fraude fiscal.
Quand on falsifie une déclaration fiscale, on a naturellement tendance à inventer des listes de nombres qui commencent aussi bien par 1, 2 ou 3 que par 5, 6 ou 7. Bref, ces listes violent la loi de Benford et le fisc américain utilise désormais ce nouvel outil pour chasser les fraudeurs. L'arme est redoutable, car fabriquer une liste qui suive correctement toutes les subtilités de la distribution de Benford n'est vraiment pas simple.
Globalement la loi de Benford est un remarquable détecteur de statistiques truquées ou incohérentes. On l'utilise pour vérifier que des simulations sont plausibles. On l'a même invoqué pour dénoncer la fraude électorale en Iran durant les dernières élections!
N'allez quand même pas prendre la loi de Benford pour le nouveau nombre d'or de la statistique moderne. D'abord elle ne s'applique pas à toutes les suites loin s'en faut: ça marche sur les mesures, sur la suite n! ou sur celle de Fibonacci, mais pas du tout sur celle des nombres premiers par exemple. Ensuite comme le dit Jean-Paul Delahaye, son caractère paradoxal est uniquement dû au fait que "les humains considèrent spontanément que tout ce qui est aléatoire est uniforme. Le premier chiffre significatif, évidemment obtenu par hasard, devrait alors suivre une loi uniforme. La loi de Benford peut donc être comprise comme un paradoxe psychologique (en non mathématique)..." On ne saurait mieux dire.
Sources:
Wikipedia (plus complet en anglais)
Loi de Benford et la détection des fraudes comptables
Gauvrit et Delahaye, Pourquoi la loi de Benford n'est pas mystérieuse (Mathematics and social science 2008) pour une démonstration rigoureuse de cette loi;
Les deux articles du blog d'Arthur Charpentier consacrés à ce sujet (ici et là), et auquel j'ai emprunté la photo de la calculatrice usée.
Billet connexe
Notre sens du Logarithme le billet précédent