vendredi 22 janvier 2010

Etrange perspicacité collective (1)

Part1: dans les entrailles du phénomène
On ne choisit pas sa famille. En inventant le concept d'eugénisme, Francis Galton reste aux yeux de l'histoire le symbole du mauvais génie, le côté obscur de la science dont son cousin Charles Darwin serait la face lumineuse. Ce passionné des statistiques et des mesures en tout genre a pourtant fait des découvertes très intéressantes. Il observa par exemple l'incroyable capacité d'une foule à faire collectivement des prédictions d'une exactitude confondante, bien meilleure que celle de chacun des individus qui la composent...

Trop fort le groupe!
En visitant une foire agricole à Plymouth en 1906, Galton assista à un concours dont l'objet était de deviner le plus précisément possible le poids d'un boeuf. A l'issue du jeu, Galton se fit remettre les 787 estimations recueillies et s'amusa à en faire les statistiques. A son grand étonnement, la valeur médiane de ces estimations (le poids pour lequel 50% des participants trouvent qu'il est surestimé et 50% qu'il est sous-estimé) s'avéra étonnamment proche de la valeur réelle du bœuf -543 kilos pour un poids réel de 545, soit moins de 1% d'erreur.

Vous pensez bien que depuis 1906 on a fait et re-refait cette expérience à de nombreuses reprises. On n'avait pas forcément un bœuf sous la main, alors on a tenté avec d'autres trucs:
- la température d'une pièce (22.2°C, estimée collectivement par une classe à 22.4°C);
- le classement d'objets par ordre de poids croissant (94% d'exactitude collective);
- le nombre de bonbons dans un bocal (850 dragibus pour une estimation collective médiane de 871);
- les Oscars 2007, pour lesquels 57 étudiants de l'Université de Columbia ont collectivement deviné 11 vainqueurs sur 12.

Les limites de la clairvoyance
A chaque fois, les chercheurs ont été bluffés: non seulement l'estimation collective était incroyablement précise, mais surtout elle s'avérait toujours meilleure que les meilleures prédictions individuelles, à de très rares exceptions près. Dans l'expérience du bocal, une seule personne sur les 56 estima plus précisément le nombre de bonbons. Dans la prédiction des Oscars, aucun étudiant ne prédit plus de 9 vainqueurs sur les 12.

Bien entendu ça ne marche pas pour tout. Si vous avez un calcul de maths à faire vous avez plus vite fait de demander à un matheux de trouver tout seul la solution qu'à un groupe de donner son avis. Les problèmes les plus adaptés à la perspicacité collective sont ceux pour lesquels il n'existe pas une seule bonne méthode de résolution mais au contraire plusieurs approches, plus ou moins bonnes, que chacun explore avec plus ou moins de succès.

Ca ne suffit évidemment pas: si l'on demandait à une classe de primaire d'estimer combien le bocal contient d'atomes on obtiendrait n'importe quoi. Les participants doivent avoir une idée -plus ou moins bonne- sur la question posée. Dans le concours agricole de Galton, l'exceptionnelle précision obtenue (moins de 1% d'erreur) vient sans doute de la familiarité des participants avec ce genre de problème. D'ailleurs faire payer la participation permet de garantir un minimum d'expertise.
Par ailleurs, le pronostic d'un groupe est facilement manipulable. Dans l'une des expériences avec le bocal de bonbons, on a demandé aux participants de refaire une seconde estimation après leur avoir fait remarqué que le récipient en plastique avait des parois plus fines qu'un bocal en verre (donc une plus grande contenance). Le second vote a été cinq fois moins précis que le premier, sans doute parce que les participants ont tous biaisé de la même manière leur première estimation. Non pas que l'information sur la capacité du bocal ait été fausse, mais le fait d'attirer l'attention sur ce point les a induit en erreur lors de leur second vote. Le groupe, manipulé, a collectivement perdu un peu de clairvoyance.

Indépendance et diversité
Dans son bouquin 'The Wisdom of Crowds' (la sagesse des foules), James Surowiecki observe que tous les cas qui "marchent" réunissent trois conditions:
- Il faut bien sûr un système simple d'agrégation qui résume en un nombre toutes les opinions individuelles (typiquement un vote, un pari, un prix etc.);
- L'indépendance des opinions les unes par rapport aux autres est un ingrédient essentiel. Faute de quoi il risque de se former des bulles spéculatives, comme en Bourse où chacun décide aussi en fonction de l'idée qu'il se fait de l'opinion collective. La meilleure "clairvoyance collective" s'obtient quand chacun estime dans son coin, sans prêter attention à ce que pensent les autres.
- Enfin, et c'est le plus étonnant, une grande diversité d'opinions améliore considérablement la performance du groupe. Surowiecki donne pas mal d'exemples où la trop grande homogénéité des individus affecte la "perspicacité collective". Quand tout le monde raisonne de la même manière, le résultat est nécessairement biaisé. C'est typiquement le cas des marchés boursiers (en plus de l'effet spéculatif) où tous les porteurs fondent leur opinion sur les mêmes sources d'informations financières.

Bizarrement le groupe le plus performant n'est pas le petit cercle des meilleurs experts, mais un mélange assez large d'experts et d'amateurs ayant des points de vue très différents y compris les plus excentriques. En lisant le bouquin de Surowiecki et les articles autour de ce thème, on sent le phénomène sans vraiment le démontrer. J'ai raconté dans un billet précédent l'exemple de "Qui veut gagner des millions" où le joker "demander l'avis au public" est bien plus efficace que celui qui consiste à "appeler un expert". Sauf que l'explication proposée repose sur un cas de figure bien précis et l'on pourrait imaginer beaucoup d'autres circonstances où le public se tromperait plus que les experts.

Une explication souvent avancée fait appel à la distribution "en cloche" des prévisions individuelles autour d'une moyenne. La loi des grands nombres veut que cette moyenne est d'autant plus proche de la valeur exacte que le groupe est grand. Le problème c'est que l'analyse des statistiques contredit complètement cette interprétation. La preuve en est que l'estimation collective est bien plus précise que l'estimation d'un individu moyen, même et surtout dans les grands groupes. Scott Page, chercheur en sciences sociales de l'Université de Columbia, a une explication plus subtile...

Le théorème de la prédiction par la diversité
Prenons un exemple. Page a compilé les pronostics de 7 journalistes sportifs sur le classement final des douze meilleurs joueurs de football américain au NFL (National Football League) pour la saison 2005. Par exemple Wright a prédit que le joueur Smith terminerait 1er, Brown 2eme, etc. Il s'est trompé pour Williams qu'il voyait en 8eme place alors qu'il a fini 5eme, etc. Comme d'habitude on prend comme "pronostic collectif" la moyenne des pronostics individuels (dernière colonne) et on compare ces pronostics au classement final -la première colonne (cliquez pour aggrandir le tableau).


Pour mesurer l'acuité des pronostics d'un pronostiqueur, on additionne les carrés de ses erreurs de pronostic (en stat on appelle ça la variance). Cette méthode permet de compter de la même façon les surestimations et les sous-estimations. L'erreur "moyenne" de Wright vaut ainsi 0+0+0+0+(8-5)² + (16-6)² + (13-7)² etc. = 158. Nos sept pronostiqueurs font en moyenne une erreur individuelle de 132. Et comme d'habitude le pronostic collectif est bien plus précis, avec une erreur de seulement 50. On n'est pas non plus surpris de constater qu'un seul parieur fait mieux que le pronostic collectif. C'est Judge -qui porte bien son nom- avec une erreur de 39 seulement.

L'astuce de Page pour comprendre ce qui se passe, a été d'imaginer une seconde variable, celle de la "disparité de la prédiction", l'écart de son pronostic par rapport au pronostic moyen de ses collègues. La disparité d'un pronostiqueur se calcule en additionnant les carrés des écarts entre ses pronostics et le pronostic moyen.
La disparité de prédiction de Wright vaut: 0+ (2-2.7)²+(3-3.3)²+(4-6.4)² etc. = 87
La moyenne de ces disparités individuelles mesure donc l'hétérogénéité des prédictions au sein du groupe. Elle vaut 82 dans notre exemple:


On constate que l'erreur du pronostic collectif (50) vaut la moyenne des erreurs individuelles (132) moins cette moyenne des disparités (82).
A coups de formules un peu barbares, Page montre que ce résultat n'est pas statistiquement vrai mais toujours vrai. Son "théorème de la prédiction par la diversité" (Diversity Prediction Theorem) a des conséquences très intéressantes:
1) la prédiction d'un groupe est toujours meilleure que celle d'un individu moyen (car la moyenne des disparités de prédiction est positive)
2) Si le groupe est à la fois disparate et composé de gens qui s'y connaissent un peu, l'erreur collective devient toute petite. Et on comprend pourquoi il est si difficile de prédire mieux que le groupe.
3) Pour améliorer la clairvoyance d'un groupe, il revient au même d'améliorer la qualité moyenne des pronostics individuels (avec de l'entrainement, des formations etc.) ou d'augmenter sa disparité, en introduisant des profils exotiques, des raisonnements très différents etc. Bref, un oeil neuf sur un problème difficile au moins autant qu'une expertise très poussée. Il y a bien entendu une limite à cette augmentation de la "disparité collective", puisqu'à un certain moment, trop de disparité impacte la moyenne des erreurs individuelles.

Globalement je trouve plutôt cocasse que ce soit l'inventeur de l'eugénisme qui nous ait permis de démontrer toutes les vertus de la diversité en termes de clairvoyance collective. La prochaine fois, je vous emmènerai faire un tour du côté des applications de cette curieuse loi...


Références:
L'article original de Galton (1907) est disponible ici
James Surowiecki, The Wisdom of Crowds (2004)
M. Maubussin, Explaining the wisdom of crowds
Scott Page, The Difference (2008) avec un extrait de son bouquin ici

Billets connexes:
Bancs et nuées sur d'autres phénomènes collectifs
Foule paradoxale