Le paradoxe de Simpson met les statistiques sens dessus-dessous

Proposé par
le
dans

Le paradoxe de Simpson est un paradoxe statistique contre-intuitif. L'exemple type est celui des chances de succès d'un traitement médical pour des petits et grands calculs rénaux : le premier traitement peut avoir de meilleures chances de succès que le second traitement sur les petits et grands calculs pris individuellement, tout en ayant des chances de succès moindres que le second traitement sur les calculs pris de manière globale et non scindés par taille.

Imaginez que vous avez un calcul rénal, et afin de vous soigner, vous étudiez deux traitements, le traitement A et le traitement B. Vous tombez sur une étude, et le résultat est clair : sur 350 patients, le traitement A en a sauvé 273, alors que le traitement B en a sauvé 289. Le traitement B semble donc meilleur.Cependant, en regardant les chiffres détaillés : pour des petits calculs, le traitement A a sauvé 81 patients sur 87, soit 93%, tandis que le traitement B en a sauvé 234 sur 270, soit 87%. Pour des gros calculs, le traitement A a sauvé 192 patients sur 263, soit 73%, tandis que le traitement B en a sauvé 55 sur 80, soit 69%. Dans les deux cas, le traitement A semble alors meilleur. En réalité, il s'agit de la même étude, avec les mêmes chiffres, mais souffrant du paradoxe de Simpson : le facteur de confusion vient du fait que les petits calculs sont plus faciles à soigner, et que le traitement B est bien plus utilisé pour les petits calculs tandis que le traitement A est utilisé sur les gros calculs. Ainsi, malgré une plus grande réussite individuelle, le traitement A a un taux de réussite globale plus faible.


Commentaires préférés (3)

Bon, l'anecdote n'est pas simple à expliquer, je vous invite à vous reporter au tableau Wikipedia qui résume bien la chose.

20% des accidents mortels sont dus à l’alcool.
Conclusion, 80% des accidents de la route font suite à la consommation de boissons non alcoolisées.

Donc on a plus de chance de mourir d’un accident de la route après la consommation de boissons non alcoolisées.

On fait dire ce que l’on veut aux statistiques.

a écrit : 20% des accidents mortels sont dus à l’alcool.
Conclusion, 80% des accidents de la route font suite à la consommation de boissons non alcoolisées.

Donc on a plus de chance de mourir d’un accident de la route après la consommation de boissons non alcoolisées.

On fait dire ce que l’on veut aux statistiques.
On attend quoi pour punir les sobres ? oh, et surtout, si vous avez un accident de la route, n'allez pas a l’hôpital ! c'est statistiquement l'un des endroits les plus dangereux sur terre, on a bien plus de chance de mourir dans un lit d’hôpital que chez soi !
Un autre problème est la confusion entre corrélation et causalité. Une corrélation, c'est une liaison entre deux variables, mais ça n'implique pas toujours une causalité.
Il existe une corrélation entre la pluie et le sol mouillé. on peut en déduire une causalité : l'eau, ça mouille.
Par contre, certaines corrélations ne sont du qu'au hasard, ce site en répertorie des pas mal :
www.tylervigen.com/spurious-correlations
Il y a une corrélation entre le budget scientifique, spatial et technologique, et le nombre de suicide par pendaison ou étranglement. Doit on en conclure une causalité ? Les personnes pensant que la Terre est plates finissent ils par se suicider quand ils découvrent la vérité ?
Parfois, il peut exister un biais qui implique une corrélation, mais pas une causalité directe, ou du moins pas celle qui semble évidente.
Une étude montre que les familles ayant des animaux de compagnie ont des enfants moins allergique. Miracle, les chiens guérissent les allergies !
ou alors, les enfants avec des allergies ont des problèmes avec les animaux de compagnie...
Dans le même style, une association anti-ondes dénonçait le fait que les personnes vivant sous des pylônes hautes tensions étaient sujets a plus de maladies. Miracle, on a prouvé la nocivité des ondes !
ou alors, les personnes vivant sous ces pylônes sont plus pauvre que la moyenne, et donc avec un accès au soin restreint...
Des assurances ont constatés que la plupart des accidents se font dans des trajets de moins de 30 km. c'est évident, on est moins prudent quand on fait le trajet maison-boulot et boulot-maison !
ou alors, les trajets courts sont les plus commun...
Une étude montre que ceux faisant du jogging à 60 ans ont moins de problèmes de santé à 70 ans. le jogging est donc très bon pour la santé !
ou alors, ceux qui ne font pas de jogging a 60 ans sont déjà en mauvaise santé, donc pas mieux a 70 ans...
Une étude montre que les vegans ont moins de problème d’obésité : la viande, c'est mal !
ou alors, les vegans ont en général une hygiène de vie meilleure que la moyenne, sans fast-food, sodas ou autres.
Des biais comme ça, on peut en trouver plein. méfiez vous


Tous les commentaires (68)

Bon, l'anecdote n'est pas simple à expliquer, je vous invite à vous reporter au tableau Wikipedia qui résume bien la chose.

a écrit : Bon, l'anecdote n'est pas simple à expliquer, je vous invite à vous reporter au tableau Wikipedia qui résume bien la chose. Tout à fait : c’était pas évident d'expliquer ce concept en quelques lignes, et j'ai eu peur que la modération refuse cette anecdote, car sans le complément, c'est dur a comprendre. Merci de l'avoir accepté. Si vous avez le temps, la vidéo de science étonnante (ou son blog) peut vous être utile. Lê de science4all a aussi fait une bonne vidéo.
c'est ce genre de paradoxe qui nous fait douter des statistiques balancés comme ça dans les médias. En général, on peut trouver l’étude plus détaillé sur internet, et on peut découvrir ce genre de biais, ou voir que l’échantillon est minuscule.

20% des accidents mortels sont dus à l’alcool.
Conclusion, 80% des accidents de la route font suite à la consommation de boissons non alcoolisées.

Donc on a plus de chance de mourir d’un accident de la route après la consommation de boissons non alcoolisées.

On fait dire ce que l’on veut aux statistiques.

youtu.be/0NbyYOcIwAY

Cettz video Youtube traite de ce paradoxe de Simpson et l'explique de manière assez claire avec un exemple qui parlera peut être plus, le choix d'un milieu de terrain pour la Coupe du Monde de Foot par Deschamps :)

(D'ailleurs interressez vous à cette chaîne, ce type est extraordinaire)

Mais sinon très bonne anecdote sur un des plus importants paradoxe des statistiques qui montre une fois de plus que rien n'est simple dans cette discipline qui regorge de paradoxent comle celui-ci.

a écrit : Bravo pour ta première anecdote, elle est très intéressante !
Depuis le temps que tu postais des commentaires aussi enrichissants que les anecdotes elles-mêmes, c'est bien que tu aies franchit le pas de la publication. ;)
Une autre a également franchit le cap de la modération, et je vais surement en soumettre plus ce week end. Bon, je pense pas dépasser fancat, mais je compte désormais soumettre régulièrement des anecdotes

a écrit : Tout à fait : c’était pas évident d'expliquer ce concept en quelques lignes, et j'ai eu peur que la modération refuse cette anecdote, car sans le complément, c'est dur a comprendre. Merci de l'avoir accepté. Si vous avez le temps, la vidéo de science étonnante (ou son blog) peut vous être utile. Lê de science4all a aussi fait une bonne vidéo.
c'est ce genre de paradoxe qui nous fait douter des statistiques balancés comme ça dans les médias. En général, on peut trouver l’étude plus détaillé sur internet, et on peut découvrir ce genre de biais, ou voir que l’échantillon est minuscule.
Afficher tout
Bravo pour ta première anecdote, elle est très intéressante !
Depuis le temps que tu postais des commentaires aussi enrichissants que les anecdotes elles-mêmes, c'est bien que tu aies franchit le pas de la publication. ;)

a écrit : Une autre a également franchit le cap de la modération, et je vais surement en soumettre plus ce week end. Bon, je pense pas dépasser fancat, mais je compte désormais soumettre régulièrement des anecdotes C'est sûr que fancat a vraiment mis la barre très haute en termes d'anecdotes publiées.

a écrit : 20% des accidents mortels sont dus à l’alcool.
Conclusion, 80% des accidents de la route font suite à la consommation de boissons non alcoolisées.

Donc on a plus de chance de mourir d’un accident de la route après la consommation de boissons non alcoolisées.

On fait dire ce que l’on veut aux statistiques.
On attend quoi pour punir les sobres ? oh, et surtout, si vous avez un accident de la route, n'allez pas a l’hôpital ! c'est statistiquement l'un des endroits les plus dangereux sur terre, on a bien plus de chance de mourir dans un lit d’hôpital que chez soi !
Un autre problème est la confusion entre corrélation et causalité. Une corrélation, c'est une liaison entre deux variables, mais ça n'implique pas toujours une causalité.
Il existe une corrélation entre la pluie et le sol mouillé. on peut en déduire une causalité : l'eau, ça mouille.
Par contre, certaines corrélations ne sont du qu'au hasard, ce site en répertorie des pas mal :
www.tylervigen.com/spurious-correlations
Il y a une corrélation entre le budget scientifique, spatial et technologique, et le nombre de suicide par pendaison ou étranglement. Doit on en conclure une causalité ? Les personnes pensant que la Terre est plates finissent ils par se suicider quand ils découvrent la vérité ?
Parfois, il peut exister un biais qui implique une corrélation, mais pas une causalité directe, ou du moins pas celle qui semble évidente.
Une étude montre que les familles ayant des animaux de compagnie ont des enfants moins allergique. Miracle, les chiens guérissent les allergies !
ou alors, les enfants avec des allergies ont des problèmes avec les animaux de compagnie...
Dans le même style, une association anti-ondes dénonçait le fait que les personnes vivant sous des pylônes hautes tensions étaient sujets a plus de maladies. Miracle, on a prouvé la nocivité des ondes !
ou alors, les personnes vivant sous ces pylônes sont plus pauvre que la moyenne, et donc avec un accès au soin restreint...
Des assurances ont constatés que la plupart des accidents se font dans des trajets de moins de 30 km. c'est évident, on est moins prudent quand on fait le trajet maison-boulot et boulot-maison !
ou alors, les trajets courts sont les plus commun...
Une étude montre que ceux faisant du jogging à 60 ans ont moins de problèmes de santé à 70 ans. le jogging est donc très bon pour la santé !
ou alors, ceux qui ne font pas de jogging a 60 ans sont déjà en mauvaise santé, donc pas mieux a 70 ans...
Une étude montre que les vegans ont moins de problème d’obésité : la viande, c'est mal !
ou alors, les vegans ont en général une hygiène de vie meilleure que la moyenne, sans fast-food, sodas ou autres.
Des biais comme ça, on peut en trouver plein. méfiez vous

Si j'ai bien compris, si on prend l'exemple d'un QCM où notre réussite ne dépend pas de nos connaissances mais uniquement de la chance. Plus on a de questions, moins on a de chance de réussir. 2 questions : 50% de réussite. 3 questions : 33%. 4 questions : 25%..
Sur un questionnaire de 100 questions on peut en réussir 80 ce qui est très bon mais pour un deuxième questionnaire de 10 questions si on en réussit 9 on obtient un meilleur résultat que le premier.
Y a moyen que mon raisonnement n'ait aucun lien avec l'anecdote car j'essaye de comprendre donc soyez indulgents :D

a écrit : Une autre a également franchit le cap de la modération, et je vais surement en soumettre plus ce week end. Bon, je pense pas dépasser fancat, mais je compte désormais soumettre régulièrement des anecdotes Ouais! C'est super!
Par contre, si elles sont toutes comme celle-là, va y avoir un problème.
Parce-que en la lisant (3 fois) je crois que je me suis fait une entorse au cerveau de bon matin.
Essaie de penser aux limités de la cervelle.

Le paradoxe est dû au fait qu'il y a un autre facteur caché (volontairement ou non) qui exerce une influence sur les statistiques présentées. Au final on peut faire dire aux chiffres ce que l'on veut pour manipuler un public non averti.

a écrit : On attend quoi pour punir les sobres ? oh, et surtout, si vous avez un accident de la route, n'allez pas a l’hôpital ! c'est statistiquement l'un des endroits les plus dangereux sur terre, on a bien plus de chance de mourir dans un lit d’hôpital que chez soi !
Un autre problème est la confusion ent
re corrélation et causalité. Une corrélation, c'est une liaison entre deux variables, mais ça n'implique pas toujours une causalité.
Il existe une corrélation entre la pluie et le sol mouillé. on peut en déduire une causalité : l'eau, ça mouille.
Par contre, certaines corrélations ne sont du qu'au hasard, ce site en répertorie des pas mal :
www.tylervigen.com/spurious-correlations
Il y a une corrélation entre le budget scientifique, spatial et technologique, et le nombre de suicide par pendaison ou étranglement. Doit on en conclure une causalité ? Les personnes pensant que la Terre est plates finissent ils par se suicider quand ils découvrent la vérité ?
Parfois, il peut exister un biais qui implique une corrélation, mais pas une causalité directe, ou du moins pas celle qui semble évidente.
Une étude montre que les familles ayant des animaux de compagnie ont des enfants moins allergique. Miracle, les chiens guérissent les allergies !
ou alors, les enfants avec des allergies ont des problèmes avec les animaux de compagnie...
Dans le même style, une association anti-ondes dénonçait le fait que les personnes vivant sous des pylônes hautes tensions étaient sujets a plus de maladies. Miracle, on a prouvé la nocivité des ondes !
ou alors, les personnes vivant sous ces pylônes sont plus pauvre que la moyenne, et donc avec un accès au soin restreint...
Des assurances ont constatés que la plupart des accidents se font dans des trajets de moins de 30 km. c'est évident, on est moins prudent quand on fait le trajet maison-boulot et boulot-maison !
ou alors, les trajets courts sont les plus commun...
Une étude montre que ceux faisant du jogging à 60 ans ont moins de problèmes de santé à 70 ans. le jogging est donc très bon pour la santé !
ou alors, ceux qui ne font pas de jogging a 60 ans sont déjà en mauvaise santé, donc pas mieux a 70 ans...
Une étude montre que les vegans ont moins de problème d’obésité : la viande, c'est mal !
ou alors, les vegans ont en général une hygiène de vie meilleure que la moyenne, sans fast-food, sodas ou autres.
Des biais comme ça, on peut en trouver plein. méfiez vous
Afficher tout
Parfaitement d'accord, sauf pour l'exemple avec les ondes, dans mon ancien village, il y avait une antenne relais et deux gamins fréquentant l'école à côté de l'antenne (école située à 100 mètres de là) ont eu un cancer du cerveau... Après peut être que le sort s'est acharné et que c'est " pas de bol", mais moi ça m'a fait réfléchir...
(Village : Rexpoede, pour une population d'environ 2000 habitant)

a écrit : Ouais! C'est super!
Par contre, si elles sont toutes comme celle-là, va y avoir un problème.
Parce-que en la lisant (3 fois) je crois que je me suis fait une entorse au cerveau de bon matin.
Essaie de penser aux limités de la cervelle.
je vais pas trop spoiler mais oui, elle sera plus simple, c'est juste l'origine d'une expression. Sinon je pense que je vais aussi poster des anecdotes en relation avec l'histoire, ou la technologie (informatique et espace surement)

a écrit : Parfaitement d'accord, sauf pour l'exemple avec les ondes, dans mon ancien village, il y avait une antenne relais et deux gamins fréquentant l'école à côté de l'antenne (école située à 100 mètres de là) ont eu un cancer du cerveau... Après peut être que le sort s'est acharné et que c'est " pas de bol", mais moi ça m'a fait réfléchir...
(Village : Rexpoede, pour une population d'environ 2000 habitant)
Afficher tout
Ah mais j'ai pas dit que les ondes étaient bénéfiques, ni que le jogging est mauvais pour la santé, juste qu'il faut éviter les conclusions hâtives et aussi directes. l'idéal est de faire un test en double aveugle, ou au moins d'avoir un échantillon pris au hasard, mais c'est pas applicable partout.
Et l’étude peut souffrir d'autre biais, comme le fait de se concentrer sur des maladies spontanées et pas sur le long terme (justement comme le cancer). Sinon, en effet, avec un échantillon aussi petit, dur de savoir si c'est le hasard ou l'antenne... De plus, il est dur, en dehors des tests en laboratoire, d'isoler des facteurs : est on sur que la seule différence entre ces deux gamins et les autre est cette antenne ? peut-être que le sol était pollué, et donc que le cancer vient de leur alimentation. Sans environnement contrôlé, il est difficile d’éviter ce genre de biais

un petit calcul et un grand calcul étant des choses complètement différentes, ce paradoxe n'en est en réalité pas un. C'est comme si vous disiez : le traitement A contre les rhumes guérit plus que le traitement B contre les cancers. Vous n'allez pas prendre le traitement A pour soigner votre cancer, bien que rhume et cancer soient des sous-ensembles de "maladie" !

a écrit : Bon, l'anecdote n'est pas simple à expliquer, je vous invite à vous reporter au tableau Wikipedia qui résume bien la chose. En effet sans le complément avec un exemple précis, j'aurais sans doute tapé ma tête sur les murs...