Le paradoxe de Simpson met les statistiques sens dessus-dessous

Proposé par
le
dans

Le paradoxe de Simpson est un paradoxe statistique contre-intuitif. L'exemple type est celui des chances de succès d'un traitement médical pour des petits et grands calculs rénaux : le premier traitement peut avoir de meilleures chances de succès que le second traitement sur les petits et grands calculs pris individuellement, tout en ayant des chances de succès moindres que le second traitement sur les calculs pris de manière globale et non scindés par taille.

Imaginez que vous avez un calcul rénal, et afin de vous soigner, vous étudiez deux traitements, le traitement A et le traitement B. Vous tombez sur une étude, et le résultat est clair : sur 350 patients, le traitement A en a sauvé 273, alors que le traitement B en a sauvé 289. Le traitement B semble donc meilleur.Cependant, en regardant les chiffres détaillés : pour des petits calculs, le traitement A a sauvé 81 patients sur 87, soit 93%, tandis que le traitement B en a sauvé 234 sur 270, soit 87%. Pour des gros calculs, le traitement A a sauvé 192 patients sur 263, soit 73%, tandis que le traitement B en a sauvé 55 sur 80, soit 69%. Dans les deux cas, le traitement A semble alors meilleur. En réalité, il s'agit de la même étude, avec les mêmes chiffres, mais souffrant du paradoxe de Simpson : le facteur de confusion vient du fait que les petits calculs sont plus faciles à soigner, et que le traitement B est bien plus utilisé pour les petits calculs tandis que le traitement A est utilisé sur les gros calculs. Ainsi, malgré une plus grande réussite individuelle, le traitement A a un taux de réussite globale plus faible.


Tous les commentaires (70)

a écrit : Déjà première erreur dans votre message 80% des ACCIDENTS MORTELS font suite à la consommation....
Et deuxiement, non les 80% ne sont pas du à la non consommation d'alcool mais à d'autres causes (vitesse, sommeil, drogues, animaux, pannes mécaniques etc)....
A partir de la 2eme partie c'était de l'ironie...

a écrit : On attend quoi pour punir les sobres ? oh, et surtout, si vous avez un accident de la route, n'allez pas a l’hôpital ! c'est statistiquement l'un des endroits les plus dangereux sur terre, on a bien plus de chance de mourir dans un lit d’hôpital que chez soi !
Un autre problème est la confusion ent
re corrélation et causalité. Une corrélation, c'est une liaison entre deux variables, mais ça n'implique pas toujours une causalité.
Il existe une corrélation entre la pluie et le sol mouillé. on peut en déduire une causalité : l'eau, ça mouille.
Par contre, certaines corrélations ne sont du qu'au hasard, ce site en répertorie des pas mal :
www.tylervigen.com/spurious-correlations
Il y a une corrélation entre le budget scientifique, spatial et technologique, et le nombre de suicide par pendaison ou étranglement. Doit on en conclure une causalité ? Les personnes pensant que la Terre est plates finissent ils par se suicider quand ils découvrent la vérité ?
Parfois, il peut exister un biais qui implique une corrélation, mais pas une causalité directe, ou du moins pas celle qui semble évidente.
Une étude montre que les familles ayant des animaux de compagnie ont des enfants moins allergique. Miracle, les chiens guérissent les allergies !
ou alors, les enfants avec des allergies ont des problèmes avec les animaux de compagnie...
Dans le même style, une association anti-ondes dénonçait le fait que les personnes vivant sous des pylônes hautes tensions étaient sujets a plus de maladies. Miracle, on a prouvé la nocivité des ondes !
ou alors, les personnes vivant sous ces pylônes sont plus pauvre que la moyenne, et donc avec un accès au soin restreint...
Des assurances ont constatés que la plupart des accidents se font dans des trajets de moins de 30 km. c'est évident, on est moins prudent quand on fait le trajet maison-boulot et boulot-maison !
ou alors, les trajets courts sont les plus commun...
Une étude montre que ceux faisant du jogging à 60 ans ont moins de problèmes de santé à 70 ans. le jogging est donc très bon pour la santé !
ou alors, ceux qui ne font pas de jogging a 60 ans sont déjà en mauvaise santé, donc pas mieux a 70 ans...
Une étude montre que les vegans ont moins de problème d’obésité : la viande, c'est mal !
ou alors, les vegans ont en général une hygiène de vie meilleure que la moyenne, sans fast-food, sodas ou autres.
Des biais comme ça, on peut en trouver plein. méfiez vous
Afficher tout
Oh bordel.. je suis partagé entre « il m’a saoulé ce con!» et « il est bon ce con ! » (merci de lire ceci avec humour.. sinon j’ai l’air con)

a écrit : 20% des accidents mortels sont dus à l’alcool.
Conclusion, 80% des accidents de la route font suite à la consommation de boissons non alcoolisées.

Donc on a plus de chance de mourir d’un accident de la route après la consommation de boissons non alcoolisées.

On fait dire ce que l’on veut aux statistiques.
Ta conclusion ne me semble pas bonne. Si 20% des accidents mortels sont causés par l'alcool, la conclusion serait "80% des accidents mortels ne sont pas causés par l'alcool"

a écrit : Bon, l'anecdote n'est pas simple à expliquer, je vous invite à vous reporter au tableau Wikipedia qui résume bien la chose. Philippe ,
L homme qui arrive à mettre des commentaires 1 jour avant la sortie d une anecdote ! Trop balaise le gars :)

MDR je n'ai rien compris du tout... Rien du tout, suis-je le seul?? Y a vraiment pas des anecdotes facile ou soit c'est très mal explique!

a écrit : On attend quoi pour punir les sobres ? oh, et surtout, si vous avez un accident de la route, n'allez pas a l’hôpital ! c'est statistiquement l'un des endroits les plus dangereux sur terre, on a bien plus de chance de mourir dans un lit d’hôpital que chez soi !
Un autre problème est la confusion ent
re corrélation et causalité. Une corrélation, c'est une liaison entre deux variables, mais ça n'implique pas toujours une causalité.
Il existe une corrélation entre la pluie et le sol mouillé. on peut en déduire une causalité : l'eau, ça mouille.
Par contre, certaines corrélations ne sont du qu'au hasard, ce site en répertorie des pas mal :
www.tylervigen.com/spurious-correlations
Il y a une corrélation entre le budget scientifique, spatial et technologique, et le nombre de suicide par pendaison ou étranglement. Doit on en conclure une causalité ? Les personnes pensant que la Terre est plates finissent ils par se suicider quand ils découvrent la vérité ?
Parfois, il peut exister un biais qui implique une corrélation, mais pas une causalité directe, ou du moins pas celle qui semble évidente.
Une étude montre que les familles ayant des animaux de compagnie ont des enfants moins allergique. Miracle, les chiens guérissent les allergies !
ou alors, les enfants avec des allergies ont des problèmes avec les animaux de compagnie...
Dans le même style, une association anti-ondes dénonçait le fait que les personnes vivant sous des pylônes hautes tensions étaient sujets a plus de maladies. Miracle, on a prouvé la nocivité des ondes !
ou alors, les personnes vivant sous ces pylônes sont plus pauvre que la moyenne, et donc avec un accès au soin restreint...
Des assurances ont constatés que la plupart des accidents se font dans des trajets de moins de 30 km. c'est évident, on est moins prudent quand on fait le trajet maison-boulot et boulot-maison !
ou alors, les trajets courts sont les plus commun...
Une étude montre que ceux faisant du jogging à 60 ans ont moins de problèmes de santé à 70 ans. le jogging est donc très bon pour la santé !
ou alors, ceux qui ne font pas de jogging a 60 ans sont déjà en mauvaise santé, donc pas mieux a 70 ans...
Une étude montre que les vegans ont moins de problème d’obésité : la viande, c'est mal !
ou alors, les vegans ont en général une hygiène de vie meilleure que la moyenne, sans fast-food, sodas ou autres.
Des biais comme ça, on peut en trouver plein. méfiez vous
Afficher tout
Magique! Bravo

Au pire on euthanasie tout le monde

a écrit : Bon, l'anecdote n'est pas simple à expliquer, je vous invite à vous reporter au tableau Wikipedia qui résume bien la chose. A la première lecture on peut s'embrouiller, mais après une seconde lecture, ça me paraît clair.

a écrit : A partir de la 2eme partie c'était de l'ironie... En quoi est ce rigolo ?

a écrit : En quoi est ce rigolo ? J'ai pas dit que c'était rigolo, mais de l'ironie. loupinoux a voulu montrer qu'on peut faire dire n'importe quoi à des stats (il/elle l'a dit d'ailleurs), selon la façon dont on tourne les choses

a écrit : On attend quoi pour punir les sobres ? oh, et surtout, si vous avez un accident de la route, n'allez pas a l’hôpital ! c'est statistiquement l'un des endroits les plus dangereux sur terre, on a bien plus de chance de mourir dans un lit d’hôpital que chez soi !
Un autre problème est la confusion ent
re corrélation et causalité. Une corrélation, c'est une liaison entre deux variables, mais ça n'implique pas toujours une causalité.
Il existe une corrélation entre la pluie et le sol mouillé. on peut en déduire une causalité : l'eau, ça mouille.
Par contre, certaines corrélations ne sont du qu'au hasard, ce site en répertorie des pas mal :
www.tylervigen.com/spurious-correlations
Il y a une corrélation entre le budget scientifique, spatial et technologique, et le nombre de suicide par pendaison ou étranglement. Doit on en conclure une causalité ? Les personnes pensant que la Terre est plates finissent ils par se suicider quand ils découvrent la vérité ?
Parfois, il peut exister un biais qui implique une corrélation, mais pas une causalité directe, ou du moins pas celle qui semble évidente.
Une étude montre que les familles ayant des animaux de compagnie ont des enfants moins allergique. Miracle, les chiens guérissent les allergies !
ou alors, les enfants avec des allergies ont des problèmes avec les animaux de compagnie...
Dans le même style, une association anti-ondes dénonçait le fait que les personnes vivant sous des pylônes hautes tensions étaient sujets a plus de maladies. Miracle, on a prouvé la nocivité des ondes !
ou alors, les personnes vivant sous ces pylônes sont plus pauvre que la moyenne, et donc avec un accès au soin restreint...
Des assurances ont constatés que la plupart des accidents se font dans des trajets de moins de 30 km. c'est évident, on est moins prudent quand on fait le trajet maison-boulot et boulot-maison !
ou alors, les trajets courts sont les plus commun...
Une étude montre que ceux faisant du jogging à 60 ans ont moins de problèmes de santé à 70 ans. le jogging est donc très bon pour la santé !
ou alors, ceux qui ne font pas de jogging a 60 ans sont déjà en mauvaise santé, donc pas mieux a 70 ans...
Une étude montre que les vegans ont moins de problème d’obésité : la viande, c'est mal !
ou alors, les vegans ont en général une hygiène de vie meilleure que la moyenne, sans fast-food, sodas ou autres.
Des biais comme ça, on peut en trouver plein. méfiez vous
Afficher tout
Ma préférée reste l'étude qui a montré une corrélation entre le nombre d'autiste et les ventes de produit bio. => le bio c'est mal?!
C'est génial pour illuster de manière absurde cette différence corrélation/causalité que tu évoques.

i1.wp.com/sciencepop.fr/wp-content/uploads/2016/08/biautisme2.jpg?w=661&ssl=1

a écrit : Ma préférée reste l'étude qui a montré une corrélation entre le nombre d'autiste et les ventes de produit bio. => le bio c'est mal?!
C'est génial pour illuster de manière absurde cette différence corrélation/causalité que tu évoques.

i1.wp.com/sciencepop.fr/wp-conten
t/uploads/2016/08/biautisme2.jpg?w=661&ssl=1 Afficher tout
reste a savoir si c'est le bio qui rend autiste ou s'il faut être autiste pour consommer du bio ^^

Ce parodoxe est bien connu des étudiants en médecine français à qui on enseigne à analyser les articles scientifiques. Car évidemment, dans la réalité, les auteurs publieront le résultats global, sans donner les sous-analyses discordantes.

On peut éviter ce biais par les études expérimentales avec randomisation (répartition aléatoire du traitement). Puisqu'elles éliminent le biais du choix de la méthode influencée par la pathologie. Raison pour laquelle, on priviélégie ce genre d'étude pour montrer la supériorité d'un traitement sur un autre.

On peut le suspecter par l'analyse de certaines données. Par exemple, dans la description des échantilons, les moyennes ou médianes de la taille du calcul, associées à leurs indices de dispertion (respectivement écart-type et valeurs extremes +/- écarts interquartiles), dans chaque groupe et sur le total feront apparaitre une nette différence. l'auteur peut bien sûr être tenté de ne pas donner ces valeurs qui lui sont préjudiciables.

De fait, la compétence du lecteur reste fondamentale. Ainsi un uro ou néphrologue remarquera immédiatement qu'on analyse de manière globale les différents stades ou formes d'une même pathologie alors que la prise en charge diffère. Un peu comme si on analysait le traitement d'un cancer en mélangeant tous les stades, des précoces bien localisé aux avancés avec métastases. De même, le spécialiste connaitra l'importance de la taille du calcul dans le choix et donc s'attendra à avoir une description de l'échatillon et des analyses statistiques de cette donnée. Si l'auteur les a volontairement omise pour dissimuler son biais, cette absence en elle-même mettra en doute la valeur de l'étude.

a écrit : Parfaitement d'accord, sauf pour l'exemple avec les ondes, dans mon ancien village, il y avait une antenne relais et deux gamins fréquentant l'école à côté de l'antenne (école située à 100 mètres de là) ont eu un cancer du cerveau... Après peut être que le sort s'est acharné et que c'est " pas de bol", mais moi ça m'a fait réfléchir...
(Village : Rexpoede, pour une population d'environ 2000 habitant)
Afficher tout
Dit comme cela, il s'agit juste d'une illustration ponctuelle, sans valeur scientifique. Pour avoir des élemenst solides, il faudrait:

1- savoir combien d'enfants fréquentaient cette école à cette époque? On aura ainsi la possibilité de calculer un taux de prévalence du cancer intra-cérébral dans cette population.
2- Idéalement, aurait-on une école se trouvant dans la même zone mais éloignée de toute antenne (l'école du village d'à côté par exemple)? On aura ainsi une population contrôle relativement comparable en terme d'exposition environnementale (air, eau,nourriture). Il faudra alors rechercher le nombre de cancer intra-cérabral chez les enfants ayant fréquentés cette école à la même période et calculer le taux de prévalence de cette population.
A défaut, on prendra le taux de prévalence régional/national (çà se trouve assez facilement avec les regsitres).
3- comparaison statistiques des 2 taux pour déterminer s'il y a une différence significative ou pas.
On pourrait alors calculer un Risque Relatif, ce qui nous donne la force de l'association (1er critère de Bradford Hill)

a écrit : 20% des accidents mortels sont dus à l’alcool.
Conclusion, 80% des accidents de la route font suite à la consommation de boissons non alcoolisées.

Donc on a plus de chance de mourir d’un accident de la route après la consommation de boissons non alcoolisées.

On fait dire ce que l’on veut aux statistiques.
Le paradoxe de Simpson n'est pas un outil qui permet de "faire dire ce que l'on veut aux statistiques".
C'est un biais connu des statisticiens mais qui peut, dans certains cas, passer inaperçu et amener à des conclusions erronées.

Or, ton argumentation volontairement fausse et exagérée laisse penser que le paradoxe de Simpson est un type d'argument fallacieux, ce qui n'est pas vrai.

a écrit : Il y a une chance sur 1 million d’avoir une bombe à bort d’un avion
Il y a 1 chance sur 100 millions d’avoir 2 bombes dans l’avion
Il suffit juste alors d’emporter une bombe avec moi pour diminuer les risques de chance de faire peter l’avion !
Ta "démonstration" est tout à fait fausse.
L'erreur est dans le terme : "moins de chance de faire péter l'avion".

Tu veux donc dire que 1 bombe est moins dangereuse que 2 bombes. Par interpolation on peut dire que 0 bombe est moins dangereux que 1 bombe.

Or tu as volontairement emporté une bombe (1 > 0) avec toi donc tu as augmenté le risque de faire exploser l'avion.
Ce qui est paradoxal avec ta phrase : "si j'emporte une bombe, je diminue les risques de faire péter l'avion".

Si mon raisonnement est correct, libre à toi de me prouver le contraire, cela signifie que ton raisonnement est fallacieux et que par conséquent, que tu n'as pas réussi à montrer que tu pouvais faire dire n'importe quoi aux statistiques.
Tu auras juste démontré à quel points l'usage des statistiques (probabilités dans ce cas ci) n'est pas simple et qu'il faut rester critiques face aux récits qui paraissent extraordinaires mais vrais.

Je viens de faire un AVC à la fin de la dernière phrase....
Et un 2em en lisant tout les messages...

a écrit : Une vidéo de science étonnante en parle
youtu.be/vs_Zzf_vL2I
Exact, et je vous invite à regarder les vidéos qu'il propose, cela m'a personnellement ouvert l'esprit sur pleins de sujets et thèmes qui ne paraissent pas forcément intéressant du premier coup d'oeil. Sa vidéo sur le jeu de la vie en est un parfait exemple.
Excusez moi par avance pour ce petit hors-sujet.

C'est pas faux... (pour les fans de Kaamelot)