Est-il temps de faire nos adieux à la significativité statistique ?

Supposons que l'on teste l'impact du café sur la productivité de deux groupes de travailleurs. On obtient alors des des données pour l'ensemble des travailleurs observés, traités et non traités, et on peut par exemple faire la moyenne de la productivité des travailleurs pour les deux groupes. Tout l'objet de l'étude sera alors de comparer la moyenne de chacun des deux groupes.

Il y a alors deux possibilités :
- Hypothèse nulle H0 : le café n'a pas d'impact sur la productivité des travailleurs,
- Hypothèse alternative H1 : le café a un impact (positif ou négatif) sur la productivité des travailleurs.

On définit alors la p-value comme la probabilité sous l'hypothèse H0 qu'on obtienne le résultat observé dans l'expérience. C'est à dire : si le café n'avait pas d'impact sur la productivité des travailleurs, quelle serait la probabilité d'observer ce qu'on a obtenu au terme de notre expérience avec nos deux groupes de travailleurs ?

Une manière d'interpréter le résultat assez répandu en sciences est alors de vérifier si la p-value est inférieure ou pas à 0.05, c'est à dire si la probabilité d'obtenir le résultat qu'on observait dans le cas où le café n'aurait pas d'effet sur la productivité est inférieure ou pas à 5%.
Si la p-value est inférieure à 0.05, on considère que le résultat est significatif, et ici que le café a un impact sur la productivité des travailleurs. On tire des résultats une inférence statistique, c'est-à-dire


Seulement voilà, cette méthode pose un certain nombre de problèmes (pas tant pour ce qu'elle dit mais pour la manière dont elle est utilisée par certains chercheurs), ce qui a amené pas mal de personnes à remettre en cause son utilisation systématique dans les papiers de recherche. Il y a au début de cet article plusieurs liens vers d'autres articles qui traitent de cette question, mais pour énoncer les principaux points soulevés par cet article seul :

- Nous traversons actuellement ce qui est perçu par pas mal de chercheurs comme un essoufflement de la méthodologie en sciences,

- L'utilisation systématique de la p-value pousse à manipuler les données de manière à obtenir une p-value satisfaisante,

- La place prise par la significativité statistique pousse à titrer en gros qu'on a établi un résultat extraordinaire sans prendre de recul sur celui-ci à chaque fois que celle-ci est atteinte.

De manière générale, la p-value ne capte qu'une part de l'expérience et souffre souvent de biais, de telle sorte qu'elle devrait être systématiquement prise avec des pincettes. Ce n'est pas un débat particulièrement nouveau, et il est fondamentalement lié à d'autres débats comme le financement de la recherche ou les conditions de publication, mais il y a eu ces dernières semaines un regain d'intérêt pour cette question.

L'article sur la base duquel est réalisée l'interview :
https://www.tandfonline.com/doi/full/10.1080/00031305.2019.1583913

Dans leurs recommandations, les auteurs mettent en avant un certain nombre de points pour les futurs papiers de recherche :

- Accepter l'incertitude
- Prendre plus de recul
- Rester ouvert
- Plus de modestie

Seulement comme dit plus haut, le problème est bien plus profond que celui de la significativité statistique et d'un certain nombre de bonnes pratiques, et les auteurs insistent donc sur la nécessité d'une réforme profonde des pratiques institutionnelles en sciences afin de pouvoir avancer.

Poster un commentaire
Mezut
Mezut
5 ans

Je sais qu'on a tous les deux un ptit background en économétrie et pour le coup si je trouve l'utilisation de la p-value assez limitée, il existe pas mal d'autres modèles, tests qui permettent de prendre du recul sur ce résultat.

Du moins en Eco / Finance après le reste je pourrai pas dire

anonyme
anonyme
5 ans

@Mezut: Ouais clairement y a pas mal d'outils. Après dans la majorité des papiers de recherche que je lis, il y a rarement plus qu'une régression et 1-2 tests d'endogénéité. Et je vois souvent un certain mépris pour les papiers qui ne sont pas centrés sur la p-value.

MonsieurCanard

@Mezut: c'est aussi vrai en biologie ou la variabilité des individus peut être assez grande.

Et je rejoins totalement OP dans son argumentaire sur la p value. Plusieurs mois qu'une communauté prend plus en plus de place pour raisonner la recherche.

fafab
fafab
5 ans

J'ai pas compris est c'est remettre en question le fais que 0.05 c'est suffisant ? Est ce que c'est remettre en question la façon de l'obtenir?
Non parce que si tu as fais les calculs correctement une certitude a 95% est pas si mal non?

anonyme
anonyme
5 ans

@fafab: C'est une remise en cause de la fixation qui est faite sur ce paramètre.

Oui clairement 95% de certitude c'est plutôt cool, pour ça d'ailleurs que ce critère de significativité statistique a pu s'imposer. Seulement s'en contenter n'est dans pas mal de cas pas satisfaisant.

Si tu veux plus d'éléments, les deux articles sont là pour ça.

fafab
fafab
5 ans

@lapinbilly: Cela devient surtout un problème si on s'appuie sur ces résultats pour faire d'autre expérience non?
Genre "En sachant que le café augmente la productivité ..." Apres qu'elle est la solution? 99% ?

anonyme
anonyme
5 ans

@fafab: Le problème réside surtout dans l'interprétation des résultats d'une expérience.

Les auteurs proposent un certain nombre de solutions, j'en évoque quelques uns dans la box, mais si tu vas sur l'article d'origine tu trouveras à la fin un certain nombre de recommandations.

https://www.tandfonline.com/doi/full/10.1080/00031305.2019.1583913?scroll=top&needAccess=true

Par exemple deux recommandations que l'on retrouve dans Betensky, R., The p-Value Requires Context, Not a Threshold et retranscrites dans l'article :

- Interpret the p-value in light of its context of sample size and meaningful effect size.

- Incorporate the sample size and meaningful effect size into a decision to reject the null hypothesis.

Il y a une dizaine de recommandations pratiques de ce type.

bobbylamousse

Je peux te donner un exemple concret de comment cela fonctionne en biologie dans la plupart des laboratoires si tu veux.

J’ai une hypothèse de départ (peu importe) à laquelle je veux répondre. Je design donc une expérience me permettant d’y répondre. Il se trouve que je travaille avec des échantillons animaux/humains donc rares et précieux. Donc quoi qu’il arrive je pars sur du « n=5 » à tout casser car on n’a pas les moyens de faire plus. Ça veut dire 5 échantillons par groupe (par exemple groupe témoin et groupe malades). Si tu as des connaissances de base en stats, tu sais que à partir de là, quel que soit le test stat que j’utilise, le résultat de ce test n’aura aucune valeur stat ou mathématique étant donné le petit échantillon utilisé. Mais bon, pour publier mes résultats, je dois avoir un test stats, parce que c’est comme ça, donc je le ferai. Et j’ai besoin de publier pour pouvoir financer mes recherches (cercle vicieux souvent évoqué dans ce groupe sur CB notamment).

Bref, je fais ma manip, j’ai un résultat et je fais mon test. Mouais p < 0,06. Pas terrible. C’est presque significatif donc je dois être proche de tenir quelque chose n’est-ce pas ?* C’est la dernière manip pour publier mon papier, et sans celle-là, tout l’argumentaire que j’ai voulu développer ne tiendra pas. Et je suis certain que dans la réalité cela se passe comme je le pense car tous les autres résultats vont dans le sens de cette théorie. Donc j’ai plusieurs solutions si je ne suis pas honnête et que j’ai une mauvaise éthique *(de toute façon personne ne vérifiera) :

- Je modifie une ou deux décimales sur mes résultats pour atteindre el famoso p<0,05

- Je refais ma manip, en espérant que cette fois ça passe (pour plein de raison, notamment le manque de sensibilité des instruments)

- J’utilise d’autres échantillons provenant d’autres animaux. C’est d’ailleurs encore mieux comme ça je retire les échantillons qui ne vont pas dans le sens dans mon hypothèse et c’est tout bénéf, cela me permet d’annoter tout cela comme n=8 par exemple (8 échantillons par groupe) alors qu’en fait j’ai sélectionné les échantillons qui présentaient des résultats allant dans le sens de mon hypothèse. Et personne n’en saura jamais rien, car concernant les échantillons choisis, les résultats sont robustes.

Bref, mon exemple explore un peu toutes les dérives et pas uniquement le biais statistique, mais est bien représentatif de la recherche actuelle, en biologie en tout cas. Et le pire c’est que les exemples que je cite ne font même pas de toi une personne malhonnête, comparé aux collègues qui carrément inventent totalement des résultats…

Billydemerde

Mais du coup si on dit adieu à la significativité, comment démontrer l'une ou l'autre des hypothèses que tu énonces ? Parce qu'au delà des statistiques, c'est aussi toutes les sciences qui utilisent cette p-value, dont la médecine par exemple. Comment fait on ?

anonyme
anonyme
5 ans

@Billydemerde: D'accord avec toi, je pense pas qu'on puisse vraiment s'en passer.

MonsieurCanard

@Billydemerde: un seuil de 5% est bon dans certains domaines et insuffisant dans d'autres. Il existe d'autre seuil à 1% ou 1 pour mille.

Ce qui est important n'est pas d'avoir tel ou tel seuil mais de l'interprétation que tu lui donnes. C'est un gros probleme

anonyme
anonyme
5 ans

@lapinbilly: On peut s'en passer. Les statistiques c'est comme l'économie, il n'y a pas qu'une seule recette de cuisine. Il faut pas oublier que là on ne parle que de l'approche fréquentiste (et où très grossomerdo on calcule le pourcentage de chances de se trouver au sein d'un échantillon étant donné une moyenne mesurée) mais il existe aussi l'approche Bayésienne qui renverse le problème en (je vais essayer de pas dire de conneries, je maîtrise pas bien ce sujet) calculant le pourcentage de chances d'obtenir une moyenne étant donné plusieurs mesures.

J'ai ni le temps ni les compétences de développer cette approche mais elle semble extrêmement intéressante parce qu'elle permet de s'affranchir de pas mal de biais liés à l'approche fréquentiste qu'ils soient mathématiques ou cognitifs. Pour rester dans le simpliste, l'approche Bayésienne semble notamment plus proche des modes de raisonnement humains, rendant l'interprétation des résultats plus "intuitive" et accessible contrairement à l'approche fréquentiste posant de gros soucis d'interprétation même pour des statisticiens chevronnés.

De plus en plus de papiers sortent en utilisant cette approche (en psychologie expérimentale en tout cas), si les limites des statistiques classiques t'intéressent, ça peut valoir le coup d'y jeter un coup d’œil.

anonyme
anonyme
5 ans

@tuFek: J'ai trouvé ça qui a l'air de correspondre à ce que tu dis

https://www.sciencedirect.com/science/article/pii/S0261517717302601

Merci pour le retour!

anonyme
anonyme
5 ans

En fait il s'agit pas d'abandonner la notion de significativité statistique mais de la moduler en fonction des expériences, c'est un peu fallacieux comme titre, non ?

anonyme
anonyme
5 ans

@Tokooran: Il me semble qu'en réaction à ces débats une revue scientifique a banni la p-value de ses publications.

anonyme
anonyme
5 ans

@lapinbilly:

IMG
anonyme
anonyme
5 ans

@Tokooran: Je réponds à ta question, tu es con ou bien?

MonsieurCanard

@Tokooran: tu poses une question et après tu te fous de la réponse.

C'est vrai que tu parais pas malin

anonyme
anonyme
5 ans

@MonsieurCanard: Ce dont je me fous c'est de la preuve anecdotique qu'il présente, le fait qu'un journal l'ait fait ne légitimise pas son titre, et mon propos est donc maintenu.

MonsieurCanard

@Tokooran: Arrête d'être sur ton grand cheval à chaque fois. C'est pas le grand Tokooran contre le reste de CB.

C'est pas un journal qui a mis en avant la p-value, c'est toute une communauté qui s'agrandit depuis lors pour remettre en cause l'interprétation issue de cette valeur seuil.

anonyme
anonyme
5 ans

@MonsieurCanard: Mais on est bien d'accord, j'dis juste que son titre induit autre chose que sa box.

MonsieurCanard

@Tokooran: Non, c'est une question qu'il pose en titre et le texte en dessous éclaircit son propos.

Le but d'un titre est de ne pas être mensonger et d'amener les gens à s'y intéresser, les deux sont réussi là.

anonyme
anonyme
5 ans

@MonsieurCanard: *"Dans leurs recommandations, les auteurs mettent en avant un certain nombre de points pour les futurs papiers de recherche :

- Accepter l'incertitude
- Prendre plus de recul
- Rester ouvert
- Plus de modestie"*

Je vois pas "abandonner le principe de p-value" dans la liste donc j'trouve pas le titre si approprié que ça. C'est du chipotage, mais je pensais pas que ça génèrerait un si long fil de commentaires en toute honnêteté

MonsieurCanard

@Tokooran: "Prendre plus de recul" est dans l'écho du titre et de la notion de p-value.

N'y vois aucune condescendance dans ma question mais, est-ce que tu es du milieu de la recherche ?

anonyme
anonyme
5 ans

@MonsieurCanard: Point du tout.

MonsieurCanard

@Tokooran: Cette valeur seuil de 5%, c'est vraiment un outil sacré qui est la clé de voute de l'interprétation. Durant mon doctorat, j'ai parlé avec des chercheurs de mes doutes sur cette valeur qui devient un mur opaque ; d'un côté tout est rose tout marche bien et si p > 0.05 alors c'est tout noir et rien ne marche.

Je me suis pris de sacrés remontrances, que j'étais ignare et que cette valeur est reine. Tout ca pour dire que dans le milieu de la recherche, remettre en cause cette valeur et surtout ses interprétations c'est vraiment dépoussiérer un vieil éléphant.

Dans le milieu de la recherche, c'est une petite bombe qui est en train d'exploser donc ce qui n'est pas important pour toi peut l'être pour d'autres

anonyme
anonyme
5 ans

@MonsieurCanard: D'accord, merci pour l'explication !

Cette page est réservée aux ADULTES

Tu es sur le point d'accéder à un site web qui contient du matériel explicite (pornographie).

Tu ne dois accéder à ce site que si tu as au moins 18 ans ou si tu as l'âge légal pour visionner ce type de matériel dans ta juridiction locale, l’âge le plus élevé étant retenu. En outre, tu déclares et garantis que tu ne permettras aucun mineur à d'accéder à ce site ou à ces services.


En accédant à ce site, tu acceptes nos conditions d'utilisation.