In der angewandten Forschung wird viel Wert darauf gelegt, Effektgrößen anstelle von p-Werten zu verwenden und anzugeben (z. B. Zitate weiter unten).
Ist es aber nicht so, dass eine Effektgröße wie ein p-Wert eine Zufallsvariable ist und daher von Probe zu Probe variieren kann , wenn dasselbe Experiment wiederholt wird? Mit anderen Worten, ich frage mich, welche statistischen Merkmale (z. B. die Effektgröße ist von Stichprobe zu Stichprobe weniger variabel als der p-Wert) die Effektgrößen zu besseren Indices für die Beweismessung machen als die p-Werte?
Ich sollte jedoch eine wichtige Tatsache erwähnen, die einen p-Wert von einer Effektgröße trennt. Das heißt, eine Effektgröße muss geschätzt werden, da sie einen Populationsparameter hat, ein p-Wert ist jedoch nicht zu schätzen, da er keinen Populationsparameter hat.
Für mich ist die Effektgröße einfach eine Metrik, die in bestimmten Forschungsbereichen (z. B. in der Humanforschung) dazu beiträgt, empirische Ergebnisse, die von verschiedenen von Forschern entwickelten Messinstrumenten stammen, in eine gemeinsame Metrik umzuwandeln (fairerweise kann die Verwendung dieser Metrik in der Humanforschung besser passen) Quant Research Club).
Wenn wir ein einfaches Verhältnis als Effektgröße verwenden, zeigt das Folgende (in R), wie weit Effektgrößen von p-Werten entfernt sind. (p-Wert ändert sich, Effektgröße jedoch nicht)
binom.test(55, 100, .5) ## p-value = 0.3682 ## proportion of success 55%
binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%
Beachten Sie, dass die meisten Effektgrößen linear mit einer Teststatistik zusammenhängen. Somit ist es ein einfacher Schritt, Nullhypothesentests unter Verwendung von Effektgrößen durchzuführen.
Beispielsweise kann eine t-Statistik, die aus einem Pre-Post-Design resultiert, leicht in eine entsprechende d-Effektgröße von Cohen konvertiert werden. Insofern ist die Verteilung von Cohen's d einfach die Version von at distribution nach Maßstäben .
Die Zitate:
Da p-Werte verwirrte Indizes sind, könnten theoretisch 100 Studien mit unterschiedlichen Stichprobengrößen und 100 verschiedenen Effektgrößen denselben einzelnen p-Wert haben, und 100 Studien mit derselben einzelnen Effektgröße könnten jeweils 100 verschiedene Werte für den p-Wert haben .
oder
Der p-Wert ist eine Zufallsvariable, die von Stichprobe zu Stichprobe variiert. . . . Infolgedessen ist es nicht angebracht, die p-Werte von zwei verschiedenen Experimenten oder von Tests mit zwei Variablen zu vergleichen, die im selben Experiment gemessen wurden, und zu erklären, dass eine signifikanter ist als die andere?
Zitate:
Thompson, B. (2006). Grundlagen der Verhaltensstatistik: Ein auf Erkenntnissen basierender Ansatz. New York, NY: Guilford Press.
Good, PI & Hardin, JW (2003). Häufige Fehler in Statistiken (und wie man sie vermeidet). New York: Wiley.
Antworten:
Die Empfehlung, Effektgrößen anstelle von P-Werten anzugeben, basiert auf einer falschen Dichotomie und ist albern. Warum nicht beides präsentieren?
Die wissenschaftlichen Schlussfolgerungen sollten auf einer rationalen Bewertung der verfügbaren Evidenz und Theorie beruhen. P-Werte und beobachtete Effektgrößen allein oder zusammen reichen nicht aus.
Keine der von Ihnen angegebenen Passagen ist hilfreich. Natürlich variieren die P-Werte von Experiment zu Experiment, und die Aussagekraft der Daten variiert von Experiment zu Experiment. Der P-Wert ist nur eine numerische Extraktion dieses Beweises mittels des statistischen Modells. In Anbetracht der Art des P-Werts ist es für analytische Zwecke sehr selten relevant, einen P-Wert mit einem anderen zu vergleichen. Vielleicht ist es das, was der Zitatautor zu vermitteln versucht.
Wenn Sie feststellen, dass Sie P-Werte vergleichen möchten, sollten Sie wahrscheinlich einen Signifikanztest an einer anderen Anordnung der Daten durchgeführt haben, um die interessierende Frage sinnvoll zu beantworten. Siehe diese Fragen: p-Werte für p-Werte? Und wenn der Mittelwert einer Gruppe von Null abweicht, der andere jedoch nicht, können wir daraus schließen, dass die Gruppen unterschiedlich sind?
Die Antwort auf Ihre Frage ist also komplex. Ich finde dichotome Reaktionen auf Daten, die entweder auf P-Werten oder auf Effektgrößen basieren, nicht nützlich. Sind Effektgrößen also besser als P-Werte? Ja, nein, manchmal vielleicht, und es hängt von Ihrem Zweck ab.
quelle
Im Kontext der angewandten Forschung sind Effektgrößen erforderlich, damit der Leser die praktische Bedeutung (im Gegensatz zur statistischen Signifikanz) der Ergebnisse interpretieren kann. Im Allgemeinen reagieren p-Werte wesentlich empfindlicher auf die Sample-Größe als auf die Effektgrößen. Wenn ein Experiment eine Effektgröße genau misst (dh ausreichend nahe am geschätzten Populationsparameter liegt), aber einen nicht signifikanten p-Wert ergibt, führt das Erhöhen der Stichprobengröße bei gleichen Bedingungen jedoch zur gleichen Effektgröße ein niedrigerer p-Wert. Dies kann durch Leistungsanalysen oder Simulationen nachgewiesen werden.
Vor diesem Hintergrund ist es möglich, für Effektgrößen, die keine praktische Bedeutung haben, hochsignifikante p-Werte zu erzielen. Im Gegensatz dazu können Studiendesigns mit geringer Leistung nicht signifikante p-Werte für Effektgrößen von großer praktischer Bedeutung erzeugen.
Es ist schwierig, die Konzepte der statistischen Signifikanz in Bezug auf die Effektgröße ohne eine spezifische reale Anwendung zu diskutieren. Betrachten Sie als Beispiel ein Experiment, in dem die Auswirkung einer neuen Lernmethode auf den Notendurchschnitt der Schüler bewertet wird. Ich würde argumentieren, dass eine Effektgröße von 0,01 Gradpunkten wenig praktische Bedeutung hat (dh 2,50 im Vergleich zu 2,50). Angenommen, eine Stichprobengröße von 2.000 Schülern sowohl in der Behandlungs- als auch in der Kontrollgruppe und eine Populationsstandardabweichung von 0,5 Bewertungspunkten:
Behandlung Probe Mittelwert = 2,51
Steuerung Kontrollprobe Mittelwert = 2,50
Effektgröße = 2,50 - 2,50 = 0,01
p = 0,53
Wenn Sie die Stichprobengröße auf 20.000 Schüler erhöhen und alles andere konstant halten, erhalten Sie einen signifikanten p-Wert:
Behandlung Probe Mittelwert = 2,51
Kontrollprobe Mittelwert = 2,50
Effektgröße = 2,50 - 2,50 = 0,01
p = 0,044
Offensichtlich ist es keine Kleinigkeit, die Stichprobengröße um eine Größenordnung zu erhöhen! Ich denke jedoch, wir sind uns alle einig, dass die praktische Verbesserung, die diese Studienmethode bietet, vernachlässigbar ist. Wenn wir uns nur auf den p-Wert verlassen, glauben wir möglicherweise etwas anderes im Fall von n = 20.000.
Persönlich empfehle ich, sowohl p-Werte als auch Effektgrößen anzugeben. Und Bonuspunkte für T- oder F-Statistik, Freiheitsgrade und Modelldiagnose!
quelle
var.equal = TRUE
während Ihresd
s gleich sind. Vor diesem Hintergrund bin ich mir nicht sicher, warum Sie überhaupt eine Antwort wie diese gepostet haben. OP stellt eine Frage, die zum jetzigen Zeitpunkt nicht einfach zu beantworten ist!Derzeit arbeite ich im Bereich der Datenwissenschaft und zuvor in der Bildungsforschung. Während jeder "Karriere" habe ich mit Leuten zusammengearbeitet, die keinen formalen Hintergrund in der Statistik hatten und bei denen der Schwerpunkt der statistischen (und praktischen) Bedeutung stark auf dem p-Wert liegt . Ich habe gelernt, Effektgrößen in meine Analysen einzubeziehen und hervorzuheben, weil es einen Unterschied zwischen statistischer und praktischer Signifikanz gibt.
Im Allgemeinen kümmerten sich die Leute, mit denen ich zusammengearbeitet habe, um eine Sache: "Hat unser Programm / unsere Funktion Auswirkungen, ja oder nein?". Auf eine Frage wie diese können Sie etwas so Einfaches wie einen T-Test machen und ihnen mitteilen, dass "ja, Ihr Programm / Ihre Funktion einen Unterschied macht". Aber wie groß oder klein ist dieser "Unterschied"?
Bevor ich mich mit diesem Thema befasse, möchte ich zunächst zusammenfassen, worauf wir uns beziehen, wenn wir von Effektgrößen sprechen
Es ist die Effektgröße, dumm: Welche Effektgröße ist und warum es wichtig ist
Und um die Kommentare von @ DarrenJames zu großen Stichproben zu bestätigen
Verwenden der Effektgröße - oder warum der P- Wert nicht ausreicht
Geben Sie sowohl den P-Wert als auch die Effektgröße an
Um die Frage zu beantworten, sind die Effektgrößen den p-Werten überlegen ? Ich würde argumentieren, dass diese jeweils als wichtige Komponenten in der statistischen Analyse dienen, die nicht in diesem Sinne verglichen werden können und zusammen gemeldet werden sollten. Der p-Wert ist eine Statistik, die die statistische Signifikanz angibt (Unterschied zur Nullverteilung), wobei die Effektgröße den Unterschied in Worte fasst.
Sagen Sie zum Beispiel, Ihr Vorgesetzter Bob, der nicht sehr stats-freundlich ist, ist daran interessiert zu sehen, ob es eine signifikante Beziehung zwischen wt (Gewicht) und mpg (Meilen pro Gallone) gab. Sie starten die Analyse mit Hypothesen
bei getestetα = 0,05
summary
So konnten Sie auf statistisch signifikante Ergebnisse schließen und die Signifikanz in der Praxis kommunizieren.
Ich hoffe, dies war hilfreich bei der Beantwortung Ihrer Frage.
quelle
var.equal = TRUE
.Der Nutzen von Effektgrößen in Bezug auf p-Werte (sowie andere Metriken für statistische Inferenz) wird in meinem Fachgebiet - der Psychologie - routinemäßig diskutiert, und die Debatte ist derzeit aus Gründen, die für Ihre Frage relevant sind, „heißer“ als normal. Und obwohl ich mir sicher bin, dass die Psychologie nicht unbedingt das statistisch anspruchsvollste wissenschaftliche Gebiet ist, hat sie die Grenzen verschiedener Ansätze zur statistischen Folgerung, oder zumindest deren Einschränkung durch den menschlichen Gebrauch, ohne weiteres diskutiert, untersucht und zuweilen aufgezeigt. Die bereits veröffentlichten Antworten enthalten gute Erkenntnisse. Falls Sie jedoch an einer ausführlicheren Liste (und Referenzen) von Gründen für und gegen diese interessiert sind, lesen Sie weiter unten.
Warum sind p-Werte unerwünscht?
Warum sind Effektgrößen wünschenswert?
Beachten Sie, dass ich Ihre Frage so interpretiere, dass sie sich speziell auf standardisierte Effektgrößen bezieht, da Sie sagen, sie ermöglichen es Forschern, ihre Ergebnisse in eine „GEMEINSAME Metrik“ umzuwandeln.
Warum sind p-Werte wünschenswert?
Obwohl sie weniger häufig vertreten werden, haben p-Werte eine Reihe von Vorteilen. Einige sind bekannt und langjährig, während andere relativ neu sind.
P-Werte liefern einen bequemen und vertrauten Index für die Evidenzstärke gegenüber der Nullhypothese des statistischen Modells.
Bei richtiger Berechnung bieten p-Werte eine Möglichkeit, dichotome Entscheidungen zu treffen (was manchmal notwendig ist), und p-Werte helfen dabei, langfristig falsch-positive Fehlerraten auf einem akzeptablen Niveau zu halten (Dienes, 2008; Sakaluk, 2016) [It ist nicht genau richtig zu sagen, dass P-Werte für dichotome Entscheidungen erforderlich sind. Sie werden in der Tat auf diese Weise häufig verwendet, aber Neyman & Pearson hat zu diesem Zweck "kritische Bereiche" im statistischen Testbereich verwendet. Siehe diese Frage und ihre Antworten]
Warum sind Effektgrößen unerwünscht (oder überbewertet)?
Vielleicht die kontraintuitivste Position für viele; warum sollte die Angabe standardisierter Effektgrößen unerwünscht oder zumindest überbewertet sein?
Zusammenfassung
In Anlehnung an Michael Lew sind p-Werte und Effektgrößen nur zwei statistische Belege; Es gibt auch andere, die es wert sind, berücksichtigt zu werden. Aber wie P-Werte und Effektgrößen haben auch andere Metriken des Beweiswerts gemeinsame und einzigartige Probleme. Forscher wenden häufig Konfidenzintervalle falsch an und interpretieren sie falsch (z. B. Hoekstra et al., 2014; Morey et al., 2016), und das Ergebnis von Bayes-Analysen kann von Forschern verfälscht werden, genau wie bei der Verwendung von p-Werten (z. B. Simonsohn) , 2014).
Alle Beweise haben gewonnen und alle müssen Preise haben.
Verweise
American Psychological Association. (2010). Publikationshandbuch der American Psychological Association (6. Auflage). Washington, DC: American Psychological Association.
Baguley, T. (2009). Standardisierte oder einfache Effektgröße: Was ist zu melden? British Journal of Psychology, 100 (3), 603-617.
Bakker, M. & Wicherts, JM (2011). Die (falsche) Meldung statistischer Ergebnisse in psychologischen Fachzeitschriften. Behavior Research Methods, 43 (3), 666-678.
M. Borenstein, LV Hedges, J. Higgins & HR Rothstein (2009). Einführung in die Metaanalyse. West Sussex, Großbritannien: John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM & Hilgard, J. (2017, 12. August). Bias in der Psychologie korrigieren: Ein Vergleich metaanalytischer Methoden. Abgerufen von osf.io/preprints/psyarxiv/9h3nu
Chan, ME & Arvey, RD (2012). Metaanalyse und Wissensentwicklung. Perspectives on Psychological Science, 7 (1), 79-92.
Cohen, J. (1992). Eine Power-Fibel. Psychological Bulletin, 112 (1), 155-159.
Cumming, G. (2008). Replikation und p-Intervalle: p-Werte sagen die Zukunft nur vage voraus, aber Konfidenzintervalle sind viel besser. Perspektiven auf die Psychologie, 3, 286–300.
Dienes, D. (2008). Psychologie als Wissenschaft verstehen: Eine Einführung in die wissenschaftliche und statistische Inferenz. New York, NY: Palgrave MacMillan.
Fanelli, D. (2010). "Positive" Ergebnisse erhöhen die Hierarchie der Wissenschaften. PloS eins, 5 (4), e10068.
Gelman, A. & Stern, H. (2006). Der Unterschied zwischen "signifikant" und "nicht signifikant" ist selbst statistisch nicht signifikant. The American Statistician, 60 (4), 328-331.
PC Gøtzsche, A. Hróbjartsson, K. Marić & B. Tendal (2007). Datenextraktionsfehler in Metaanalysen, die standardisierte mittlere Differenzen verwenden. JAMA, 298 (4), 430 & ndash; 437.
Greenland, S., Schlesselman, JJ & Criqui, MH (1986). Der Irrtum, standardisierte Regressionskoeffizienten und Korrelationen als Maß für die Wirkung zu verwenden. American Journal of Epidemiology, 123 (2), 203-208.
R. Hoekstra, RD Morey, JN Rouder & EJ Wagenmakers (2014). Robuste Fehlinterpretation von Konfidenzintervallen. Psychonomic Bulletin & Review, 21 (5), 1157-1164.
John, LK, Loewenstein, G. & amp; Prelec, D. (2012). Messung der Prävalenz fragwürdiger Forschungspraktiken mit Anreizen zur Wahrheitsfindung. Psychological Science, 23 (5), 524-532.
Kirk, RE (2003). Die Bedeutung der Effektstärke. In SF Davis (Hrsg.), Handbuch der Forschungsmethoden in der experimentellen Psychologie (S. 83–105). Malden, MA: Blackwell.
Lakens, D. (2014). Effiziente Durchführung von Hochleistungsstudien mit sequentiellen Analysen. European Journal of Social Psychology, 44 (7), 701-710.
Levine, TR & amp; Hullett, CR (2002). Eta-Quadrat, partielles Eta-Quadrat und falsche Angabe der Effektgröße in der Kommunikationsforschung. Human Communication Research, 28 (4), 612-625.
Maxwell, SE (2004). Das Fortbestehen unzureichender Studien in der psychologischen Forschung: Ursachen, Folgen und Abhilfemaßnahmen. Psychologische Methoden, 9 (2), 147.
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD & Wagenmakers, EJ (2016). Der Trugschluss, Vertrauen in Vertrauensintervalle zu setzen. Psychonomic Bulletin & Review, 23 (1), 103-123.
Nosek, BA, Spies, JR & Motyl, M. (2012). Wissenschaftliche Utopie: II. Umstrukturierung von Anreizen und Praktiken zur Förderung der Wahrheit über die Publizierbarkeit. Perspectives on Psychological Science, 7 (6), 615-631.
MB Nuijten, CH Hartgerink, MA van Assen, S. Epskamp & JM Wicherts (2016). Die Prävalenz statistischer Berichtsfehler in der Psychologie (1985–2013). Behavior Research Methods, 48 (4), 1205-1226.
Rosenthal, R. (1979). Das Problem mit der Dateiausgabe und die Toleranz für Nullergebnisse. Psychological Bulletin, 86 (3), 638-641.
Sakaluk, JK (2016). Klein erforschen, groß bestätigen: Ein alternatives System zur neuen Statistik, um die kumulative und reproduzierbare psychologische Forschung voranzutreiben. Journal of Experimental Social Psychology, 66, 47-54.
Schimmack, U. (2014). Quantifizierung der statistischen Forschungsintegrität: Der Replizierbarkeitsindex. Abgerufen von http://www.r-index.org
Schmidt, FL & Hunter, JE (1997). Acht häufige, aber falsche Einwände gegen die Einstellung der Signifikanzprüfung bei der Analyse von Forschungsdaten. Bei LL Harlow, SA Mulaik & JH Steiger (Hrsg.): Was wäre, wenn es keine Signifikanztests gäbe? (S. 37–64). Mahwah, NJ: Erlbaum.
Schönbrodt, FD (2015). p-checker: Ein P-Wert-Analysator für alles. Abgerufen von http://shinyapps.org/apps/p-checker/ .
Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Falsch-Positive-Psychologie: Die nicht offen gelegte Flexibilität bei der Datenerfassung und -analyse ermöglicht es, alles als signifikant darzustellen. Psychological Science, 22 (11), 1359 & ndash; 1366.
Simonsohn, U. (2013). Die Torheit, Replikationen zu betreiben, basiert auf der beobachteten Effektgröße. Von http://datacolada.org/4 zurückgerufen
Simonsohn, U. (2014). Hinterhacken. Abgerufen von http://datacolada.org/13 .
Simonsohn, U., Nelson, LD & Simmons, JP (2014). P-Kurve: Ein Schlüssel zur Aktenschublade. Journal of Experimental Psychology: General, 143 (2), 534-547.
Simonsohn, U., Nelson, LD & Simmons, JP (2014). P-Kurve und Effektgröße: Korrektur der Publikationsverzerrung mit nur signifikanten Ergebnissen. Perspectives on Psychological Science, 9 (6), 666-681.
Wicherts, JM, Bakker, M. & Molenaar, D. (2011). Die Bereitschaft, Forschungsdaten weiterzugeben, hängt von der Beweiskraft und der Qualität der Berichterstattung über statistische Ergebnisse ab. PloS one, 6 (11), e26828.
quelle
Aus der Sicht eines Epidemiologen, warum ich Effektgrößen gegenüber p-Werten bevorzuge (obwohl es, wie einige Leute bemerkt haben, so etwas wie eine falsche Dichotomie ist):
quelle