Warum ist "statistisch signifikant" nicht genug?

46

Ich habe meine Datenanalyse abgeschlossen und "statistisch signifikante Ergebnisse" erhalten, was mit meiner Hypothese übereinstimmt. Ein Student der Statistik sagte mir jedoch, dies sei eine vorzeitige Schlussfolgerung. Warum? Muss mein Bericht noch etwas anderes enthalten?

hypothesis-testing statistical-significance spss p-value Jim Von
quelle

4

Dies hängt stark davon ab, was Sie unter "statistisch signifikante Ergebnisse im Einklang mit der Hypothese" verstehen. Wenn Ihre Hypothese lautet, dass der Wind von Bäumen erzeugt wird, und Ihr Experiment zeigt, dass in 100% der Beobachtungen, in denen Bäume ihre Zweige bewegten, Wind vorhanden war, Sie dies als statistisch signifikant ansehen und Ihre Schlussfolgerung belegen. Welches ist offensichtlich falsch. Dies könnte also einer dieser Fälle sein.

Sashkello

1

Sie würden wirklich eine Folgestudie benötigen, um einen "signifikanten Befund" sicher und glaubwürdig zu deklarieren - unter Verwendung einer gut konzipierten Datenerfassung, des gleichen Modells und des gleichen Hypothesentests. Außerdem müssen Sie sicherstellen, dass Ihr aktueller Datensatz die "Allgemeinbevölkerung" darstellt, über die Sie eine Behauptung mit einem signifikanten Befund erheben (dies ist ein Schlüsselproblem für den Rückschluss auf "Big Data")

Wahrscheinlichkeitsanalyse

1

Sicher ist die Antwort so einfach wie "Korrelation ist keine Kausalität"?

Fractional

1

Hier ist mein Favorit : Menschen, die mehr Reis essen, zeugen mehr Kinder. Wenn Sie die gesamte Weltbevölkerung überprüfen, erhalten Sie statistisch signifikante Ergebnisse ...

Karoly Horvath

4

Tolle Antworten, aber ich bin überrascht, dass niemand die offensichtliche Lösung vorgeschlagen hat: Fragen Sie ihn / sie. Wenn Ihnen jemand sagt, dass Sie sich in Ihrer Arbeit oder in etwas anderem, das Ihnen wichtig ist, geirrt haben, fragen Sie einfach. Jemandem zu sagen, dass er falsch liegt, weil X, Y und Z cool sind - das ist eine Gelegenheit zum Lernen. Aber nur jemandem zu sagen, dass er sich irrt und davonstürzt, ist ein schwanzartiger Schachzug.

Sylverdrag

53

Hypothesentest versus Parameterschätzung

Normalerweise werden Hypothesen binär gerahmt. Ich werde Richtungshypothesen beiseite legen, da sie das Problem nicht wesentlich ändern. Zumindest in der Psychologie ist es üblich, über folgende Hypothesen zu sprechen: Der Unterschied zwischen Gruppenmitteln ist oder ist nicht Null; die Korrelation ist oder ist nicht Null; der Regressionskoeffizient ist oder ist nicht Null; das r-Quadrat ist oder ist nicht Null. In all diesen Fällen gibt es eine Nullhypothese ohne Wirkung und eine Alternativhypothese für eine Wirkung.

Dieses binäre Denken ist im Allgemeinen nicht das, woran wir am meisten interessiert sind. Wenn Sie über Ihre Forschungsfrage nachdenken, werden Sie fast immer feststellen, dass Sie tatsächlich an der Schätzung von Parametern interessiert sind. Sie interessieren sich für die tatsächliche Differenz zwischen dem Gruppenmittelwert, die Größe der Korrelation, die Größe des Regressionskoeffizienten oder den Betrag der erklärten Varianz.

Wenn wir eine Stichprobe von Daten erhalten, stimmt die Stichprobenschätzung eines Parameters natürlich nicht mit dem Populationsparameter überein. Wir müssen also unsere Unsicherheit über den Wert des Parameters quantifizieren. Aus einer häufigeren Perspektive bieten Konfidenzintervalle eine Möglichkeit, dies zu tun, obwohl bayesianische Puristen möglicherweise argumentieren, dass sie die Schlussfolgerungen, die Sie möglicherweise ziehen möchten, nicht strikt zulassen. Aus Bayes-Sicht bieten glaubwürdige Intervalle für posteriore Dichten eine direktere Möglichkeit, Ihre Unsicherheit über den Wert eines Populationsparameters zu quantifizieren.

Parameter / Effektgrößen

Wenn Sie sich vom Testansatz für binäre Hypothesen entfernen, werden Sie gezwungen, kontinuierlich zu denken. Welcher Größenunterschied in Gruppenmitteln wäre zum Beispiel theoretisch interessant? Wie würden Sie den Unterschied zwischen Gruppenmitteln auf subjektive Sprache oder praktische Implikationen abbilden? Standardisierte Wirkungsmaße und kontextbezogene Normen sind eine Möglichkeit, eine Sprache zur Quantifizierung der Bedeutung verschiedener Parameterwerte zu erstellen. Solche Maßnahmen werden oft als "Effektgrößen" bezeichnet (z. B. Cohens d, r, usw.). Es ist jedoch durchaus sinnvoll und oftmals vorzuziehen, über die Bedeutung eines Effekts mit Hilfe nicht standardisierter Maßnahmen zu sprechen (z. B. bedeutet der Unterschied in der Gruppe, dass wichtige nicht standardisierte Variablen wie Einkommensniveau, Lebenserwartung usw. betroffen sind). $R^2$

In der Psychologie (und anderen Bereichen) gibt es eine große Literatur, die sich mit p-Werten, Nullhypothesen-Signifikanztests usw. beschäftigt (siehe diese Google Scholar-Suche ). In dieser Literatur wird häufig empfohlen, Effektgrößen mit Konfidenzintervallen als Auflösung anzugeben (z. B. APA Task Force von Wilkinson, 1999).

Schritte zur Abkehr vom Testen binärer Hypothesen

Wenn Sie darüber nachdenken, dieses Denken zu übernehmen, gibt es meines Erachtens immer ausgefeiltere Ansätze:

Ansatz 1a. Geben Sie die Punktschätzung Ihres Stichprobeneffekts (z. B. Gruppenmittelwertdifferenzen) in unformatierter und standardisierter Form an. Besprechen Sie beim Berichten Ihrer Ergebnisse, was eine solche Größenordnung für Theorie und Praxis bedeuten würde.
Ansatz 1b. Addieren Sie zu 1a, zumindest auf einer sehr einfachen Ebene, ein gewisses Gefühl für die Unsicherheit um Ihre Parameterschätzung basierend auf Ihrer Stichprobengröße.
Ansatz 2. Geben Sie auch Konfidenzintervalle für Effektgrößen an und beziehen Sie diese Unsicherheit in Ihre Überlegungen zu den plausiblen Werten des interessierenden Parameters ein.
Ansatz 3. Geben Sie glaubwürdige Bayes'sche Intervalle an und untersuchen Sie die Auswirkungen verschiedener Annahmen auf dieses glaubwürdige Intervall, z.

Unter vielen möglichen Referenzen wird Andrew Gelman in seinem Blog und in seinen Recherchen viel über diese Themen sprechen.

Verweise

Nickerson, RS (2000). Null-Hypothese-Signifikanz-Test: Ein Rückblick auf eine alte und anhaltende Kontroverse. Psychologische Methoden, 5 (2), 241.
Wilkinson, L. (1999). Statistische Methoden in psychologischen Fachzeitschriften: Richtlinien und Erläuterungen. Amerikanischer Psychologe, 54 (8), 594. PDF

Jeromy Anglim
quelle

12

Könnte ich, abgesehen von Jeromys Kommentar, empfehlen, dass Sie Ziliac und McCloskeys Aufsatz über den Kult der statistischen Signifikanz lesen. Es ist nicht die umwerfendste Statistik, bietet jedoch eine nachdenkliche - und unterhaltsame - Diskussion darüber, warum Effektgrößen, praktische Bedeutung und Verlustfunktionen extrem wichtig sind. deirdremccloskey.com/docs/jsm.pdf

Jim

Ich denke, vielleicht sollte p manchmal niedriger als .05 eingestellt werden. Vielen Dank an alle: Gung, Jeromy und Jim

Jim Von

1

Zu Ziliak [NB] und McCloskey: Wenn Sie beschäftigt sind, lesen Sie zuerst phil.vt.edu/dmayo/personal_website/… . Wenn Sie nicht beschäftigt sind, lesen Sie es immer noch zuerst.

Nick Cox

Gern geschehen, @JimVon. FWIW, ich denke manchmal, dass p höher als .05 gesetzt werden sollte. Es kommt einfach darauf an.

gung - Wiedereinsetzung von Monica

1

Ich bin froh zu sehen, dass Dr. Gelman hier genannt wird. Anscheinend mag er es nicht einmal , p-Werte zu melden , geschweige denn, sie für ernsthafte Schlussfolgerungen zu verwenden. Er ist auch ein gutes Argument für die Standardisierung all Ihrer Variablen.

Shadowtalker

26

Nur um die vorhandenen Antworten zu ergänzen (die übrigens großartig sind). Es ist wichtig zu wissen, dass die statistische Signifikanz von der Stichprobengröße abhängt .

Wenn Sie immer mehr Daten erhalten, können Sie statistisch signifikante Unterschiede feststellen, wo immer Sie hinschauen. Wenn die Datenmenge sehr groß ist, können selbst kleinste Effekte zu statistischer Signifikanz führen. Dies bedeutet nicht, dass die Effekte in irgendeiner praktischen Weise von Bedeutung sind.

Beim Testen auf Unterschiede reichen Werte allein nicht aus, da die für ein statistisch signifikantes Ergebnis erforderliche Effektgröße mit zunehmender Stichprobengröße abnimmt . In der Praxis stellt sich in der Regel die Frage, ob es einen Effekt einer bestimmten Mindestgröße gibt (um relevant zu sein). Wenn die Stichproben sehr groß werden, werden die Werte bei der Beantwortung der eigentlichen Frage nahezu bedeutungslos . $p$ $p$

Marc Claesen
quelle

Dies ist der Punkt, der in meiner Folie 13 angesprochen wurde :)

Stéphane Laurent

6

+1 dafür. Menschen, die keine Bedeutung erkennen, sind eine Funktion der Stichprobengröße, die mich verrückt macht.

Fomite

12

Wenn es eine vernünftige Grundlage für den Verdacht gibt, dass Ihre Hypothese zutrifft, bevor Sie Ihre Studie durchgeführt haben; und Sie haben eine gute Studie durchgeführt (z. B. haben Sie keine Verwirrungen hervorgerufen); und Ihre Ergebnisse stimmten mit Ihrer Hypothese überein und waren statistisch signifikant; dann denke ich, dass es dir gut geht, soweit das geht.

Sie sollten jedoch nicht denken, dass die Bedeutung alles ist, was für Ihre Ergebnisse wichtig ist. Zunächst sollten Sie sich auch die Effektgröße ansehen (siehe meine Antwort hier: Effektgröße als Hypothese für Signifikanztests ). Möglicherweise möchten Sie auch Ihre Daten ein wenig untersuchen und nach interessanten Überraschungen suchen, die es möglicherweise wert sind, weiterverfolgt zu werden.

gung - Wiedereinsetzung von Monica
quelle

Sie meinen, die Hypothese sollte vernünftig sein? Und wie kann ich beurteilen, ob meine Hypothese zu einer bedeutungslosen Datenanalyse führt? "Potenziell interessante Überraschungen" sollten von Post-hoc aufgedeckt werden?

Jim Von

Ich meine, es gab vermutlich einen legitimen Grund, die Studie an erster Stelle zu betreiben. Derzeitige theoretische Kenntnisse und / oder neuere Studien legen nahe, dass Ihre Hypothese wahr sein könnte. Es ist unwahrscheinlich, dass Ihre Hypothese zu einer "bedeutungslosen Datenanalyse" führt, es sei denn, sie ist inkohärent. Potenziell interessante Überraschungen / Merkmale Ihrer Daten könnten sehr gut post-hoc entdeckt werden. Die Tatsache, dass es sich um Überraschungen handelt, impliziert , dass Sie nicht wussten , dass sie auftreten würden, wenn Sie die Studie planten. Die Frage in Bezug auf "Post-hoc" ist, ob die Überraschungen zu glauben sind - sie müssen von zukünftigen Forschungen bestätigt werden.

gung - Reinstate Monica

7

Bevor Sie dies und das und das und das melden, formulieren Sie zunächst, was Sie aus Ihren experimentellen Daten lernen möchten. Das Hauptproblem bei gewöhnlichen Hypothesentests (diese Tests lernen wir in der Schule ...) ist nicht die Binarität: Das Hauptproblem ist, dass dies Tests für Hypothesen sind, die nicht von Interesse sind. Sehen Sie sich Folie 13 hier an (laden Sie das PDF herunter, um die Animationen zu sehen). Über Effektgrößen gibt es keine allgemeine Definition dieses Begriffs . Ehrlich gesagt würde ich nicht empfehlen, dies für nicht sachkundige Statistiker zu verwenden, dies sind technische, nicht natürliche "Wirkungsmaße". Ihre Hypothese von Interesse sollte so formuliert sein, dass sie für Laien verständlich ist.

Stéphane Laurent
quelle

1

Eine kleine Ergänzung - die Nullhypothese sollte eigentlich etwas bedeuten, das außerhalb des Kontexts der aktuellen Datenanalyse für Standard-HT gilt. Es sollte nicht "erfunden" werden, damit Sie etwas zu Gunsten Ihrer Theorie / Erkenntnis ablehnen können.

Wahrscheinlichkeitslogik

2

Ich bin weit davon entfernt, ein Statistikexperte zu sein, aber eine Sache, die in den Statistikkursen, die ich bisher gemacht habe, hervorgehoben wurde, ist das Thema "praktische Bedeutung". Ich glaube, dass dies auf das anspielt, worüber Jeromy und Gung sprechen, wenn sie sich auf "Effektgröße" beziehen.

Wir hatten ein Beispiel in der Klasse einer 12-wöchigen Diät mit statistisch signifikanten Gewichtsverlustergebnissen, aber das 95% -Konfidenzintervall zeigte einen mittleren Gewichtsverlust zwischen 0,2 und 1,2 kg. . Während sich "statistisch signifikant" von "Null" unterscheidet, ist ein Gewichtsverlust von 200 Gramm über 12 Wochen ein "praktisch signifikantes" Ergebnis für eine übergewichtige Person, die versucht, gesund zu werden?

kesahli
quelle

Dies ist der Punkt nach meiner Folie 13 :)

Stéphane Laurent

2

Dies ist auch ein Beispiel für das Testen der "falschen" Nullhypothese. Es ist nicht die Schlussfolgerung, an der Sie interessiert sind. Ein besserer Hypothesentest wäre, dass der Gewichtsverlust weniger als 5 kg gegenüber mehr als 5 kg beträgt.

Wahrscheinlichkeitslogik

1

Es ist unmöglich, genau zu antworten, ohne mehr über Ihr Studium und die Kritik der Person zu erfahren. Aber hier ist eine Möglichkeit: Wenn Sie mehrere Tests durchgeführt haben und sich auf den Test konzentrieren, bei dem p<0.05andere ignoriert wurden, wurde diese "Bedeutung" durch die Tatsache, dass Sie sich selektiv darauf konzentriert haben, verwässert. Denken Sie als Intuitionspumpe daran, dass dies p=0.05bedeutet , dass "dieses Ergebnis zufällig (nur) in 5% der Fälle eintrifft, selbst wenn die Nullhypothese wahr ist". Je mehr Tests Sie durchführen, desto wahrscheinlicher ist es, dass mindestens einer von ihnen zufällig ein "signifikantes" Ergebnis liefert - auch wenn dort keine Auswirkungen zu verzeichnen sind. Siehe http://en.wikipedia.org/wiki/Multiple_comparisons und http://en.wikipedia.org/wiki/Post-hoc_analysis

jez
quelle

0

Ich schlage vor, dass Sie Folgendes lesen:

Anderson, DR, Burnham, KP, Thompson, WL, 2000. Nullhypothesentest: Probleme, Prävalenz und eine Alternative. J. Wildl. Verwalten. 64, 912 & ndash; 923. Gigerenzer, G., 2004. Gedankenlose Statistik. Journal of Socio-Economics 33, 587-606. Johnson, DH, 1999. The Insignificance of Statistical Significance Testing. The Journal of Wildlife Management 63, 763-772.

Nullhypothesen sind selten in dem Sinne interessant, dass sich aus einem Experiment oder einer Reihe von Beobachtungen zwei Ergebnisse ergeben: die korrekte Zurückweisung der Null oder das Auftreten eines Fehlers vom Typ II. Die Effektgröße ist wahrscheinlich für Sie von Interesse, und sobald Sie dies getan haben, sollten Sie Konfidenzintervalle für diese Effektgröße erstellen.

Tom
quelle

Warum ist "statistisch signifikant" nicht genug?

Antworten:

Hypothesentest versus Parameterschätzung

Parameter / Effektgrößen

Schritte zur Abkehr vom Testen binärer Hypothesen

Verweise