Ich habe meine Datenanalyse abgeschlossen und "statistisch signifikante Ergebnisse" erhalten, was mit meiner Hypothese übereinstimmt. Ein Student der Statistik sagte mir jedoch, dies sei eine vorzeitige Schlussfolgerung. Warum? Muss mein Bericht noch etwas anderes enthalten?
46
Antworten:
Hypothesentest versus Parameterschätzung
Normalerweise werden Hypothesen binär gerahmt. Ich werde Richtungshypothesen beiseite legen, da sie das Problem nicht wesentlich ändern. Zumindest in der Psychologie ist es üblich, über folgende Hypothesen zu sprechen: Der Unterschied zwischen Gruppenmitteln ist oder ist nicht Null; die Korrelation ist oder ist nicht Null; der Regressionskoeffizient ist oder ist nicht Null; das r-Quadrat ist oder ist nicht Null. In all diesen Fällen gibt es eine Nullhypothese ohne Wirkung und eine Alternativhypothese für eine Wirkung.
Dieses binäre Denken ist im Allgemeinen nicht das, woran wir am meisten interessiert sind. Wenn Sie über Ihre Forschungsfrage nachdenken, werden Sie fast immer feststellen, dass Sie tatsächlich an der Schätzung von Parametern interessiert sind. Sie interessieren sich für die tatsächliche Differenz zwischen dem Gruppenmittelwert, die Größe der Korrelation, die Größe des Regressionskoeffizienten oder den Betrag der erklärten Varianz.
Wenn wir eine Stichprobe von Daten erhalten, stimmt die Stichprobenschätzung eines Parameters natürlich nicht mit dem Populationsparameter überein. Wir müssen also unsere Unsicherheit über den Wert des Parameters quantifizieren. Aus einer häufigeren Perspektive bieten Konfidenzintervalle eine Möglichkeit, dies zu tun, obwohl bayesianische Puristen möglicherweise argumentieren, dass sie die Schlussfolgerungen, die Sie möglicherweise ziehen möchten, nicht strikt zulassen. Aus Bayes-Sicht bieten glaubwürdige Intervalle für posteriore Dichten eine direktere Möglichkeit, Ihre Unsicherheit über den Wert eines Populationsparameters zu quantifizieren.
Parameter / Effektgrößen
Wenn Sie sich vom Testansatz für binäre Hypothesen entfernen, werden Sie gezwungen, kontinuierlich zu denken. Welcher Größenunterschied in Gruppenmitteln wäre zum Beispiel theoretisch interessant? Wie würden Sie den Unterschied zwischen Gruppenmitteln auf subjektive Sprache oder praktische Implikationen abbilden? Standardisierte Wirkungsmaße und kontextbezogene Normen sind eine Möglichkeit, eine Sprache zur Quantifizierung der Bedeutung verschiedener Parameterwerte zu erstellen. Solche Maßnahmen werden oft als "Effektgrößen" bezeichnet (z. B. Cohens d, r, usw.). Es ist jedoch durchaus sinnvoll und oftmals vorzuziehen, über die Bedeutung eines Effekts mit Hilfe nicht standardisierter Maßnahmen zu sprechen (z. B. bedeutet der Unterschied in der Gruppe, dass wichtige nicht standardisierte Variablen wie Einkommensniveau, Lebenserwartung usw. betroffen sind).R2
In der Psychologie (und anderen Bereichen) gibt es eine große Literatur, die sich mit p-Werten, Nullhypothesen-Signifikanztests usw. beschäftigt (siehe diese Google Scholar-Suche ). In dieser Literatur wird häufig empfohlen, Effektgrößen mit Konfidenzintervallen als Auflösung anzugeben (z. B. APA Task Force von Wilkinson, 1999).
Schritte zur Abkehr vom Testen binärer Hypothesen
Wenn Sie darüber nachdenken, dieses Denken zu übernehmen, gibt es meines Erachtens immer ausgefeiltere Ansätze:
Unter vielen möglichen Referenzen wird Andrew Gelman in seinem Blog und in seinen Recherchen viel über diese Themen sprechen.
Verweise
quelle
Nur um die vorhandenen Antworten zu ergänzen (die übrigens großartig sind). Es ist wichtig zu wissen, dass die statistische Signifikanz von der Stichprobengröße abhängt .
Wenn Sie immer mehr Daten erhalten, können Sie statistisch signifikante Unterschiede feststellen, wo immer Sie hinschauen. Wenn die Datenmenge sehr groß ist, können selbst kleinste Effekte zu statistischer Signifikanz führen. Dies bedeutet nicht, dass die Effekte in irgendeiner praktischen Weise von Bedeutung sind.
Beim Testen auf Unterschiede reichen Werte allein nicht aus, da die für ein statistisch signifikantes Ergebnis erforderliche Effektgröße mit zunehmender Stichprobengröße abnimmt . In der Praxis stellt sich in der Regel die Frage, ob es einen Effekt einer bestimmten Mindestgröße gibt (um relevant zu sein). Wenn die Stichproben sehr groß werden, werden die Werte bei der Beantwortung der eigentlichen Frage nahezu bedeutungslos .pp p
quelle
Wenn es eine vernünftige Grundlage für den Verdacht gibt, dass Ihre Hypothese zutrifft, bevor Sie Ihre Studie durchgeführt haben; und Sie haben eine gute Studie durchgeführt (z. B. haben Sie keine Verwirrungen hervorgerufen); und Ihre Ergebnisse stimmten mit Ihrer Hypothese überein und waren statistisch signifikant; dann denke ich, dass es dir gut geht, soweit das geht.
Sie sollten jedoch nicht denken, dass die Bedeutung alles ist, was für Ihre Ergebnisse wichtig ist. Zunächst sollten Sie sich auch die Effektgröße ansehen (siehe meine Antwort hier: Effektgröße als Hypothese für Signifikanztests ). Möglicherweise möchten Sie auch Ihre Daten ein wenig untersuchen und nach interessanten Überraschungen suchen, die es möglicherweise wert sind, weiterverfolgt zu werden.
quelle
Bevor Sie dies und das und das und das melden, formulieren Sie zunächst, was Sie aus Ihren experimentellen Daten lernen möchten. Das Hauptproblem bei gewöhnlichen Hypothesentests (diese Tests lernen wir in der Schule ...) ist nicht die Binarität: Das Hauptproblem ist, dass dies Tests für Hypothesen sind, die nicht von Interesse sind. Sehen Sie sich Folie 13 hier an (laden Sie das PDF herunter, um die Animationen zu sehen). Über Effektgrößen gibt es keine allgemeine Definition dieses Begriffs . Ehrlich gesagt würde ich nicht empfehlen, dies für nicht sachkundige Statistiker zu verwenden, dies sind technische, nicht natürliche "Wirkungsmaße". Ihre Hypothese von Interesse sollte so formuliert sein, dass sie für Laien verständlich ist.
quelle
Ich bin weit davon entfernt, ein Statistikexperte zu sein, aber eine Sache, die in den Statistikkursen, die ich bisher gemacht habe, hervorgehoben wurde, ist das Thema "praktische Bedeutung". Ich glaube, dass dies auf das anspielt, worüber Jeromy und Gung sprechen, wenn sie sich auf "Effektgröße" beziehen.
Wir hatten ein Beispiel in der Klasse einer 12-wöchigen Diät mit statistisch signifikanten Gewichtsverlustergebnissen, aber das 95% -Konfidenzintervall zeigte einen mittleren Gewichtsverlust zwischen 0,2 und 1,2 kg. . Während sich "statistisch signifikant" von "Null" unterscheidet, ist ein Gewichtsverlust von 200 Gramm über 12 Wochen ein "praktisch signifikantes" Ergebnis für eine übergewichtige Person, die versucht, gesund zu werden?
quelle
Es ist unmöglich, genau zu antworten, ohne mehr über Ihr Studium und die Kritik der Person zu erfahren. Aber hier ist eine Möglichkeit: Wenn Sie mehrere Tests durchgeführt haben und sich auf den Test konzentrieren, bei dem
p<0.05
andere ignoriert wurden, wurde diese "Bedeutung" durch die Tatsache, dass Sie sich selektiv darauf konzentriert haben, verwässert. Denken Sie als Intuitionspumpe daran, dass diesp=0.05
bedeutet , dass "dieses Ergebnis zufällig (nur) in 5% der Fälle eintrifft, selbst wenn die Nullhypothese wahr ist". Je mehr Tests Sie durchführen, desto wahrscheinlicher ist es, dass mindestens einer von ihnen zufällig ein "signifikantes" Ergebnis liefert - auch wenn dort keine Auswirkungen zu verzeichnen sind. Siehe http://en.wikipedia.org/wiki/Multiple_comparisons und http://en.wikipedia.org/wiki/Post-hoc_analysisquelle
Ich schlage vor, dass Sie Folgendes lesen:
Anderson, DR, Burnham, KP, Thompson, WL, 2000. Nullhypothesentest: Probleme, Prävalenz und eine Alternative. J. Wildl. Verwalten. 64, 912 & ndash; 923. Gigerenzer, G., 2004. Gedankenlose Statistik. Journal of Socio-Economics 33, 587-606. Johnson, DH, 1999. The Insignificance of Statistical Significance Testing. The Journal of Wildlife Management 63, 763-772.
Nullhypothesen sind selten in dem Sinne interessant, dass sich aus einem Experiment oder einer Reihe von Beobachtungen zwei Ergebnisse ergeben: die korrekte Zurückweisung der Null oder das Auftreten eines Fehlers vom Typ II. Die Effektgröße ist wahrscheinlich für Sie von Interesse, und sobald Sie dies getan haben, sollten Sie Konfidenzintervalle für diese Effektgröße erstellen.
quelle