Als Reaktion auf eine wachsende Zahl von Statistikern und Forschern, die den Nutzen von Nullhypothesentests (NHT) für die Wissenschaft als kumulatives Unterfangen kritisieren, hat die Task Force für statistische Inferenz der American Psychological Association ein völliges Verbot von NHT vermieden, aber stattdessen vorgeschlagen, dass Forscher geben die Effektgrößen zusätzlich zu den von NHT abgeleiteten p-Werten an.
Die Effektgrößen können jedoch nicht leicht in allen Studien akkumuliert werden. Metaanalytische Ansätze können Verteilungen von Effektgrößen akkumulieren. Die Effektgrößen werden jedoch in der Regel als Verhältnis zwischen der Stärke des Roheffekts und dem unerklärten "Rauschen" in den Daten eines bestimmten Experiments berechnet Variabilität in der rohen Stärke des Effekts über Studien hinweg, aber auch Variabilität in der Manifestation von Lärm über Studien hinweg.
Im Gegensatz dazu ermöglicht ein alternatives Maß für die Effektstärke und das Wahrscheinlichkeitsverhältnis sowohl eine intuitive Interpretation für jede Studie als auch eine einfache Aggregation für alle Studien zur Metaanalyse. In jeder Studie stellt die Wahrscheinlichkeit die Beweiskraft für ein Modell mit einem bestimmten Effekt im Verhältnis zu einem Modell dar, das den Effekt nicht enthält, und kann typischerweise als "Berechnung eines Wahrscheinlichkeitsverhältnisses für den Effekt von X" angegeben werden 8 mal mehr Beweise für die Wirkung als für ihre jeweilige Null ". Darüber hinaus ermöglicht das Wahrscheinlichkeitsverhältnis auch eine intuitive Darstellung der Stärke von Nullbefunden, sofern Wahrscheinlichkeitsverhältnisse unter 1 Szenarien darstellen, in denen die Null bevorzugt wird und der Kehrwert dieses Werts das Beweisgewicht für die Null gegenüber dem Effekt darstellt. Vor allem, Das Wahrscheinlichkeitsverhältnis wird mathematisch als das Verhältnis der unerklärten Varianzen der beiden Modelle dargestellt, die sich nur in der durch den Effekt erklärten Varianz unterscheiden und somit keine große konzeptionelle Abweichung von einer Effektgröße darstellen. Auf der anderen Seite ist die Berechnung eines metaanalytischen Wahrscheinlichkeitsverhältnisses, das das Gewicht der Evidenz für einen Effekt über Studien hinweg darstellt, einfach eine Frage der Ermittlung des Produkts der Wahrscheinlichkeitsverhältnisse über Studien hinweg.
Daher behaupte ich, dass für die Wissenschaft, die den Grad der groben Evidenz zugunsten eines Effekts / Modells ermitteln möchte, die Wahrscheinlichkeitsverhältnisse der richtige Weg sind.
Es gibt differenziertere Fälle, in denen Modelle nur in der spezifischen Größe eines Effekts differenzierbar sind. In diesem Fall wird möglicherweise eine Darstellung des Intervalls bevorzugt, in dem die Daten unserer Ansicht nach mit den Effektparameterwerten übereinstimmen. In der Tat empfiehlt die APA-Task Force auch die Meldung von Vertrauensintervallen, die zu diesem Zweck verwendet werden können, aber ich vermute, dass dies auch ein unüberlegter Ansatz ist.
Konfidenzintervalle werden bedauerlicherweise häufig falsch interpretiert (sowohl von Studenten als auch von Forschern ). Ich befürchte auch, dass ihre Fähigkeit zur Verwendung in der NHT (durch Einschätzung der Einbeziehung von Null in das CI) nur dazu beitragen wird, das Aussterben der NHT als eine inferentielle Praxis weiter zu verzögern.
Wenn Theorien nur durch die Größe der Effekte differenzierbar sind, empfehle ich stattdessen einen Bayes'schen Ansatz, bei dem die vorherige Verteilung jedes Effekts von jedem Modell separat definiert und die resultierenden hinteren Verteilungen verglichen werden.
Scheint dieser Ansatz, p-Werte, Effektgrößen und Konfidenzintervalle durch Wahrscheinlichkeitsverhältnisse und gegebenenfalls Bayes'schen Modellvergleich zu ersetzen, ausreichend? Fehlt ein notwendiges Inferenzmerkmal, das die hier beschriebenen Alternativen bieten?
quelle
Antworten:
Die Hauptvorteile eines Bayes'schen Ansatzes, zumindest für mich als Forscher in der Psychologie, sind:
1) können Sie Beweise für die Null sammeln
2) umgeht die theoretischen und praktischen Probleme der sequentiellen Prüfung
3) ist nicht anfällig für die Zurückweisung einer Null, nur wegen eines großen N (siehe vorherigen Punkt)
4) ist besser geeignet, wenn mit kleinen Effekten gearbeitet wird (bei großen Effekten stimmen häufig sowohl die häufige als auch die bayesianische Methode überein)
5) ermöglicht es, hierarchische Modellierung auf praktikable Weise durchzuführen. Das Einführen von Element- und Teilnehmer-Effekten in einigen Modellklassen, z. B. Multinomial Processing Tree-Modellen, müsste beispielsweise in einem Bayes-Framework erfolgen, da sonst die Rechenzeit wahnsinnig lang wäre.
6) Sie erhalten "echte" Konfidenzintervalle
7) Sie benötigen drei Dinge: die Wahrscheinlichkeit, die Prioritäten und die Wahrscheinlichkeit der Daten. Das erste erhalten Sie aus Ihren Daten, das zweite erstellen Sie und das dritte brauchen Sie bei gegebener Verhältnismäßigkeit überhaupt nicht. Ok, vielleicht übertreibe ich ein wenig ;-)
Insgesamt kann man die Frage umkehren: Bedeutet das alles, dass klassische Frequentist-Statistiken nicht ausreichen? Ich denke, "Nein" zu sagen ist ein zu hartes Urteil. Die meisten Probleme lassen sich einigermaßen vermeiden, wenn man über p-Werte hinausgeht und sich Dinge wie Effektgrößen, die Möglichkeit von Gegenstandseffekten und die konsequente Replikation von Ergebnissen anschaut (zu viele Ein-Experiment-Artikel werden veröffentlicht!).
Bei Bayes ist aber nicht alles so einfach. Nehmen Sie zum Beispiel die Modellauswahl mit nicht verschachtelten Modellen. In diesen Fällen sind die Priors äußerst wichtig, da sie die Ergebnisse stark beeinflussen. Manchmal haben Sie nicht so viel Wissen über die meisten Modelle, mit denen Sie arbeiten möchten, um die richtigen Priors zu erhalten. Auch dauert sehr lange ....
Ich hinterlasse zwei Referenzen für alle, die sich für das Tauchen in Bayes interessieren.
"Ein Kurs in Bayesian Graphical Modeling for Cognitive Science" von Lee und Wagenmakers
"Bayesian Modeling Using WinBUGS" von Ntzoufras
quelle