Gelman & Carlin verstehen „Beyond Power Calculations:…“ (2014)

11

Ich lese Gelman & Carlin "Jenseits von Leistungsberechnungen: Bewertung von Fehlern vom Typ S (Vorzeichen) und Typ M (Größe)" (2014). Ich versuche, die Hauptidee, die Hauptidee, zu verstehen, aber ich bin verwirrt. Könnte mir jemand helfen, die Essenz zu destillieren?

Das Papier geht ungefähr so ​​(wenn ich es richtig verstanden habe).

  • Statistische Studien in der Psychologie werden oft von kleinen Stichproben geplagt.
  • Abhängig von einem statistisch signifikanten Ergebnis in einer bestimmten Studie wird
    (1) die wahre Effektgröße wahrscheinlich stark überschätzt und
    (2) das Vorzeichen des Effekts kann mit hoher Wahrscheinlichkeit entgegengesetzt sein - es sei denn, die Stichprobengröße ist groß genug.
  • Das Obige wird unter Verwendung einer vorherigen Schätzung der Effektgröße in der Population gezeigt, und dieser Effekt wird typischerweise als gering angesehen.

Mein erstes Problem ist, warum Bedingung für das statistisch signifikante Ergebnis? Soll es die Publikationsbias widerspiegeln? Dies scheint jedoch nicht der Fall zu sein. Warum also?

Mein zweites Problem ist, wenn ich selbst eine Studie mache, sollte ich meine Ergebnisse anders behandeln als ich es gewohnt bin (ich mache frequentistische Statistiken, die mit Bayesian nicht sehr vertraut sind)? Zum Beispiel würde ich eine Datenprobe nehmen, ein Modell schätzen und eine Punktschätzung für einen interessierenden Effekt und ein damit verbundenes Vertrauen aufzeichnen. Soll ich jetzt meinem Ergebnis misstrauen? Oder sollte ich ihm misstrauen, wenn es statistisch signifikant ist? Wie ändert eine bestimmte vorherige Änderung das?

Was ist der wichtigste Aspekt (1) für einen "Produzenten" statistischer Forschung und (2) für einen Leser angewandter statistischer Arbeiten?

Verweise:

PS Ich denke, das neue Element für mich ist die Aufnahme von Vorinformationen, deren Behandlung ich nicht sicher bin (aus dem frequentistischen Paradigma).

Richard Hardy
quelle
Wie Sie sehen können, bin ich ziemlich verwirrt, sodass meine Fragen möglicherweise nicht kohärent oder vernünftig erscheinen. Ich werde mich über Hinweise freuen, um aus der Arbeit, die ich studiere, mehr Sinn zu machen. Ich hoffe, mit fortschreitendem Verständnis des Themas vernünftigere Fragen stellen zu können.
Richard Hardy
7
Beachten Sie, dass sie die Prämisse des Papiers gleich zu Beginn festlegen: " Sie haben gerade ein Experiment durchgeführt. Sie analysieren die Ergebnisse und stellen einen signifikanten Effekt fest . Erfolg! Aber warten Sie - wie viele Informationen liefert Ihnen Ihre Studie wirklich "Wie sehr sollten Sie Ihren Ergebnissen vertrauen? " --- Sie beschreiben, was passiert / was impliziert wird, wenn Sie Bedeutung haben. Sie nutzen diese Konsequenzen, um sich auf andere Dinge als die Bedeutung zu konzentrieren.
Glen_b -Reinstate Monica
Sie sollten Ihrem Ergebnis misstrauen - ja -, wenn Sie mehrere Signifikanztests durchführen und alles herausfiltern, was sich als unbedeutend herausstellt. Dies ist eine Art "Publikationsbias", aber es kann ohne Veröffentlichungen geschehen, einfach innerhalb des Labors einer Person über einen Zeitraum von mehreren Monaten oder Jahren von Experimenten. Jeder tut so etwas bis zu einem gewissen Grad, daher das pädagogische Interesse an der Konditionierung auf signifikante Ergebnisse.
Amöbe sagt Reinstate Monica
@amoeba, OK, aber wenn ich (hypothetisch) nur ein Modell schätze und mich auf nur einen vorgegebenen Parameter konzentriere (also absolut keine Mehrfachtests), würde das Ergebnis von Gelman & Carlin etwas ändern? Wie wäre es mit den vorherigen Informationen?
Richard Hardy
2
Vorherige Informationen sind erforderlich, um die Rate falscher Entdeckungen zu bewerten. Die übliche Logik der Signifikanzprüfung garantiert nur die Fehlerrate P vom Typ I (Signifikanz | Null). Um P (null | signifikant) zu schätzen, müssen Sie einige vorher aufrufen. Das machen Gelman & Carlin hier. Wenn Sie nur ein Modell schätzen, ist die "Rate falscher Entdeckungen" bedeutungslos (im frequentistischen Ansatz). Aber normalerweise schätzen die Leute viele Modelle :-) oder zumindest lesen sie Literatur, die aus anderen Leuten besteht, die viele Modelle schätzen.
Amöbe sagt Reinstate Monica

Antworten:

5

Ich habe die Zeitung noch einmal gelesen und diesmal scheint es viel klarer zu sein. Nun machen auch die hilfreichen Kommentare von @Glen_b und @amoeba viel Sinn.

Die gesamte Diskussion basiert auf dem Ausgangspunkt, dass ein statistisch signifikantes Ergebnis erzielt wurde. Bedingt durch das, wir haben die geschätzte Effekt Größe unterschiedlich verteilt , als es die Konditionierung nicht vorhanden sein Das Papier scheint auf zwei Probleme abzuzielen:

Pβ^(|β^ is statistically significant)Pβ^().
  1. Publikationsbias (nur statistisch signifikante Ergebnisse werden veröffentlicht) und
  2. Verzerrung bei Entwurfsberechnungen für neue Studien (wobei zu große erwartete Effektgrößen als Benchmark herangezogen werden).

Die gute Nachricht ist, dass beide Probleme zufriedenstellend angegangen werden können.

  1. βplausibleβ^s.e.(β^)tPβ^()
  2. βplausible

Um meine eigenen zwei Fragen kurz zu beantworten:

  1. Es geht um die Publikationsverzerrung, wenn auch nicht im Sinne von Datenbaggerung, sondern im Kontext von Studien mit unzureichender Leistung; dort ist es wahrscheinlich, dass ein statistisch signifikantes Ergebnis eher zu den 5% Ablehnungen unter der Null gehört (also ist die Null tatsächlich wahr, aber wir sind zufällig weit davon entfernt) als zu einer Ablehnung unter der Alternative (wo die null ist nicht wahr und das Ergebnis ist "echt").
  2. Ich sollte vorsichtig sein, wenn ich die Null ablehne, da das statistisch signifikante Ergebnis wahrscheinlich eher zufällig (obwohl die Chance beispielsweise auf 5% begrenzt ist) als auf einen "echten" Effekt (aufgrund geringer Leistung) zurückzuführen ist. .
Richard Hardy
quelle
2
Diese Antwort von Glen_b ist auch sehr hilfreich.
Richard Hardy
βplausibleD
@PatrickB., Danke. Ich werde etwas später einen Blick darauf werfen. (Ich sehe, ich hatte Ihre Antwort bereits zuvor positiv bewertet; das heißt, ich hatte sie bereits hilfreich gefunden.)
Richard Hardy
1
Richard, ich habe eine R-Funktion entwickelt , um den Fehler vom Typ "S" und vom Typ "M" für einen allgemeineren Fall von Effektgrößen zu schätzen, nicht für das, was Gelman unter der Normalverteilung zeigt. Während Sie das Papier lesen, gibt es einen einfachen Wiederherstellungsprozess von einem zuvor und statistisch signifikanten Befund. Der gesamte Prozess basiert jedoch vollständig auf einer Leistungsanalyse. Im Wesentlichen ist die SE für kleine verrauschte Studien groß, und wenn Sie mehrere vernünftige, durch empirisch überprüfbare plausible Effektgrößen annehmen, können Sie vernünftige ...
rnorouzian
1
... schätzt, was eine zukünftige Studie in Bezug auf die Stichprobengröße enthalten sollte, die erforderlich ist, um hohe Raten vom Typ "S" und hohe Übertreibungsraten (dh Typ "M") zu vermeiden. Für die Aufzeichnungen ist Gelmans Typ "S" einfach das Stück unter der zugrunde liegenden Effektgrößenverteilung, das sich auf der gegenüberliegenden Seite des untergeordneten Effekts geteilt durch die Leistung befindet. Schauen Sie sich die Funktion an, falls sie helfen kann.
rnorouzian
2

Es gibt einen anderen Aspekt dieses Dokuments, der hilfreich sein kann, wenn Sie bereits eine Bayes'sche Analyse anwenden und sich nicht um den statistischen Signifikanzteil kümmern.

PβVβ

p(β|V)p(V|β)p(β)

VVp(V|β)

βplausibleP(V|β)β=βplausibleVβplausible ist die wahre Effektgröße.

Vβ

VV

ββplausible

βplausible

βplausible

Sie müssen darauf achten, dass niemand diese "Potenz" -Metrik missbraucht, als wäre es dasselbe wie eine häufig verwendete Potenzberechnung, was ziemlich schwierig ist. Alle diese Metriken sind jedoch für die prospektive und retrospektive Entwurfsanalyse sehr nützlich, selbst wenn das gesamte Modellierungsverfahren Bayes'sch ist und sich nicht auf statistische Signifikanzergebnisse bezieht.

ely
quelle