Wie wählt man ein Signifikanzniveau für einen großen Datensatz?

15

Ich arbeite mit einem Datensatz mit N rund 200.000. In Regressionen sehe ich sehr kleine Signifikanzwerte << 0.001, die mit sehr kleinen Effektgrößen verbunden sind, z. B. r = 0.028. Was ich gerne wissen würde, gibt es eine grundsätzliche Möglichkeit, eine angemessene Signifikanzschwelle in Bezug auf die Stichprobengröße zu bestimmen? Gibt es noch andere wichtige Überlegungen zur Interpretation der Effektgröße bei einer so großen Stichprobe?

ted.strauss
quelle
10
Dies ist eine Frage von praktischer vs. statistischer Signifikanz. Wenn die Steigung wirklich von 0 abweicht, selbst um einen winzigen Betrag, zB .00000000000001), ergibt eine ausreichend große Probe einen sehr kleinen Wert, obwohl das Ergebnis keine praktische Bedeutung hat. Sie sollten die Punktschätzung besser interpretieren als den p- Wert, wenn Sie eine so große Stichprobengröße haben. pp
Makro
@Macro sorry kannst du hier klären, was du mit Punktschätzung meinst?
ted.strauss
3
Zusätzlich zu Macros Kommentar oben suche ich in dieser Situation nach "praktischer" oder "klinischer" Bedeutung in den Ergebnissen. Ist der Effekt für das, was Sie tun, groß genug, um Sie zu interessieren?
Michelle
1
Die Punktschätzung ist die beobachtete Regressionssteigungsschätzung.
Makro
2
@Macro und ich sagen beide, dass Sie entscheiden müssen, ob der klinische Effekt (Punktschätzungen, Steigungen) wichtig ist. Ihre Schwelle basiert auf der Entscheidung "Ja, dies ist ein wichtiger klinischer Effekt" und nicht "ein signifikanter p-Wert", da die meisten (alle?) Ihrer p-Werte signifikant sind.
Michelle

Antworten:

20

In The Insignificance of Significance Testing stellte Johnson (1999) fest, dass p-Werte willkürlich sind, indem Sie sie durch Sammeln von genügend Daten so klein machen können, wie Sie möchten, vorausgesetzt, die Nullhypothese ist falsch, was es fast immer ist. In der realen Welt ist es unwahrscheinlich, dass es semi-partielle Korrelationen gibt, die genau null sind. Dies ist die Nullhypothese beim Testen der Signifikanz eines Regressionskoeffizienten. P-Wert Signifikanzgrenzen sind noch beliebiger. Der Wert von .05 als Grenzwert zwischen Signifikanz und Nicht-Signifikanz wird nicht prinzipiell, sondern konventionell verwendet. Die Antwort auf Ihre erste Frage lautet also Nein. Es gibt keine grundsätzliche Möglichkeit, eine angemessene Signifikanzschwelle festzulegen.

Was können Sie angesichts Ihres großen Datenbestands tun? Dies hängt von Ihren Gründen für die Untersuchung der statistischen Signifikanz Ihrer Regressionskoeffizienten ab. Versuchen Sie, ein komplexes multifaktorielles System zu modellieren und eine nützliche Theorie zu entwickeln, die der Realität angemessen entspricht oder diese vorhersagt? Dann könnten Sie vielleicht darüber nachdenken, ein ausgefeilteres Modell zu entwickeln und eine Modellierungsperspektive zu entwickeln, wie in Rodgers (2010), The Epistemology of Mathematical And Statistical Modeling (The Epistemology of Mathematical And Statistical Modeling) beschrieben . Ein Vorteil vieler Daten besteht darin, dass Sie sehr umfangreiche Modelle mit mehreren Ebenen und interessanten Interaktionen untersuchen können (vorausgesetzt, Sie haben die entsprechenden Variablen).

Wenn Sie andererseits ein Urteil darüber abgeben möchten, ob ein bestimmter Koeffizient als statistisch signifikant behandelt werden soll oder nicht, möchten Sie möglicherweise den Vorschlag von Good (1982) übernehmen, wie in Woolley (2003) zusammengefasst : Berechnen Sie den q-Wert als die p-Werte auf eine Stichprobengröße von 100 normiert. Ein p-Wert von genau 0,001 wird in einen p-Wert von 0,045 umgewandelt - statistisch immer noch signifikant.p(n/100)

Also, wenn es wichtig ist, einen beliebigen Schwellenwert oder einen anderen zu verwenden, was ist damit? Wenn es sich um eine Beobachtungsstudie handelt, müssen Sie viel mehr rechtfertigen, dass sie in der Art und Weise, wie Sie denken, tatsächlich von Bedeutung ist, und nicht nur eine falsche Beziehung, die auftaucht, weil Sie Ihr Modell falsch spezifiziert haben. Beachten Sie, dass ein kleiner Effekt klinisch nicht so interessant ist, wenn er bestehende Unterschiede zwischen Personen darstellt, die sich für unterschiedliche Behandlungsebenen entscheiden, anstatt für einen Behandlungseffekt.

Sie müssen sich überlegen, ob die Beziehung, die Sie sehen, praktisch signifikant ist, wie Kommentatoren festgestellt haben. Die Umrechnung der Zahlen, die Sie für die erklärte Varianz von in r 2 zitieren ( r ist Korrelation, Quadrat, um die erklärte Varianz zu erhalten), ergibt nur 3% bzw. 6% Varianz, was nicht viel zu sein scheint.rr2r

Anne Z.
quelle
@ rolando2 danke für den edit, immer wieder verwirrt zwischen großen / kleinen p-werten! Ich denke, wenn es rechts von der Verteilung ist, ist es groß, aber der p-Wert ist klein.
Anne Z.
2
(+1) Dies ist eine wichtige Tatsache, über die viele Praktiker nicht genau nachdenken: "p-Werte sind willkürlich, da Sie sie so klein machen können, wie Sie möchten, indem Sie genügend Daten sammeln, vorausgesetzt, die Nullhypothese ist falsch, was sie ist fast immer ist. "
Makro
Vielen Dank! Die Punkte in Ihrem vorletzten Absatz sind gut angenommen. Ich lese den Woolley-Artikel und habe festgestellt, dass Ihre Q-Wert-Formel nicht stimmt. Es sollte p * sein, nicht p / - Ich habe versucht, es hier zu ändern, aber Änderungen müssen> 6 Zeichen sein.
ted.strauss
@ ted.strauss Ich bin froh, dass es hilfreich ist. Manchmal fühle ich mich entmutigt von den Einschränkungen der Tools wie p-Werten, mit denen wir arbeiten müssen. Danke, dass du den Fehler in der Formel bemerkt hast, ich habe ihn behoben.
Anne Z.
Danke für die wundervolle Antwort. Über den oben angegebenen Link kann ich jedoch nicht auf das Paper Woolley 2003 zugreifen.
KarthikS
-3

Ich denke, eine einfache Möglichkeit, dies zu überprüfen, besteht darin, eine ähnlich große Zahl zufällig aus einer Verteilung auszuwählen, von der Sie wissen, dass sie zweimal verteilt ist, und die beiden Ergebnisse zu vergleichen. Wenn Sie dies mehrmals tun und ähnliche p-Werte beobachten, deutet dies darauf hin, dass es keine wirklichen Auswirkungen gibt. Wenn Sie es andererseits nicht tun, dann ist es wahrscheinlich so.

Lars Kotthoff
quelle
7
Ich denke, Sie schlagen vor, Simulationen unter der Nullhypothese ohne echten Unterschied mit einer großen Stichprobengröße durchzuführen und die Werte zu betrachten. Ich kann Ihnen sagen, ohne die Simulationen durchzuführen, dass der Anteil < 0,001 der resultierenden p- Werte so gering ist wie derjenige, den das Originalplakat beobachtet hat. Dies gilt für jede Stichprobengröße. Dies ist die Definition eines p- Wertes. p<.001pp
Makro
1
In der Tat ist der kommt -Werten, die aus dem Prozess heraus Sie beschrieben einen haben U n i f o r m ( 0 , 1 ) Verteilung. pUniform(0,1)
Makro
1
In Bezug auf den letzten Kommentar von @Macro folgt hier eine Skizze des Beweises, dass unter der Nullhypothese der p- Wert eine U [ 0 , 1 ] -Verteilung hat. Bei gegebener Teststatistik T = T ( X ) ist , wenn wir t = t ( x ) beobachten , der p- Wert definiert als p ( t ) = P ( T t H 0 ) . Nehmen wir an, dass unter H 0H0pU[0,1]T=T(X)t=t(x)pp(t)=P(TtH0)H0die Verteilungsfunktion von ist G 0 , wobei G 0 stetig und nicht abnehmend ist, so dass es das Inverse G - 1 0 hat . Dann haben wir p ( t ) = 1 - G 0 ( t ) und für u [ 0 , 1 ]TG0G0G01p(t)=1G0(t)u[0,1]
Zen
1
P(p(T)u)=P(1G0(T)u)=P(G0(T)1u)=P(TG01(1u))=1G0(G01(1u))=u.
p(T)H0U[0,1]