Ich versuche, statistische Signifikanz, Effektgrößen und dergleichen besser zu verstehen.
Ich habe die Auffassung (vielleicht ist es falsch), dass selbst irrelevante Regressoren in großen Stichproben häufig statistisch signifikant werden . Mit irrelevant meine ich, dass es keine sachliche Erklärung gibt, warum der Regressor mit der abhängigen Variablen in Beziehung gesetzt werden sollte. Daher ist die Irrelevanz in diesem Beitrag ein reines thematisches Konzept und kein statistisches.
Ich weiß, dass ein Regressor bei einer ausreichend großen Stichprobe statistisch signifikant ist, es sei denn, der Populationseffekt ist genau Null (wie hier diskutiert ). Daher hat ein irrelevanter Regressor, der in einer großen Stichprobe statistisch signifikant erscheint, eine Effektgröße ungleich Null in der Population.
Fragen:
- Wie kommt es, dass ein irrelevanter Regressor statistisch signifikant ist?
- Sollte ich nach einer Erklärung des Themas suchen (dh versuchen, die Irrelevanz zu leugnen) oder ist dies ein statistisches Phänomen?
Dies ist eine Fortsetzung eines Beitrags, in dem ich versucht habe zu klären, wie dieser Effekt geheilt werden kann. In der Zwischenzeit frage ich hier, warum es überhaupt passiert.
quelle
Antworten:
Fragen:
Ich denke, es ist hilfreich darüber nachzudenken, was passiert, wenn sich Ihre Stichprobengröße der Population selbst nähert. Signifikanztests sollen Ihnen eine Vorstellung davon geben, ob in der Bevölkerung kein Effekt vorliegt. Dies ist der Grund, warum Signifikanztests bei der Arbeit mit Volkszählungsdaten (die die Bevölkerung erfassen) bedeutungslos sind (denn auf was möchten Sie verallgemeinern?).
Was bedeutet in diesem Sinne "eine Auswirkung auf die Bevölkerung"? Es bedeutet einfach jede Beziehung zwischen Variablen in der Bevölkerung, unabhängig davon, wie klein sie ist (sei es ein Unterschied von 1 Punkt oder 1 Person), selbst wenn diese Beziehung auf Zufall und Zufälligkeit im Universum zurückzuführen ist.
Wenn sich Ihre Stichprobe der Größe der Population nähert, werden Signifikanztests immer weniger aussagekräftig, da jeder Unterschied "statistisch signifikant" ist. Was Sie dann mehr interessiert, ist die Effektgröße - analog zu "praktisch signifikant".
Es ist ein Phänomen - Sie sollten sich die Effektgrößen ansehen.
quelle
Selbst wenn sich Ihre Stichprobengröße nicht Ihrer Population nähert, werden winzige Effekte bei großen Stichproben signifikant. Dies ist eine Folge dessen, was statistische Signifikanz bedeutet:
Wenn sich Ihre Frage auf alle Menschen auf der Erde bezieht, sind bei einer Stichprobe von 1.000.000 (nicht annähernd 7.000.000.000) sogar sehr kleine Effekte von Bedeutung, da es sehr unwahrscheinlich ist, dass solche Teststatistiken in großen Stichproben gefunden werden, wenn die Null wahr ist .
Es gibt viele Probleme mit Signifikanztests, die an vielen Stellen diskutiert werden. Dies ist einer von ihnen. Die "Heilung" besteht darin, Effektgrößen und Konfidenzintervalle zu betrachten.
quelle
Ich habe einige Erkenntnisse von @QxV ausgeliehen, um das Vorhandensein eines Bevölkerungseffekts zu erklären, auch wenn das Fachwissen keinen solchen Effekt nahe legt.
Sobald ein Populationseffekt vorliegt, ist es eine Frage der Stichprobengröße, wann wir ihn in der Stichprobe erkennen und wann er statistisch signifikant wird.
quelle
Zusätzlich zu den bereits veröffentlichten hervorragenden Antworten werde ich es aus einem anderen Blickwinkel versuchen. Alle Modelle sind in gewissem Sinne Näherungswerte ... Sehen Sie sich ein Regressionsmodell an, und eine irrelevante Variable ist von Bedeutung. Was kann das erklären?
Vielleicht ist es einfach nicht irrelevant, dass der heutige wissenschaftliche Konsens in dieser Angelegenheit einfach falsch ist . Abgesehen davon:
Dies kann ein Ersatz oder ein Proxy für eine ausgelassene Variable sein, die relevant ist und mit der irrelevanten Variablen korreliert.
Einige relevante Variablen, die linear im Modell enthalten sind, können nicht linear wirken, und Ihre irrelevante Variable kann ein Ersatz für diesen Teil der relevanten Variablen sein.
Eine gewisse Interaktion zwischen zwei relevanten Variablen ist wichtig, aber nicht im Modell enthalten. Ihre irrelevante Variable könnte ein Ersatz für diese ausgelassene Interaktion sein.
Die irrelevante Variable könnte nur sehr stark mit einer wichtigen Variablen korreliert sein, was zu negativ korrelierten Koeffizienten führt. Dies kann insbesondere dann wichtig sein, wenn diese Variablen Messfehler enthalten.
Es könnte einige Beobachtungen mit sehr hoher Hebelwirkung geben, die zu seltsamen Schätzungen führen.
Sicherlich andere ... ein wichtiger Punkt ist, dass ein lineares Regressionsmodell eine sehr gute Annäherung an eine kleine Stichprobe sein könnte, nur große Effekte sind signifikant. Eine größere Stichprobe führt zwar zu einer geringeren Varianz, kann jedoch die Verzerrung aufgrund von Annäherungen nicht verringern . Bei größeren Stichproben werden diese Unzulänglichkeiten des Modells offensichtlich und dominieren schließlich die Varianz.
quelle
Nein. Irrelevante Regressoren werden mit zunehmender Stichprobengröße statistisch nicht signifikant. Versuchen Sie den folgenden Code in R.
y <- rnorm (10000000)
x <- rnorm (10000000)
Zusammenfassung (lm (y ~ x))
quelle