Bei einer ausreichend großen Stichprobe zeigt ein Test immer ein signifikantes Ergebnis, es sei denn, die tatsächliche Effektgröße ist genau Null. Warum?

21

Ich bin gespannt auf eine Behauptung im Wikipedia-Artikel zur Effektgröße . Speziell:

[...] Ein statistischer Vergleich, der nicht Null ist, zeigt immer statistisch signifikante Ergebnisse, es sei denn, die Populationsgröße ist genau Null

Ich bin mir nicht sicher, was dies bedeutet / impliziert, geschweige denn ein Argument, um es zu untermauern. Schließlich ist ein Effekt eine Statistik, dh ein Wert, der aus einer Stichprobe mit eigener Verteilung berechnet wird. Bedeutet dies, dass Effekte niemals auf zufällige Variationen zurückzuführen sind (was meiner Meinung nach bedeutet, dass sie nicht signifikant sind)? Überlegen wir uns dann nur, ob der Effekt stark genug ist - einen hohen absoluten Wert zu haben?

Ich denke über den Effekt nach, den ich am besten kenne: Der Pearson-Korrelationskoeffizient r scheint dem zu widersprechen. Warum sollte ein statistisch signifikant sein? Wenn klein ist, ist unsere Regressionsgerade rr

y=ax+b=r(sysx)=ϵx+b

Wenn small nahe bei 0 liegt, enthält ein F-Test wahrscheinlich ein Konfidenzintervall mit 0 für die Steigung. Ist das nicht ein Gegenbeispiel?ϵ

Gary
quelle
10
Hinweis: Die Klausel vor dem von Ihnen angegebenen Teil ist von wesentlicher Bedeutung. " Bei einer ausreichend großen Stichprobe zeigt ein statistischer Vergleich ohne Null immer statistisch signifikante Ergebnisse, es sei denn, die Populationsgröße ist genau null ..."
Kodiologist
@Kodiologist: Aber würde dies in meinem Beispiel bedeuten, dass bei einer größeren Stichprobengröße auch r selbst größer wäre oder zumindest der Ausdruck größer wäre, wenn die Stichprobengröße größer wäre? Ich sehe es nicht r(sy/sx)
Gary
5
Wenn dies nicht wahr wäre, wäre es ein Fehler in der statistischen Methode. Wenn , ist sicherlich eine Stichprobengröße groß genug, um den Unterschied zu erkennen. μ>μ0
John Coleman

Antworten:

26

Nehmen wir als einfaches Beispiel an, ich schätze Ihre Größe mit einem statistischen Hokuspokus.

Sie haben anderen immer gesagt, dass Sie 177 cm groß sind.

Wenn ich diese Hypothese testen (die Körpergröße bis 177 cm, gleich ist ), und ich konnte den Fehler in meiner Messung genug reduzieren, dann könnte ich beweisen , dass Sie nicht in der Tat 177 cm. Wenn ich Ihre Höhe auf genügend Dezimalstellen schätze, würden Sie mit ziemlicher Sicherheit von der angegebenen Höhe von 177,00000000 cm abweichen. Vielleicht sind Sie 177,02 cm groß; Ich muss meinen Fehler nur auf weniger als 0,02 reduzieren, um festzustellen, dass Sie nicht 177 cm sind.h=177

Wie reduziere ich den Fehler in der Statistik? Holen Sie sich eine größere Probe. Wenn Sie eine ausreichend große Stichprobe erhalten, wird der Fehler so klein, dass Sie die kleinsten Abweichungen von der Nullhypothese erkennen können.

Underminer
quelle
2
Dies ist eine sehr klare und prägnante Erklärung. Es ist wahrscheinlich hilfreicher, um zu verstehen, warum dies geschieht, als die mathematischeren Antworten. Gut gemacht.
Niemand
1
Schön erklärt, aber ich denke, es ist auch wichtig zu berücksichtigen, dass es Fälle gibt, in denen der angegebene Wert wirklich genau ist. Wenn Sie zum Beispiel seltsame Dinge beiseite lassen, die in der Stringtheorie usw. vorkommen, wird eine Messung der Anzahl der räumlichen Dimensionen unseres Universums (die durchgeführt werden kann) 3 ergeben, und unabhängig davon, wie genau Sie diese Messung durchführen, werden Sie dies tun Finden Sie niemals durchgehend statistisch signifikante Abweichungen von 3. Wenn Sie genügend oft testen, erhalten Sie natürlich einige Abweichungen, die einfach auf Abweichungen zurückzuführen sind, aber das ist ein anderes Problem.
David Z
Wahrscheinlich eine naive Frage, aber wenn ich behaupte, 177 cm zu haben, bedeutet das Konzept der signifikanten Ziffern dann nicht, dass ich nur sage, dass ich zwischen 176,5 und 177,5 bin? Die Antwort scheint ein gutes theoretisches Konzept zu geben, wahr, aber basiert es nicht auf einer falschen Prämisse? Was vermisse ich?
JimLohse
In diesem Fall entspricht die angegebene Höhe von 177 der statistischen Nullhypothese. Beim traditionellen Testen von Hypothesen auf Gleichheit geben Sie eine Gleichheitserklärung ab (z. B. ). Der Punkt ist, dass ich es widerlegen kann, indem ich den Fehler reduziere, unabhängig davon, wie Sie Ihre Größe angeben, es sei denn, die Nullhypothese ist GENAU wahr. Ich habe Höhe als leicht verständliches Beispiel verwendet, aber dieses Konzept ist in anderen Bereichen dasselbe (Substanz x verursacht keinen Krebs, diese Münze ist fair usw.)μ=177
Underminer
13

Wie @Kodiologist ausführt, geht es hier wirklich darum, was bei großen Stichproben geschieht. Für kleine Stichprobengrößen gibt es keinen Grund, warum Sie keine falsch positiven oder falsch negativen Ergebnisse erhalten können.

Ich denke, der Test macht den asymptotischen Fall am klarsten. Angenommen, wir haben und wollen vs . Unsere Teststatistik lautet X 1 , ... , X n iid ~ N ( μ , 1 ) H 0 : μ = 0 H A : μ & ne; 0 Z n = ˉ X n - 0zX1,,XniidN(μ,1)H0:μ=0HEIN:μ0

Zn=X¯n-01/n=nX¯n.

Zn=X¯nN(μ,1n) also . Wir interessieren uns für . Sei unsere Referenzvariable. Unter haben wir also damit wir wählen können, um unsere Fehlerrate vom Typ I wie gewünscht zu steuern . Aber unter so P(|Zn|α)P(|Zn|α)=P(Zn-α)+P(Znα)=1+Φ(-α-& mgr;Zn=nX¯nN(μn,1)P(|Zn|α)

P(|Zn|α)=P(Zn-α)+P(Znα)
Y~N(0,1)H0μ=0P(|Zn|α)=1-P(-αYα)αHAμ
=1+Φ(-α-μn)-Φ(α-μn).
Y.N(0,1)H0 μ=0P(|Zn|α)=1-P(-αY.α)αHEIN P(|Zn|α)1+(±)-(±)=1H0μ0±μ<0μn0
P(|Zn|α)1+Φ(±)-Φ(±)=1
also lehnen wir mit Wahrscheinlichkeit 1 wenn (the ist im Fall von , aber so oder so haben die Unendlichkeiten das gleiche Vorzeichen.H0μ0±μ<0

Der Punkt dabei ist, dass wenn genau gleich ist, unsere Teststatistik die Referenzverteilung hat und wir 5% (oder was auch immer wir wählen) der Zeit ablehnen. Aber wenn nicht genau , dann ist die Wahrscheinlichkeit , dass wir Köpfe ablehnen würden als zunimmt. Die Idee hier ist die Konsistenz eines Tests, , dass unter die Leistung (Wahrscheinlichkeit des Zurückweisens) auf als .0 μ 0 1 n H A 1 n μ 0μ01nHEIN1n

Genauso mit der Teststatistik zum Testen von Vergleich zu mit dem Pearson-Korrelationskoeffizienten. Wenn die Nullhypothese falsch ist, wird die Wahrscheinlichkeit unserer Teststatistik immer größer, sodass die Wahrscheinlichkeit, dass wir sie ablehnen, bei .H A : ρ ρ 0 1H0:ρ=ρ0HEIN:ρρ01

jld
quelle
1
Nitpick: Wenn , wird zu anstatt abweichen , richtig? μ<0Zn-
Kodiologist
1
Schön, aber was im Fall von passiert, sollte davon abhängen, ob "schneller" als , oder? Ich bin mir nicht einmal sicher, wie Sie die Konvergenzrate für eine Folge von Zufallsvariablen und eine Folge von ganzen Zahlen "vergleichen" würden - wahrscheinlich sollte Slutskys Theorem oder ähnliches angewendet werden. μ=0X¯p0n
DeltaIV
1
@DeltaIV, richtig, wenn die Konvergenzrate unterschiedlich wäre, würde man eine andere Skalierung benötigen, um eine nicht entartete Nullverteilung zu erhalten. Aber für das vorliegende Beispiel ist root-n die richtige Rate.
Christoph Hanck
1
nX¯ konvergiert gegen eine vom CLT vorgegebene Norm, nicht gegen . 0
Kerl
7

Das, was sie sagten, ist wohl falsch, wenn es keinen anderen Grund gibt als die Verwendung von "das passiert immer ".

Ich weiß nicht, ob dies der Kern der Verwirrung ist, die Sie haben, aber ich werde es veröffentlichen, weil ich denke, dass viele dies tun und dies verwirren wird:

„ passiert , wenn groß genug ist , “Xn tut nicht Mittel „Wenn , dann “ .n>n0X

Es bedeutet vielmehr .limnPr(X)=1

Was sie wörtlich sagen, bedeutet Folgendes:

Für jede Stichprobengröße über einer Mindestgröße ist das Ergebnis eines Nicht-Null-Tests garantiert signifikant, wenn die wahre Effektgröße nicht genau Null ist.nn0

Was sie versuchen , obwohl zu sagen, ist die folgende:

Für jedes Signifikanzniveau nähert sich mit zunehmender Stichprobengröße die Wahrscheinlichkeit, dass ein Nicht-Null-Test ein signifikantes Ergebnis liefert, 1 an, wenn die wahre Effektgröße nicht genau Null ist.

Hier gibt es entscheidende Unterschiede:

  • Es gibt keine Garantie. Es ist nur wahrscheinlicher , dass Sie mit einer größeren Stichprobe ein signifikantes Ergebnis erzielen. Jetzt könnten sie hier einem Teil der Schuld ausweichen, denn bisher ist es nur eine terminologische Frage. In einem probabilistischen Zusammenhang es wird verstanden , dass die Aussage „wenn n groß genug ist , dann X“ kann auch so interpretiert werden , „X wird immer wahrscheinlicher , wahr zu sein als n wächst groß“ .
    Diese Interpretation geht jedoch aus meinem Fenster, sobald sie sagen, dass dies "immer" passiert. Die richtige Terminologie wäre hier gewesen, zu sagen, dass dies " mit hoher Wahrscheinlichkeit " geschieht 1 .

  • Dies ist zweitrangig, aber ihr Wortlaut ist verwirrend - es scheint so, als ob Sie die Stichprobengröße so festlegen, dass sie "groß genug" ist, und dann gilt die Aussage für jedes Signifikanzniveau. Doch unabhängig davon , was die genaue mathematische Aussage ist, die wirklich keinen Sinn machen: Sie immer zuerst das Signifikanzniveau beheben, und dann wählen Sie die Stichprobengröße groß genug zu sein.
    Aber der Vorschlag, dass es irgendwie umgekehrt sein kann, betont leider die Interpretation von "groß genug", so dass das obige Problem noch schlimmer wird.n>n0

Aber wenn Sie die Literatur verstehen, bekommen Sie, was sie zu sagen versuchen.

(Randbemerkung: Dies ist übrigens genau eines der ständigen Probleme, die viele Leute mit Wikipedia haben. Oft ist es nur möglich zu verstehen, was sie sagen, wenn Sie das Material bereits kennen, daher ist es nur als Referenz oder als Erinnerung gut , nicht als Selbstlernmaterial.)

1 Für die Mitpedanten (hi!) Hat der Begriff eine spezifischere Bedeutung als der, mit dem ich verbunden bin. Der lockerste Fachbegriff, den wir hier wahrscheinlich wollen, ist "asymptotisch fast sicher" . Sehen Sie hier .

Mehrdad
quelle
"Die Wahrscheinlichkeit, dass ein Nicht-Null-Test ein signifikantes Ergebnis liefert, nähert sich 0, wenn die wahre Effektgröße genau Null ist" ist möglicherweise nicht ganz richtig: Wenn der Test ein Signifikanzniveau ist die Wahrscheinlichkeit, ein signifikantes Ergebnis zu möglicherweise oder so ungefähr bei allen Stichprobengrößenαα
Henry
@ Henry: Oh, schieß, du hast recht! Ich habe es so schnell geschrieben, dass ich nicht aufgehört habe nachzudenken. Danke vielmals! Ich habe es behoben. :)
Mehrdad
3

Mein Lieblingsbeispiel ist die Anzahl der Finger nach Geschlecht. Die überwiegende Mehrheit der Menschen hat 10 Finger. Einige haben durch Unfälle die Finger verloren. Einige haben zusätzliche Finger.

Ich weiß nicht, ob Männer (im Durchschnitt) mehr Finger als Frauen haben. Alle leicht verfügbaren Beweise legen nahe, dass sowohl Männer als auch Frauen 10 Finger haben.

Ich bin jedoch sehr zuversichtlich, dass ich bei einer Volkszählung aller Männer und Frauen feststellen würde, dass ein Geschlecht (im Durchschnitt) mehr Finger hat als das andere.

Emory
quelle