Wie werden F- und p-Werte in ANOVA interpretiert?

40

Ich bin neu in der Statistik und beschäftige mich derzeit mit ANOVA. Ich führe einen ANOVA-Test in R mit

aov(dependendVar ~ IndependendVar)

Ich bekomme unter anderem einen F-Wert und einen p-Wert.

Meine Nullhypothese ( ) lautet, dass alle Gruppenmittelwerte gleich sind.H0

Es gibt viele Informationen darüber, wie F berechnet wird , aber ich weiß nicht, wie man eine F-Statistik liest und wie F und p verbunden sind.

Meine Fragen lauten also:

  1. Wie bestimme ich den kritischen F-Wert für die Zurückweisung von ?H0
  2. Hat jedes F einen entsprechenden p-Wert, so dass beide im Grunde dasselbe bedeuten? (zB wenn , dann wird verworfen)H 0p<0.05H0
JanD
quelle
1
Hast du die Befehle ausprobiert summary(aov(dependendVar ~ IndependendVar)))oder summary(lm(dependendVar ~ IndependendVar))? Meinen Sie damit, dass alle Gruppenmittel gleich und gleich 0 sind oder nur einander?
RyanB
ja, ich habe das ausprobiert summary(aov...). Danke für die lm.*, wusste nicht Bescheid :-) Ich verstehe nicht, was du mit gleich 0 meinst. Wenn das für meine 0-Hypothese kurz ist, dann würde die Hypothese einen Wert benötigen, und ich habe nicht auf eine bestimmte getestet, also in diesem fall: einfach zueinander!
27.
1
Eine intuitive Erklärung finden Sie im Yhat- Blog zum Thema Regression.
DataTx

Antworten:

14

Um Ihre Fragen zu beantworten:

  1. Sie finden den kritischen F-Wert aus einer F-Verteilung (hier eine Tabelle ). Siehe ein Beispiel . Sie müssen vorsichtig sein, wenn es um Einweg- oder Zweiweg-Freiheitsgrade für Zähler und Nenner geht.

  2. Ja.

dfrankow
quelle
Es ist nicht sinnvoll, in einem Omnibus-Test wie dem F-Test über Ein- oder Zwei-Wege-Vergleiche zu sprechen.
Marcus Morrisey
3
Marcus Morrisey: Ich denke, Sie verwechseln eins gegen zwei Schwänze mit eins gegen zwei. Der F-Test verfügt nicht über mehrere "Schwänze" zur Auswahl, aber bei der Erstellung der Teststatistik müssen Einweg-ANOVA und Zweiweg-ANOVA berücksichtigt werden.
Emiller
29

Die F-Statistik ist ein Verhältnis von 2 verschiedenen Varianzmaßen für die Daten. Wenn die Nullhypothese wahr ist, dann sind dies beide Schätzungen der gleichen Sache und das Verhältnis wird bei ungefähr 1 liegen.

Der Zähler wird berechnet, indem die Varianz der Mittelwerte gemessen wird. Wenn die wahren Mittelwerte der Gruppen identisch sind, ist dies eine Funktion der Gesamtvarianz der Daten. Wenn jedoch die Nullhypothese falsch ist und die Mittelwerte nicht alle gleich sind, ist dieses Maß für die Varianz größer.

Der Nenner ist ein Durchschnitt der Stichprobenvarianzen für jede Gruppe, der eine Schätzung der Gesamtpopulationsvarianz darstellt (unter der Annahme, dass alle Gruppen gleiche Varianzen aufweisen).

Wenn also die Null aller Mittel gleich wahr ist, sind die 2 Maße (mit einigen zusätzlichen Begriffen für Freiheitsgrade) ähnlich und das Verhältnis liegt nahe bei 1. Wenn die Null falsch ist, ist der Zähler relativ zu groß Der Nenner und das Verhältnis sind größer als 1. Wenn Sie dieses Verhältnis in der F-Tabelle nachschlagen (oder es mit einer Funktion wie pf in R berechnen), erhalten Sie den p-Wert.

Wenn Sie lieber einen Zurückweisungsbereich als einen p-Wert verwenden möchten, können Sie die F-Tabelle oder die qf-Funktion in R (oder einer anderen Software) verwenden. Die F-Verteilung hat zwei Arten von Freiheitsgraden. Die Zählerfreiheitsgrade basieren auf der Anzahl der Gruppen, die Sie vergleichen (bei 1-Weg ist dies die Anzahl der Gruppen minus 1), und die Nennerfreiheitsgrade basieren auf der Anzahl der Beobachtungen innerhalb der Gruppen (bei 1-Weg). wie es ist die Anzahl der Beobachtungen abzüglich der Anzahl der Gruppen). Bei komplizierteren Modellen werden die Freiheitsgrade komplizierter, folgen jedoch ähnlichen Vorstellungen.

Greg Snow
quelle
Danke für die Erklärung! Ich gehe davon aus, dass, wenn ich den F-Wert in einer Tabelle nachschlagen kann, um den p-Wert zu sehen, p und F nur zwei Möglichkeiten sind, um die Wahrscheinlichkeit auszudrücken, dass ein Ergebnis wie das analysierte auftreten kann, wenn der H0 stimmt?
27.
2
In allen parametrischen Statistiken besteht eine direkte funktionale Verbindung zwischen der Teststatistik (in diesem Fall F) und dem p-Wert. Diese wurden der Einfachheit halber in die Tabelle aufgenommen, können aber auch direkt berechnet werden. Sie können entweder Alpha verwenden, um den Grenzwert für einen kritischen Bereich zu ermitteln, mit dem die Teststatistik verglichen werden soll (was meiner Meinung nach intuitiver ist), oder die berechnete Teststatistik verwenden, um den mit Alpha zu vergleichenden p-Wert zu ermitteln. In beiden Fällen beginnen wir mit einem Alpha-Level und einer Teststatistikformel, die einer gegebenen Verteilung folgt, wenn die Null wahr ist.
Greg Snow
20

Fp

Bildbeschreibung hier eingeben

FFFpFFpFp

Sie sollten ein paar andere Dinge über die Verteilung unter Nullhypothese beachten:

F

F

CCFCpp=0,175

FFdf1=3df1=2

Bildbeschreibung hier eingeben

Fχ2χ2Fχ2zFtt

Das ist viel mehr, als ich eigentlich schreiben wollte, aber ich hoffe, das deckt Ihre Fragen ab!

(Wenn Sie sich fragen, woher die Diagramme stammen, wurden sie von meinem Desktop-Statistikpaket Wizard automatisch generiert .)

Emiller
quelle