Was sind die Freiheitsgrade einer Verteilung?

10

Ich habe es gerade mit vielen Distributionen zu tun, z. B. , , .t χ 2Ftχ2

Ich habe mich gefragt, warum diese Freiheitsgrade für Verteilungen wie die -Verteilung bedeuten .F(m,n)

Le Max
quelle
3
Weitere Informationen finden Sie unter stats.stackexchange.com/questions/16921/… . Die Antwort, die Ihre Frage am direktesten beantwortet, lautet stats.stackexchange.com/a/16931 ; Die anderen Antworten bieten verschiedene Verfeinerungen und zusätzliche Möglichkeiten, Freiheitsgrade zu verstehen. An anderer Stelle im Web ist der beste Account, den ich von dieser Distributionsfamilie finden kann, unter rip94550.wordpress.com/2012/07/30/… . Bessere Erklärungen erscheinen in Texten; Mein Favorit ist JC Kiefer, Intro. zu Stat. Inference , S. 265 ff.
whuber
@maximus whuber gibt in seinem zweiten Link eine sehr detaillierte Antwort. Es ist sehr interessant, weil es über alle Missverständnisse und schlechten Definitionen spricht, die aus dem Wikipedia-Artikel stammen, der in diesem Beitrag zitiert wird.
Michael R. Chernick

Antworten:

11

Hier ist eine weniger technische Antwort, die vielleicht für Leute mit bescheidener mathematischer Vorbereitung zugänglicher ist.

Der Begriff Freiheitsgrade (df) wird in Verbindung mit verschiedenen Teststatistiken verwendet, seine Bedeutung variiert jedoch von einem statistischen Test zum nächsten. Einige Tests haben keine mit der Teststatistik verbundenen Freiheitsgrade (z. B. Fisher's Exact Test oder z-Test). Wenn wir einen Az-Test durchführen, kann der Z-Wert, den wir basierend auf unseren Daten berechnen, basierend auf einer einzelnen Tabelle kritischer Z-Werte interpretiert werden, unabhängig davon, wie groß oder klein unsere Stichprobe (n) sind. Eine andere Möglichkeit, dies zu sagen, besteht darin, dass es eine z-Verteilung gibt. Dies gilt nicht für einige andere Tests (z. B. F oder t oder χ2).

Der Grund, warum viele Teststatistiken im Lichte von df interpretiert werden müssen, ist, dass die (theoretische) Verteilung der Werte der Teststatistik unter der Annahme, dass die Nullhypothese wahr ist, von der Stichprobengröße oder der Anzahl der Gruppen oder von beiden oder einer anderen Tatsache abhängt über die gesammelten Daten. Bei einem t-Test hängt die Verteilung der t-Werte von der Stichprobengröße ab. Wenn wir also den t-Wert bewerten, den wir aus den beobachteten Daten berechnen, müssen wir ihn mit den erwarteten t-Werten vergleichen, die auf derselben Stichprobengröße wie unsere Daten basieren. In ähnlicher Weise hängt die Verteilung der Werte von F in einer Varianzanalyse (unter der Annahme, dass die Nullhypothese wahr ist) sowohl von der Stichprobengröße als auch von der Anzahl der Gruppen ab. Um den F-Wert zu interpretieren, den wir aus unseren Daten berechnen, müssen wir Tabellen mit F-Werten verwenden, die auf der gleichen Stichprobengröße und der gleichen Anzahl von Gruppen basieren, die wir in unseren Daten haben. Anders ausgedrückt erfordern F-Tests (dh ANOVAs) und t-Tests sowie χ2-Tests jeweils eine Kurvenfamilie, um den t- oder F- oder χ2-Wert interpretieren zu können, den wir basierend auf unseren Daten berechnen. Wir wählen aus diesen Kurvenfamilien basierend auf Werten (dh df's) aus, damit die Wahrscheinlichkeiten, die wir aus den Tabellen lesen, für unsere Daten geeignet sind. (Natürlich tun dies die meisten Computerprogramme für uns.)

Joel W.
quelle
3
+1 Wirklich wunderbare Arbeit, um in das praktische Herz der Sache zu sehen und es klar zu erklären.
whuber
0

Die F-Verteilung ist das Verhältnis zweier zentraler Chi-Quadrat-Verteilungen. Das m ist der Freiheitsgrad, der der Chi-Quadrat-Zufallsvariablen zugeordnet ist, die den Zähler darstellt, und das n ist der Freiheitsgrad des Chi-Quadrat für den Nenner. Um die Antwort auf Ihre Frage zu vervollständigen, muss ich die Chi-Quadrat-Freiheitsgrade erklären. Eine Chi-Quadrat-Verteilung mit n Freiheitsgraden kann als Summe der Quadrate von n unabhängigen N (0,1) Zufallsvariablen dargestellt werden. Die Freiheitsgrade können also als die Anzahl der normalen Zufallsvariablen betrachtet werden, die in der Summe erscheinen.

Dies ändert sich nun, wenn diese Normalen geschätzte Parameter enthalten. Nehmen wir zum Beispiel an, wir haben n unabhängige N (m, 1) Zufallsvariablen X i = 1,2, ..., n. Dann sei X der Stichprobenmittelwert = ∑X / n. b iibi

Berechnen Sie nun S = ∑ (X -X ) . Dieses S hat eine Chi-Quadrat-Verteilung, jedoch mit n-1 Freiheitsgraden. In diesem Fall summieren wir immer noch n quadratische N (0,1) Zufallsvariablen. Der Unterschied besteht jedoch darin, dass sie nicht unabhängig sind, da jeder mit demselben X . Für das Chi-Quadrat wird oft gesagt, dass die Freiheitsgrade gleich der Anzahl der Terme in der Summe minus der Anzahl der geschätzten Parameter sind.i b 2 2 b2ib22b

Im Fall der t-Verteilung haben wir ein N (0, σ ) geteilt durch V, wobei V die Stichprobenschätzung von σ ist. V ist proportional zu einem Chi-Quadrat mit n-1 Freiheitsgraden, wobei n die Stichprobengröße ist. Die Freiheitsgrade für das t sind die Freiheitsgrade für die Chi-Quadrat-Zufallsvariable, die an der Berechnung von V beteiligt ist.2

Michael R. Chernick
quelle