Ich habe einige Zweifel daran, wie Freiheitsgrade in Verteilungen berücksichtigt werden.
Insbesondere beziehen wir uns auf die Variable Student
Wo eine Gaußsche Variable ist, ist der Mittelwert, ist , die Standardabweichung von den Daten.
Die Schülerwahrscheinlichkeitsdichtefunktion ist
Und in meinem Lehrbuch finde ich "weil in der aus Daten berechnete Mittelwert erscheint, der den Verlust eines Freiheitsgrades impliziert".
Frage: Sollte es nicht ? In ich sowohl als auch so dass zwei Parameter aus Daten bestimmt werden.
Andererseits erscheint in der zweiten Form, die ich in , nicht, so dass möglicherweise nur als Einschränkung für Daten betrachtet werden sollte. Das macht aber nicht viel Sinn.
In diesen Fällen, in denen sowohl der Mittelwert als auch die Standardabweichung aus den Daten bestimmt werden, gehen dann die Freiheitsgrade 2 oder nur 1 verloren?
Dies ist eine Art allgemeinerer Zweifel: Wenn mehr als ein Parameter aus Daten bestimmt wird, diese Parameter jedoch in gewisser Weise zusammenhängen (wie bei und ), wie viele Freiheitsgrade gehen verloren, wenn alle diese Parameter berücksichtigt werden?
ich bestimme Parameter aus demselben Datensatz. Alle Parameter können als Funktionen von Daten und ausgedrückt werden . Jetzt betrachte ich alle Parameter zusammen: Wie viele Freiheitsgrade habe ich verloren? oder nur ?
Antworten:
Die T-Verteilung ist definiert als die Verteilung des Verhältnisses einer normalen Standard-Zufallsvariablen und einer unabhängigen skalierten Chi-Zufallsvariablen. Sein Freiheitsgradparameter entspricht dem Freiheitsgradparameter für die Chi-Zufallsvariable in ihrem Nenner . Mit dem DF-Parameter müssen also die Freiheitsgrade des von Ihnen verwendeten Varianzschätzers bestimmt werden.
Denken Sie daran: Die T-Verteilung entsteht nur, wenn Sie das Verhältnis einer normalen Zufallsvariablen und eines Nenners nehmen, der eine Art Standardabweichungsschätzer ist (Quadratwurzel eines Varianzschätzers). Dies setzt voraus, dass das Bild bereits einen Varianzschätzer enthält. Der Verlust von Freiheitsgraden ergibt sich dann aus der mittleren Schätzung (oder im Kontext der Regression aus Schätzungen mehrerer Koeffizienten).
Es ist möglich, Mengen zu bilden, die der von Ihnen gezeigten ähnlich sind, und ihre Verteilungen zu finden. Angenommen, wir haben und bilden einen standardisierten Wert. Wenn wir annehmen, dass ist, aber unbekannt ist, würden wir standardisieren, indem wir die T-Statistik definieren:X1,...,Xn∼IID N(μ,σ2) μ σ
wobei der Stichprobenvarianzschätzer mit bekanntem . Die Größe ist eine skalierte Chi-Zufallsvariable mit Freiheitsgraden, daher hat die Statistik eine T-Verteilung mit Freiheitsgraden. Dies ist ein Basisfall, in dem keine Freiheitsgrade verloren gegangen sind, obwohl wir die Varianz geschätzt haben.S2μ≡1n∑ni=1(Xi−μ)2 μ Sμ/σ n Tμ n
In dem Fall, in dem ebenfalls unbekannt ist, würden wir den bekannten Mittelwert im Varianzschätzer durch den Stichprobenmittelwert ersetzen, den wir haben:μ μ x¯
wobei der Stichprobenvarianzschätzer mit unbekanntem . Die Größe ist eine skalierte Chi-Zufallsvariable mit Freiheitsgraden, daher hat die Statistik eine T-Verteilung mit Freiheitsgraden. Wir haben einen Freiheitsgrad verloren, weil wir den Mittelwert innerhalb des Varianzschätzers geschätzt haben .S2≡1n−1∑ni=1(Xi−x¯)2 μ S/σ n−1 T n−1
Hoffentlich hilft Ihnen dies beim Verständnis dieses Problems. Das Konzept der Freiheitsgrade im Kontext der Diskussion über die T-Verteilung setzt voraus, dass bereits ein Varianzschätzer für die Studentisierung verwendet wird. Das Schätzen des mittleren Parameters (oder der Koeffizientenparameter in einer Regression) ändert diesen Varianzschätzer, indem er weniger variabel gemacht wird, und dies führt zu einem Verlust an Freiheitsgraden.
quelle
Betrachten wir ein Beispiel, um Freiheitsgrade zu verstehen:
Stellen Sie sich vor, wir haben 5 Beobachtungen . Wenn ich Ihnen den Mittelwert dieses Datensatzes ( ), aber nicht die Werte der Beobachtungen selbst sage , können Sie vier Werte bilden, ohne den Mittelwert zu ändern. Wenn Sie als Ihre ersten vier Beobachtungen auswählen, muss die letzte zu wählende Zahl wenn der Mittelwert auf . Wenn wir uns nur um den Mittelwert kümmern, dann haben wir eine Gleichung und eine unbekannte.(1,2,1,3,5) 2.4 (3,4,3,5) −3 2.4
Wenn Sie Beobachtungen mit einem festen Mittelwert haben, haben Sie die Freiheit, beliebige Zahlen auszuwählen, ohne den Mittelwert zu ändern - aber die Beobachtung wird bestimmt. Beachten Sie jedoch, dass ich den Wert von im obigen Absatz willkürlich gewählt habe, damit ich etwas anderes hätte wählen können. Daher habe ich Freiheitsgrade von den Daten und Freiheitsgrad, weil ich den Mittelwert ausgewählt habe, also habe ich Freiheitsgrade, wenn ich 1 Parameter schätze.n n−1 nth 2.4 n−1 1 n
Angenommen, ich sage Ihnen den Mittelwert und die Standardabweichung: Für dieselbe Stichprobe von beträgt der Mittelwert und die Standardabweichung . Jetzt kann ich drei der fünf Zahlen auswählen und die letzten beiden werden bestimmt (zwei Gleichungen, zwei Unbekannte). Die Parameter unterscheiden sich jedoch geringfügig, da die Standardabweichung der Stichprobe eine Funktion des Stichprobenmittelwerts ist - sie sind nicht unabhängig voneinander. Dies bedeutet, dass ich Freiheitsgrade von den Daten habe, aber immer noch nur Freiheitsgrad von den Parametern, für insgesamt Freiheitsgrade.(1,2,1,3,5) 2.4 1.673 n−2 1 n−1
Weitere Informationen finden Sie in dieser Stapelaustauschfrage .
quelle