tabellarischer Wert

7

Ich bemerkte, dass der kritische Wert mit zunehmenden Freiheitsgraden in einer Tabelle zunimmt . Warum ist das so? $\chi^2$ $\chi^2$

Geben Sie hier die Bildbeschreibung ein

hypothesis-testing statistical-significance chi-squared inference Cynderella
quelle

5

Folgendes sagt dasselbe:

Für einen gegebenen "Bereich rechts vom kritischen Wert", genannt (griechisch "alpha"), steigt der kritische Wert mit den Freiheitsgraden, genannt (griechisch "nu"). $\alpha$ $\nu$
Für einen gegebenen kritischen Wert nimmt mit . $c$ $\alpha$ $\nu$
Für jede gegebene Zahl steigt die Wahrscheinlichkeit, dass eine -Variable überschreitet, mit steigendem . $c$ $\chi^2(\nu)$ $W$ $c$ $\nu$

Dies hat eine ziemlich grafische Interpretation. Stellen Sie sich vor, Sie füllen fehlende Spalten für andere Bereiche wie oder . Jede einzelne Zeile - für jede würde eine Beziehung zwischen all diesen Werten von , wie in der oberen Kopfzeile geschrieben, und den Einträgen ausdrücken . Wir können diese Beziehung grafisch darstellen. Es ist üblich, auf die horizontale Achse und auf die vertikale zu setzen. So enthält beispielsweise die oberste Zeile (für ) die zehn Punkte $\alpha$ $\alpha=0.5$ $\alpha=0.000001$ $\nu$ $\alpha$ $c$ $c$ $\alpha$ $\nu=21$ $(8.033653, 0.995),$ $(8.897198, 0.99),$ $\ldots, (41.401065, 0.005)$ , wie durch die schwarzen Punkte im linken Diagramm gezeigt:

Zahlen

Natürlich muss die ausgefüllte Kurve von der höchstmöglichen Wahrscheinlichkeit von auf den niedrigstmöglichen Wert von abfallen , da es mit zunehmendem kritischen Wert immer weniger wahrscheinlich wird, dass sie überschreitet. $1$ $0$ $W$

Das Diagramm auf der rechten Seite zeigt alle Werte in der Tabelle, wobei die fehlenden Spalten mit Kurven gefüllt sind. Jede Kurve - eine vollständig ausgefüllte Zeile der Tabelle - fällt von links nach rechts ab. Ihre Formen ändern sich ein wenig und es dauert länger, bis sie nach rechts abfallen. Wenn Sie eine Reihe solcher Kurven haben, die sich verschieben und ihre Form ändern, kreuzen sich normalerweise zwei von ihnen irgendwo. Wenn Sie in diesem Fall jedoch eine Höhe und beobachten, was passiert, wenn zunimmt, werden die Punkte auf den Kurven gleichmäßig nach rechts verschoben: Dies bedeutet, dass die kritischen Werte zunehmen. Die am weitesten links stehenden (grünen) Diagramme müssen daher den kleineren Werten von $\alpha$ $\nu$ $\nu$ Nahe der Oberseite des Tisches und die Diagramme auf der rechten Seite verfolgen, was passiert, wenn wächst und wir uns durch den Tisch bewegen. Das Diagramm ganz rechts (grau) zeigt die Werte in der unteren Zeile der Tabelle. $\nu$

Kurz gesagt, diese komplementären kumulativen Verteilungsfunktionen überschneiden sich nie: zunimmt, verschieben sie sich nach rechts, ohne sich jemals zu kreuzen. $\nu$

Das ist was passiert. Aber warum ?

Denken Sie daran, dass eine -Verteilung die Summe der Quadrate von unabhängigen Standardnormalvariablen beschreibt. Überlegen Sie, was mit einer solchen Summe von Quadraten passiert $\chi^2(\nu)$ $\nu$

W = X_{1}^{2} + X_{2}^{2} + \dots + X_{ν}^{2}

$W = X_1^2 + X_2^2 + \cdots + X_\nu^2$

wenn ein weiteres Quadrat, , hinzugefügt wird. Legen Sie einen kritischen Wert und nehmen Sie an, dass eine Chance , überschreiten . Formal, $X_{\nu+1}^2$ $c$ $W$ $\alpha$ $c$

Pr (W > c) = α .

$\Pr(W \gt c) = \alpha.$

Dann, weil fast sicher positiv ist, $X_{\nu+1}^2$

Pr (W + X_{ν + 1}^{2} > c) = Pr (W > c) + \int_{0}^{c} Pr (X_{ν + 1}^{2} > ε) f_{ν} (c - ε) d ε .

$\Pr(W + X_{\nu+1}^2 \gt c) = \Pr(W \gt c) + \int_0^c \Pr(X_{\nu+1}^2 \gt \varepsilon) f_\nu(c-\varepsilon)d\varepsilon.$

Dieser Ausdruck zerlegt die Situation, in der in eine (unendliche) Sammlung sich gegenseitig ausschließender Möglichkeiten. Wahrscheinlichkeitsaxiome besagen, dass die Gesamtwahrscheinlichkeit, dass überschreitet , die Summe aller dieser getrennten Wahrscheinlichkeiten sein muss. Ich habe die Summe in zwei Teile geteilt: $W + X_{\nu+1}^2 \gt c$ $W + X_{\nu+1}^2$ $c$

Der erste Term auf der rechten Seite ist die Wahrscheinlichkeit, dass bereits überschreitet . In diesem Fall vergrößert das Hinzufügen von nur die Summe. $W$ $c$ $X_{\nu+1}^2$

Der zweite Term rechts (ein Integral) betrachtet alle Möglichkeiten, bei denen nicht überschreitet, aber groß genug ist, um größer als . Es verwendet „ “ , um die Wahrscheinlichkeit darstellt Dichtefunktion (PDF) von . Wenn , ist der zweite Term streng positiv (weil er als die Fläche unter einer Kurve positiver Höhen und positiver horizontaler Ausdehnung von bis interpretiert werden kann ). $W$ $c$ $X_{\nu+1}^2$ $W+X_{\nu+1}^2$ $c$ $f_\nu$ $W$ $c \gt 0$ $0$ $c$

Intuitiv bedeutet dies alles, dass das Hinzufügen einer weiteren quadratischen Normalvariablen zu nur die Wahrscheinlichkeit kann, dass die Summe der Quadrate überschreitet . $X_{\nu+1}^2$ $W$ $c$ Das ist Aussage (3), die dasselbe ist wie (1), wie in der Frage gestellt.

whuber
quelle

1

Erinnern wir uns, was ein Wert ist. Dies ist die Wahrscheinlichkeit, dass ein Wert so weit oder weiter von einem Referenz- / Nullwert entfernt ist wie Ihr beobachteter Wert, wenn die Nullhypothese wahr ist. In Ihrem Fall arbeiten Sie mit , daher ist es die Wahrscheinlichkeit, dass eine beobachtete -Teststatistik so weit oder weiter vom erwarteten Wert entfernt wird, wenn die Nullhypothese wahr ist. Darüber hinaus ist das im Wesentlichen immer ein einseitiger Test (siehe hier ), sodass wir nur an der Wahrscheinlichkeit interessiert sind, einen Wert zu finden, der weit rechts oder weiter rechts innerhalb der Nullverteilung liegt. $p$ $\chi^2$ $\chi^2$ $\chi^2$

Bei einem beobachteten Wert und den relevanten Freiheitsgraden können Sie den Wert direkt berechnen . Aber Sie möchten es nicht mit Stift und Papier versuchen. Heutzutage können Sie solche Werte mit einem Computer und einer Statistiksoftware (wie z. B. ) recht einfach erhalten , aber Tabellen wie die von Ihnen gezeigten waren damals sehr praktisch, als Computer noch nicht weit verbreitet waren. Die Idee war, dass Sie auf einen der oben aufgeführten Werte setzen können ( ist am häufigsten) und den kritischen Wert von entsprechend Ihren Freiheitsgraden nachschlagen können . Dann, wenn die $\chi^2$ $p$ $p$ R $\alpha$ $0.05$ $\chi^2$ $\chi^2$ Der Wert Ihrer Analyse war größer als dieser kritische Wert. Sie wussten, dass (obwohl Sie nicht wussten, wie viel weniger / wie hoch der tatsächliche Wert war). $p<\alpha$ $p$

Aus dem Obigen können wir ersehen, dass Ihre Frage lautet: "Warum brauchen wir einen zunehmend höheren beobachteten Wert, um mit zunehmenden Freiheitsgraden im oberen der Verteilung zu sein?" $\chi^2$ $\alpha\%$

Die Antwort ist, dass sich die Nullverteilung (genauer gesagt die zentrale) Verteilung ändert, wenn sich die Freiheitsgrade ändern. Sie können dies in @ Hameds hilfreichem Diagramm sehen : Das Quantil (beobachteter Wert), das die oberen, beispielsweise der Verteilung von den unteren trennt, wird größer. Betrachten Sie nur die Verteilungen mit df = 2 und df = 9: $\chi^2$ $\chi^2$ $5\%$ $95\%$

Geben Sie hier die Bildbeschreibung ein

gung - Monica wieder einsetzen
quelle

1

Die Handlung scheint einfach zu rekapitulieren, was das OP bereits beobachtet hat! Während Sie schreiben, ist die Frage nicht, was passiert, sondern warum . Sicher, einige Dinge ändern sich offensichtlich, wenn der DF variiert wird. Aber warum sollte dies dazu führen, dass alle Einträge in der Tabelle in jeder Spalte gleichmäßig zunehmen ? (Nicht alle tabellierten Verteilungen haben diese Eigenschaft.) Beachten Sie auch, dass die Tabelle so aufgebaut ist, dass sie sowohl zweiseitige Tests als auch Tests für beide Endpunkte unterstützt. Denkanstöße: Historisch gesehen hätte es genauso gut funktioniert, tabellieren - aber diese Werte würden nicht immer steigen.

χ_{ν}^{2} / ν

$\chi^2_\nu/\nu$

whuber

@whuber, es scheint mir, dass Sie fragen: "Warum ändert das Ändern des df die Verteilung?", während ich einfach die Tatsache bemerke, dass das Ändern des df die Verteilung ändert, und zeige, dass diese Tatsache der Grund ist, warum der kritische Wert ist hochgehen. Es ist möglich darüber zu sprechen, wie die Verteilung mit der Summe der quadratischen Standardnormalvariablen zusammenhängt, aber das können mehr / andere Informationen sein, als dieses OP benötigt. Alle aufgeführten kritischen Werte beziehen sich auch auf Bereiche> den Wert. Es ist möglich, diese zu verwenden, um zwei Endwerte zu erhalten, dies würde jedoch mehr Raffinesse erfordern.

χ^{2}

$\chi^2$

Gung - Reinstate Monica

1

Die Chi-Quadrat-Verteilung mit Freiheitsgraden ist die Summe der Quadrate von unabhängigen (0,1) -Normalverteilungen. Jeder Summand hat einen positiven Erwartungswert, so dass die Chi-Quadrat-Verteilung mit zunehmendem einen immer größeren Mittelwert hat . Darüber hinaus nimmt auch die Standardabweichung zu, und auch die kritischen Werte. $n$ $n$ $n$

Insbesondere für großes beträgt der Mittelwert der Chi-Quadrat-Verteilung ungefähr und die Standardabweichung ungefähr . $n$ $n$ $\sqrt{2n}$

user3697176
quelle

1

Dies ist die Grundlage einer guten Erklärung, aber sie ist logisch fehlerhaft. Der Mittelwert könnte möglicherweise ansteigen, während die Schwanzwahrscheinlichkeiten abnehmen. Selbst wenn sowohl der Mittelwert als auch die SD zunehmen, ist eine Abnahme einiger Schwanzwahrscheinlichkeiten möglich (und wird durch Chebyshevs Ungleichung nicht vollständig ausgeschlossen). Daher wird ein subtileres Argument benötigt.

whuber

@whuber. Vielen Dank. Ich wollte es einfach halten, da das OP nicht über zu viele statistische Kenntnisse zu verfügen schien. "Zusätzlich" war als Tatsachenfeststellung gedacht, nicht als Implikation des Verhaltens des Mittelwerts. Ich habe meine Antwort bearbeitet, um Ihre Kommentare zu berücksichtigen. Fühlen Sie sich frei, weiter zu bearbeiten.

user3697176

0

Ich denke, der beste Weg, dies zu verstehen, besteht darin, das Dichtediagramm für verschiedene Freiheitsgrade zu betrachten.

Wenn Sie den folgenden R-Code ausführen,

x = seq(0, 25, length.out=100)
plot(x, dchisq(x=x, df=2), type='l', col=2, ylab='density')
for(i in 3:9){
  y = dchisq(x=x, df=i)
  lines(x, y, col=i)  
}
legend('topright', legend=paste('df = ', 2:9), col=2:9, fill=2:9)

Sie werden diese schöne Handlung bekommen:

Geben Sie hier die Bildbeschreibung ein

Es ist klar, dass mit zunehmendem Freiheitsgrad die Schwänze der Verteilung immer dicker werden. Das zeigt, dass in einem größeren Wert von . $P(X<x)=a$ $x$

TPArrow
quelle

1

Obwohl dieses spezielle Bild mit der Tabelle übereinstimmt, ist es weder eine Erklärung noch ein Beweis.

whuber

2

Ich denke, die Handlung ist sehr hilfreich, aber @whuber ist richtig. Vielleicht könnten Sie den Zusammenhang zwischen dieser Handlung und der Antwort auf die Frage explizit machen? (Sie haben vielleicht gedacht, dass es so offensichtlich war, dass es nicht nötig war, es zu erwähnen.)

gung - Reinstate Monica

Dank der theoretischen Lösung kann das Verhältnis von zwei CDF ermittelt werden. Ich werde das bald tun. Für ein einfaches Beispiel können wir den Median für die Erhöhung der Werte von df erklären.

TPArrow

1

Beachten Sie, dass das Verhalten des Medians wenig Einfluss auf die Frage nach den oberen Perzentilen hat. Sie werden auch feststellen, dass das Arbeiten mit dem Verhältnis der CDFs schwierig ist: Sie sind normalisierte unvollständige Gammafunktionen und ihre Ableitungen (in Bezug auf den DF-Parameter) haben dunkle Ausdrücke, mit denen die meisten Menschen nur schwer arbeiten können.

whuber

tabellarischer Wert

Antworten: