Warum wird das Chi-Quadrat verwendet, wenn ein Konfidenzintervall für die Varianz erstellt wird?

15

Dies ist eine sehr grundlegende Frage. Warum verwenden wir eine Chi-Quadrat-Verteilung? Was bedeutet diese Verteilung? Warum wird mit dieser Verteilung ein Konfidenzintervall für die Varianz erstellt?

An jedem Ort, an dem ich nach einer Erklärung suche, wird dies nur als eine Tatsache dargestellt, in der erklärt wird, wann Chi verwendet wird, aber nicht, warum Chi verwendet wird und warum es so aussieht, wie es aussieht.

Vielen Dank an alle, die mich in die richtige Richtung lenken können und das ist - wirklich zu verstehen, warum ich Chi verwende, wenn ich ein Konfidenzintervall für die Varianz erstelle.

nafrtiti
quelle
4
Sie verwenden es, weil - wenn die Daten normal sind - Q=(n1)s2σ2χn12 . (Dies machtQeiner zentralen Größe)
Glen_b
2
Siehe auch stats.stackexchange.com/questions/15711/… und seine Links.
Nick Cox
1
Für diejenigen, die sich für die Anwendung von oder die weitere Erforschung von interessieren χ2, sollten Sie auf die Unterscheidung zwischen einer χ2 ("Chi-Quadrat") - und einer χ ("Chi") - Verteilung achten (es ist die Quadratwurzel von a χ2 , nicht überraschend).
Whuber

Antworten:

23

Schnelle Antwort

Der Grund ist , weil unter der Annahme , die Daten sind IId und , und Definieren ˉ XXiN(μ,σ2) Bei der Bildung von Konfidenzintervallen ist die mit der Stichprobenvarianz verbundene Stichprobenverteilung (S2, denken Sie daran, eine Zufallsvariable!) Eine Chi-Quadrat-Verteilung (S2(N-1)/σ2χ2

X¯=NXiNS2=N(X¯Xi)2N1
S2 ), ebenso wie die dem Stichprobenmittelwert zugeordnete Stichprobenverteilung eine Standardnormalverteilung ist (( ˉ X -μ)S2(N1)/σ2χn12), wenn Sie die Varianz kennen, und mit einem t-Schüler, wenn Sie keine Varianz kennen (( ˉ X -μ)(X¯μ)n/σZ(0,1) ).(X¯μ)n/STn1

Lange Antwort

Zunächst werden wir beweisen, dass einer Chi-Quadrat-Verteilung mit N - 1 Freiheitsgradenfolgt. Danach werden wir sehen, wie dieser Beweis nützlich ist, um die Konfidenzintervalle für die Varianz abzuleiten, und wie die Chi-Quadrat-Verteilung erscheint (und warum es so nützlich ist!). Lass uns anfangen.S2(N1)/σ2N1

Der Beweis

Vielleicht müssen Sie sich dafür an die Chi-Quadrat-Verteilung in diesem Wikipedia-Artikel gewöhnen . Diese Verteilung hat nur einen Parameter: die Freiheitsgrade und zufällig eine Momenterzeugungsfunktion (MGF), die gegeben ist durch: m χ 2 ν ( t ) = ( 1 - 2 t ) - ν / 2 . Wenn wir zeigen können, dass die Verteilung vonν

mχν2(t)=(12t)ν/2.
eine momenterzeugende Funktion wie diese hat, jedoch mit ν =S2(N1)/σ2 , dann haben wir gezeigt, dass S 2 ( N - 1 ) / σ 2 einer Chi-Quadrat-Verteilung mit N - 1 Freiheitsgradenfolgt. Um dies zu zeigen, beachten Sie zwei Fakten:ν=N1S2(N1)/σ2N1
  1. Wenn wir definieren, ist wobeiZiN(0,

    Y=(XiX¯)2σ2=Zi2,
    , dh normale Standardzufallsvariablen, die momenterzeugende Funktion von Y ist gegeben durch m Y ( t )ZiN(0,1)Y Die MGF vonZ2ist gegeben durch m Z 2 ( t )
    mY(t)=E[etY]=E[etZ12]×E[etZ22]×...E[etZN2]=mZi2(t)×mZ22(t)×...mZN2(t).
    Z2 wo ich die PDF des Standardnormal, verwendet habef(z)
    mZ2(t)=f(z)exp(tz2)dz=(12t)1/2,
    und damit mY(t)=(1-2t) - N /f(z)=ez2/2/2π wasimpliziert, dass Y einer Chi-Quadrat-Verteilung mit N Freiheitsgradenfolgt.
    mY(t)=(12t)N/2,
    Y.N
  2. Sind und Y 2 unabhängig und verteilen sich jeweils als Chi-Quadrat-Verteilung, jedoch mit ν 1 und ν 2 Freiheitsgraden, so ist W = Y 1 + Y 2Y.1Y.2ν1ν2W=Y1+Y2ν1+ν2W

N1

(N1)S2=n(X¯μ)+(Xiμ)2,
σ2
(N1)S2σ2+(X¯μ)2σ2/N=(Xiμ)2σ2.
NS2(N1)/σ2N1

Berechnung des Konfidenzintervalls für die Varianz.

L1L2

P(L1σ2L2)=1α.
S2(N1)
L1S2(N1)σ2S2(N1)L2S2(N1).
S2(N1)/σ2N1
L1S2(N1)σ2S2(N1)S2(N1)σ2S2(N1)L1,σ2S2(N1)L2S2(N1)S2(N1)L2S2(N1)σ2,
P(S2(N1)L2S2(N1)σ2S2(N1)L1)=1α.
S2(N1)/σ2χ2(N1)
S2(N1)L2N1pχ2(x)dx=(1α)/2   ,N1S2(N1)L1pχ2(x)dx=(1α)/2  
N1N1N1
0S2(N1)L2pχ2(x)dx=α/2,S2(N1)L1pχ2(x)dx=α/2.
χα/22=S2(N1)L2χ1α/22=S2(N1)L1χα/22χ1α/22L1L2
L1=S2(N1)χ1α/22,L2=S2(N1)χα/22.
C.I.=(S2(N1)χ1α/22,S2(N1)χα/22).
Néstor
quelle
1
Einfach weil S2S2(N1)/σ2S2(N1)/σ2N1
4
Es wäre hilfreich, diese Antwort dahingehend zu ändern, dass die sehr starke, aber nicht angegebene Annahme berücksichtigt wird, dass die Stichprobenvarianz einer Chi-Quadrat-Verteilung folgt, wenn die zugrunde liegenden Daten unabhängig sind und einer Normalverteilung folgen. Anders als bei der Theorie der Verteilung des Stichprobenmittelwerts, bei der die Stichprobenverteilung in der Praxis in vielen Situationen annähernd normal bis hinreichend genau ist , tritt dasselbe asymptotische Verhalten bei der Stichprobenvarianz nicht auf (bis die Stichprobengröße extrem groß wird).
Whuber
1
Hoppla. Also, so wahr! Dies kam tatsächlich von einer Problemlösung, die ich einigen Studenten austeilte, wo ich all diese Annahmen auf die Frage stelle. Ich habe die Antwort jetzt bearbeitet.
Néstor
1
S2
1
Nicht f(z)=e-z2/2f(z)=e-z2