Warum sollte der Nenner des Kovarianzschätzers nicht n-2 statt n-1 sein?

36

Der Nenner des (unverzerrten) Varianzschätzers ist n1 da n Beobachtungen vorliegen und nur ein Parameter geschätzt wird.

V(X)=i=1n(XiX¯)2n1

Aus dem gleichen Grund frage ich mich, warum der Nenner der Kovarianz nicht n2 wenn zwei Parameter geschätzt werden.

Cov(X,Y)=i=1n(XiX¯)(YiY¯)n1
MYaseen208
quelle
15
Wenn Sie das tun würden, würden Sie zwei widersprüchliche Definitionen für die Varianz haben: Eine wäre die erste Formel und die andere wäre die zweite Formel, die mit angewendet wird Y=X.
whuber
3
Ein bi / multivariater Mittelwert (Erwartung) ist ein Parameter, nicht zwei.
TTNPHNS
14
@ttnphns Das stimmt nicht: Der bivariate Mittelwert besteht offensichtlich aus zwei Parametern, da zwei reelle Zahlen erforderlich sind, um ihn auszudrücken. ( In der Tat ist es ein einzelner Vektor Parameter, aber sagen , so verschleiert nur die Tatsache , dass es aus zwei Komponenten.) Dies zeigt sich deutlich in den Freiheitsgraden für gepoolte Varianz t-Tests, zum Beispiel, wo subtrahiert wird, nicht 1 . Interessant an dieser Frage ist, wie vage, unberechenbar und möglicherweise irreführend die allgemeine "Erklärung" ist, dass wir 1 von n subtrahieren, weil ein Parameter geschätzt wurde. 211n
whuber
@whuber, da hast du recht. Wenn es nur auf (unabhängige Beobachtungen) ankommt, würden wir in multivariaten Tests nicht mehr df ausgeben als in univariaten. n
TTNPHNS
3
@whuber: Ich würde vielleicht sagen, dass es zeigt, dass was als "Parameter" zählt, von der Situation abhängt. In diesem Fall wird die Varianz über Beobachtungenn berechnet, und so kann jede Beobachtung - oder der Gesamtmittelwert - als ein Parameter angesehen werden, auch wenn es sich um einen multivariaten Mittelwert handelt, wie ttnphns sagte. In anderen Fällen wird jedoch, wenn beispielsweise ein Test lineare Kombinationen von Dimensionen berücksichtigt, jede Dimension jeder Beobachtung "ein Parameter". Sie haben Recht, dass dies ein heikles Thema ist.
Amöbe sagt Reinstate Monica

Antworten:

31

Kovarianzen sind Varianzen.

Da durch die Polarisationsidentität

Cov(X,Y)=Var(X+Y2)Var(XY2),

Die Nenner müssen gleich sein.

whuber
quelle
20

Ein spezieller Fall sollte Ihnen eine Intuition geben; Denken Sie an Folgendes:

Cov^(X,X)=V^(X)

Sie sind froh, dass letztere ist Bessel-Korrektur.i=1n(XiX¯)2n1

Aber wenn Sie durch in für das erstere ersetzen, erhalten Sie , was könnte Ihrer Meinung nach am besten ausfüllen?YXCov^(X,Y)i=1n(XiX¯)(XiX¯)mystery denominator

Silberfisch
quelle
1
OKAY. Aber das OP könnte fragen: "Warum sollte man cov (X, X) und cov (X, Y) als eine logische Linie betrachten? Warum ersetzen Sie Y durch X in cov () flippig? Vielleicht cov (X, Y) ist eine andere Situation? " Du hast das nicht abgewendet, obwohl die (hoch gelobte) Antwort in meinem Eindruck hätte sein sollen :-)
ttnphns
7

Eine schnelle und schmutzige Antwort ... Betrachten wir zuerst ; Wenn Sie Beobachtungen mit bekanntem Erwartungswert , würden Sie , um die Varianz zu schätzen.var(X)n E(X)=01ni=1nXi2

Da der erwartete Wert unbekannt ist, können Sie Ihre Beobachtungen in Beobachtungen mit bekanntem erwarteten Wert umwandeln, indem Sie für . Sie erhalten eine Formel mit einem im Nenner - die sind jedoch nicht unabhängig und müssen dies berücksichtigen; Am Ende findest du die übliche Formel.nn1Ai=XiX1i=2,,nn1Ai

Jetzt für die Kovarianz können Sie die gleiche Idee verwenden: Wenn der Erwartungswert von ist , würden Sie haben einen in der Formel. Wenn Sie von allen anderen beobachteten Werten subtrahieren , erhalten Sie Beobachtungen mit bekanntem Erwartungswert ... und einem in der Formel Konto.(X,Y)(0,0)1n(X1,Y1)n11n1

PS Die saubere Art und Weise zu tun , ist eine orthonormale Basis wählen , das heißt Vektoren so dass(1,,1)n1c1,,cn1Rn

  • jcij2=1 für alle ,i
  • jcij=0 für alle ,i
  • jci1jci2j=0 für alle .i1i2

Sie können dann Variablen definieren: und . Die sind unabhängig, haben einen erwarteten Wert und haben die gleiche Varianz / Kovarianz wie die ursprünglichen Variablen.n1Ai=jcijXjBi=jcijYj(Ai,Bi)(0,0)

Der springende Punkt ist, dass, wenn Sie die unbekannte Erwartung loswerden möchten, Sie eine (und nur eine) Beobachtung fallen lassen. Dies funktioniert in beiden Fällen gleich.

Elvis
quelle
6

Hier ist ein Beweis, dass der p-variable Stichproben-Kovarianzschätzer mit dem Nenner ein unverzerrter Schätzer der Kovarianzmatrix ist:1n1

x=(x1,...,xp) .

Σ=E((xμ)(xμ))

S=1n(xix¯)(xix¯)

So zeigen Sie:E(S)=n1nΣ

Beweis:S=1nxixix¯x¯

Nächster:

(1)E(xixi)=Σ+μμ

(2)E(x¯x¯)=1nΣ+μμ

Deshalb:E(S)=Σ+μμ(1nΣ+μμ)=n1nΣ

Und so ist mit dem letzten Nenner unvoreingenommen. Die nicht diagonalen Elemente von sind Ihre individuellen Beispielkovarianzen.Su=nn1S1n1Su

Zusätzliche Bemerkungen:

  1. Die n Ziehungen sind unabhängig. Dies wird in (2) verwendet, um die Kovarianz des Stichprobenmittelwerts zu berechnen.

  2. Schritt (1) und (2) verwenden die Tatsache, dassCov(x)=E[xx]μμ

  3. Schritt (2) verwendet die Tatsache, dassCov(x¯)=1nΣ

Statchrist
quelle
Die Schwierigkeit, in Schritt 2 zu sein! :)
Elvis
@ Elvis Es ist chaotisch. Man muss die Regel Cov (X + Y, Z) = Cov (X, Z) + Cov (Y, Z) anwenden und erkennen, dass die verschiedenen Ziehungen unabhängig sind. Dann wird die Kovarianz n-mal summiert und um 1 / n²
verkleinert
4

Ich vermute, eine Möglichkeit, die Intuition hinter der Verwendung von 'n-1' und nicht 'n-2' aufzubauen, besteht darin, dass wir für die Berechnung der Kovarianz nicht beide Bedeutungen von X und Y aufheben müssen, sondern eine der beiden

Uditg_ucla
quelle
Könnten Sie näher erläutern, wie sich dies auf die Frage auswirkt, welchen Nenner Sie verwenden sollen? Die algebraische Relation in Evidence ergibt sich aus der Tatsache, dass die Residuen relativ zum Mittelwert Null ergeben, ansonsten aber nicht darüber schweigen, welcher Nenner relevant ist.
whuber
5
Ich bin hergekommen, weil ich die gleiche Frage hatte wie das OP. Ich denke, diese Antwort ist genau das, worauf @whuber oben hingewiesen hat: Als Faustregel gilt, dass df ~ = n - (geschätzte Parameter) "vage, unruhig und möglicherweise irreführend" sein kann. Dies weist darauf hin, dass Sie, obwohl es so aussieht, als müssten Sie zwei Parameter schätzen (xbar und ybar), wirklich nur einen (xbar oder ybar). Da der df in beiden Fällen gleich sein sollte, muss er der niedrigere der beiden sein. Ich denke, das ist die Absicht hier.
mpettis
1

1) Starten Sie .df=2n

2) Die ist proportional zu . Verliere zwei ; eine aus , eine aus was zu .Σi=1n(XiX¯)(YiY¯)dfX¯Y¯df=2(n1)

3) enthält jedoch nur separate Begriffe, einen von jedem Produkt. Wenn zwei Zahlen miteinander multipliziert werden, verschwinden die unabhängigen Informationen von jeder einzelnen Zahl.Σi=1n(XiX¯)(YiY¯)n

Betrachten Sie das als ein banales Beispiel

24=124=212=38=46=64=83=122=241 ,

und das schließt Irrationalen und Brüche nicht ein, zB , so dass wir, wenn wir zwei Zahlenreihen miteinander multiplizieren und ihr Produkt untersuchen, nur aus einer Zahlenreihe, da wir die Hälfte der ursprünglichen Informationen verloren haben, d. h. was diese beiden Zahlen waren, bevor die paarweise Gruppierung in eine Zahl (dh Multiplikation) durchgeführt wurde.24=2626df=n1

Mit anderen Worten, ohne Verlust der Allgemeinheit können wir schreiben

(XiX¯)(YiY¯)=ziz¯ für einige und ,ziz¯

dh und, . Aus den , die dann eindeutig , wird die Kovarianzformelzi=XiYiX¯YiXiY¯z¯=X¯Y¯zdf=n1

Σi=1nziz¯n1=

Σi=1n[(XiX¯)(YiY¯)]n1=

1n1Σi=1n(XiX¯)(YiY¯) .

Die Antwort auf die Frage lautet also, dass die durch Gruppierung halbiert werden.df

Carl
quelle
@whuber Wie um alles in der Welt habe ich dasselbe Ding zweimal gepostet und einmal gelöscht bekommen? Was gibt? Können wir einen von ihnen loswerden? Gibt es eine Möglichkeit, solche Duplikate für die Zukunft dauerhaft zu löschen? Ich habe ein paar rumhängen und es ist ärgerlich.
Carl
Soweit ich das beurteilen kann, haben Sie Ihre Antwort aus dem Duplikat hierher verschoben. (Niemand anderes kann Antworten in Ihrem Namen veröffentlichen.) Das System rät dringend davon ab, identische Antworten in mehreren Threads zu veröffentlichen. Als ich das sah, überzeugte es mich, dass diese beiden Threads perfekte Duplikate sind, und ich habe sie "zusammengeführt". Dies ist eine Prozedur, mit der alle Kommentare und Antworten vom Quell-Thread in den Ziel-Thread verschoben werden. Ich habe dann deinen doppelten Beitrag hier im Ziel-Thread gelöscht. Es bleibt dauerhaft gelöscht, ist jedoch sowohl für Sie als auch für Personen mit ausreichend hohem Ansehen sichtbar.
whuber
@whuber Ich wusste nicht, was bei einer Zusammenführung passiert, dass eine Zusammenführung stattfindet oder wie viele der Regeln lauten, obwohl ständig nachgeschaut wird. Es braucht Zeit , zu lernen, geduldig zu sein, BTW, würden Sie erwägen , stats.stackexchange.com/questions/251700/... weg von Hold?
Carl