Ich habe versucht, die Kovarianz zweier Zufallsvariablen besser zu verstehen und zu verstehen, wie die erste Person, die daran dachte, zu der Definition kam, die routinemäßig in der Statistik verwendet wird. Ich ging zu Wikipedia , um es besser zu verstehen. Aus dem Artikel geht hervor, dass ein gutes Kandidatenmaß oder eine gute Menge für die folgenden Eigenschaften haben sollte:
- Es sollte ein positives Vorzeichen haben, wenn zwei Zufallsvariablen ähnlich sind (dh wenn eine die andere erhöht und die andere die andere verringert).
- Wir möchten auch, dass es ein negatives Vorzeichen hat, wenn zwei Zufallsvariablen entgegengesetzt ähnlich sind (dh wenn eine zunimmt, nimmt die andere Zufallsvariable tendenziell ab).
- Schließlich möchten wir, dass diese Kovarianzgröße Null ist (oder wahrscheinlich extrem klein?), Wenn die beiden Variablen unabhängig voneinander sind (dh sie variieren nicht in Bezug aufeinander).
Aus den obigen Eigenschaften wollen wir . Meine erste Frage ist, es ist mir nicht ganz klar, warum diese Eigenschaften erfüllt. Von den Eigenschaften, die wir haben, hätte ich erwartet, dass eher eine "abgeleitete" Gleichung der ideale Kandidat ist. Zum Beispiel eher so etwas wie "Wenn die Änderung von X positiv ist, sollte die Änderung von Y auch positiv sein". Warum ist es "richtig", den Unterschied zum Mittelwert zu nehmen?C o v ( X , Y ) = E [ ( X - E [ X ] ) ( Y - E [ Y ] ) ]
Eine tangentialere, aber immer noch interessante Frage: Gibt es eine andere Definition, die diese Eigenschaften hätte erfüllen können und dennoch sinnvoll und nützlich gewesen wäre? Ich frage dies, weil es so aussieht, als würde niemand in Frage stellen, warum wir diese Definition überhaupt verwenden (es fühlt sich so an, als ob es "immer so gewesen" ist, was meiner Meinung nach ein schrecklicher Grund ist und es wissenschaftlich und wissenschaftlich behindert mathematische Neugier und Denken). Ist die akzeptierte Definition die "beste" Definition, die wir haben könnten?
Dies sind meine Gedanken darüber, warum die akzeptierte Definition sinnvoll ist (es wird nur ein intuitives Argument sein):
Sei ein Unterschied für die Variable X (dh sie hat sich zu einem bestimmten Zeitpunkt von einem Wert zu einem anderen Wert geändert). Ähnliches gilt für define .Δ Y.
Für eine bestimmte Zeit können wir berechnen, ob sie verwandt sind oder nicht, indem wir Folgendes tun:
Das ist etwas schön! Zum einen erfüllt es die gewünschten Eigenschaften. Wenn beide zusammen zunehmen, sollte die obige Menge die meiste Zeit positiv sein (und ähnlich, wenn sie entgegengesetzt ähnlich sind, wird sie negativ sein, da die entgegengesetzte Vorzeichen haben).
Aber das gibt uns nur die Menge, die wir für eine Instanz in der Zeit wollen, und da sie rv sind, könnten wir überanpassen, wenn wir uns entscheiden, die Beziehung zweier Variablen auf der Grundlage von nur einer Beobachtung zu gründen. Nehmen Sie dann die Erwartung, das "durchschnittliche" Produkt der Unterschiede zu sehen.
Welches sollte im Durchschnitt erfassen, wie die durchschnittliche Beziehung wie oben definiert ist! Das einzige Problem dieser Erklärung ist jedoch, woran messen wir diesen Unterschied? Dies scheint behoben zu werden, indem dieser Unterschied zum Mittelwert gemessen wird (was aus irgendeinem Grund das Richtige ist).
Ich denke, das Hauptproblem, das ich bei der Definition habe, besteht darin, den Unterschied vom Mittelwert zu nehmen . Ich kann mir das noch nicht rechtfertigen.
Die Interpretation für das Zeichen kann für eine andere Frage belassen werden, da es ein komplizierteres Thema zu sein scheint.
quelle
Antworten:
Stellen Sie sich vor, wir beginnen mit einem leeren Zahlenstapel. Dann zeichnen wir Paare aus ihrer gemeinsamen Verteilung. Eines von vier Dingen kann passieren:(X,Y)
Um ein Gesamtmaß für die (Dis-) Ähnlichkeit von X und Y zu erhalten, addieren wir alle Werte der Zahlen auf dem Stapel. Eine positive Summe deutet darauf hin, dass sich die Variablen gleichzeitig in dieselbe Richtung bewegen. Eine negative Summe deutet darauf hin, dass sich die Variablen häufig in entgegengesetzte Richtungen bewegen. Eine Nullsumme deutet darauf hin, dass die Kenntnis der Richtung einer Variablen nicht viel über die Richtung der anderen aussagt.
Es ist wichtig, über "größer als der Durchschnitt" und nicht nur über "groß" (oder "positiv") nachzudenken, da dann zwei nicht negative Variablen als ähnlich beurteilt werden (z. B. die Größe des nächsten Autounfalls auf dem M42 und dem Anzahl der morgen am Bahnhof Paddington gekauften Tickets).
Die Kovarianzformel ist eine Formalisierung dieses Prozesses:
Verwenden Sie die Wahrscheinlichkeitsverteilung anstelle der Monte-Carlo-Simulation und geben Sie die Größe der Zahl an, die wir auf den Stapel legen.
quelle
Hier ist meine intuitive Sichtweise ohne Gleichungen.
Es ist eine Verallgemeinerung der Varianz zu höheren Dimensionen. Die Motivation bestand wahrscheinlich darin, zu beschreiben, wie sich Daten verhalten. Bei der ersten Bestellung haben wir seinen Standort - den Mittelwert. In zweiter Ordnung haben wir die Streuung - die Kovarianz.
Die Streuung wird relativ zum Zentrum der Verteilung ausgewertet. Die grundlegendste Definition der Varianz ist die "mittlere Abweichung vom Mittelwert". Daher müssen Sie den Mittelwert auch im Fall der Kovarianz subtrahieren.
Eine weitere wichtige Motivation ist die Notwendigkeit, einen Weg zu definieren, um den Abstand zwischen Zufallsvariablen zu messen. Der Mahalanobis-Abstand und die Kovarianz gehen Hand in Hand: Bei einer Gaußschen Verteilung und zwei weiteren Stichproben, die einen gleichen euklidischen Abstand zum Verteilungsmittel haben. Wenn ich Sie fragen würde, welche der Stichproben eher ein Ausreißer ist, der nicht aus der Gaußschen Verteilung gezogen wurde, reicht der euklidische Abstand nicht aus. Der Mahalanobis-Abstand weist einen einzigen bemerkenswerten Unterschied zum euklidischen Abstand auf: Er berücksichtigt die Streuung (Kovarianz) der Verteilung. Auf diese Weise können Sie den Abstand zu Zufallsvariablen verallgemeinern.
quelle
OK, lassen Sie uns betrachten zwei unabhängige Bernoulli Zufallsvariablen und . Wenn Sie damit einverstanden sind, dass Kovarianz bedeutet, aber die Subtraktion des Mittelwerts würgt, können wir leicht berechnen, dass ziemlich klein ist. Aber was ist mit unabhängigen Zufallsvariablen und für die ? Die Kovarianz ist also nicht Null (oder vielleicht nur klein), wie Sie es für unabhängige Zufallsvariablen möchten. Andererseits ist die Standarddefinition cov(12) X Y E[XY] E[XY]=14 X^=1000X Y^=1000Y E[X^Y^]=250,000 (X,Y)=E[(X−E[X])(Y−E[Y])] leidet an keinen solchen Defekten und gibt in beiden oben beschriebenen einfachen Fällen Null als Kovarianzwert an.
Betrachten Sie nun wie zuvor, definieren Sie jedoch . Es ist sehr klar, dass mit zunehmender einer Variable die andere abnimmt. Aber während die Standarddefinition cov einen negativen Wert ergibt, genau wie Sie es möchten.X Y=1−X E[XY]=0 (X,Y)=E[(X−E[X])(Y−E[Y])]
Lassen Sie noch einmal wie zuvor sein, aber definieren Sie jetzt . Es ist sehr klar, dass mit zunehmender einer Variable auch die andere zunimmt. Aber ist negativ, anstatt wie gewünscht positiv zu sein, während die Standarddefinition cov einen positiven Wert ergibt wie du es willst.Y = X - 1 E [ X Y ] ( X , Y ) = E [ ( X - E [ X ] ) ( Y - E [ Y ] ) ]X Y=X−1 E[XY] (X,Y)=E[(X−E[X])(Y−E[Y])]
Schließlich vereinfacht sich die Standarddefinition der Kovarianz zur Definition der Varianz, wenn .X=Y
quelle
Ich wunderte mich über dieselbe Frage, und die Intuition, die durch Vermutungen gegeben wurde, half mir. Um die Intuition zu visualisieren, nahm ich zwei zufällige Normalenvektoren, x und y, zeichnete das Streudiagramm auf und färbte jeden Punkt durch das Produkt ihrer Abweichungen von ihren jeweiligen Mitteln (blau für positive Werte, rot für negative).
Wie aus der Darstellung hervorgeht, ist das Produkt im oberen rechten und unteren linken Quadranten am positivsten, während es im unteren rechten und oberen linken Quadranten am negativsten ist. Der Effekt der Summierung der Produkte würde zu 0 führen, da die blauen Punkte die roten Punkte aufheben.
Sie können jedoch sehen, dass die verbleibenden Daten eine positive Beziehung zueinander aufweisen, wenn wir die roten Punkte entfernen. Dies wird durch die positive Summe der Produkte (dh die Summe der blauen Punkte) bestätigt.
quelle
im Vektorraum von Zufallsvariablen ist es vernünftig, das Abstandsquadrat zwischen zwei Zufallsvariablen x und y mit E {(xy) ^ 2} zu definieren, was nun in Bezug auf diese Definition des Abstandspunktprodukts oder der Beziehung von Zufallsvariablen E ist {xy}, das der Definition der Kovarianz so ähnlich ist, mit Ausnahme der Begriffe -E {x} und -E {y}, die für die Art der Normalisierung dienen.
quelle