Intuition zur Definition der Kovarianz

11

Ich habe versucht, die Kovarianz zweier Zufallsvariablen besser zu verstehen und zu verstehen, wie die erste Person, die daran dachte, zu der Definition kam, die routinemäßig in der Statistik verwendet wird. Ich ging zu Wikipedia , um es besser zu verstehen. Aus dem Artikel geht hervor, dass ein gutes Kandidatenmaß oder eine gute Menge für die folgenden Eigenschaften haben sollte:Cov(X,Y)

  1. Es sollte ein positives Vorzeichen haben, wenn zwei Zufallsvariablen ähnlich sind (dh wenn eine die andere erhöht und die andere die andere verringert).
  2. Wir möchten auch, dass es ein negatives Vorzeichen hat, wenn zwei Zufallsvariablen entgegengesetzt ähnlich sind (dh wenn eine zunimmt, nimmt die andere Zufallsvariable tendenziell ab).
  3. Schließlich möchten wir, dass diese Kovarianzgröße Null ist (oder wahrscheinlich extrem klein?), Wenn die beiden Variablen unabhängig voneinander sind (dh sie variieren nicht in Bezug aufeinander).

Aus den obigen Eigenschaften wollen wir . Meine erste Frage ist, es ist mir nicht ganz klar, warum diese Eigenschaften erfüllt. Von den Eigenschaften, die wir haben, hätte ich erwartet, dass eher eine "abgeleitete" Gleichung der ideale Kandidat ist. Zum Beispiel eher so etwas wie "Wenn die Änderung von X positiv ist, sollte die Änderung von Y auch positiv sein". Warum ist es "richtig", den Unterschied zum Mittelwert zu nehmen?C o v ( X , Y ) = E [ ( X - E [ X ] ) ( Y - E [ Y ] ) ]Cov(X,Y)Cov(X,Y)=E[(XE[X])(YE[Y])]

Eine tangentialere, aber immer noch interessante Frage: Gibt es eine andere Definition, die diese Eigenschaften hätte erfüllen können und dennoch sinnvoll und nützlich gewesen wäre? Ich frage dies, weil es so aussieht, als würde niemand in Frage stellen, warum wir diese Definition überhaupt verwenden (es fühlt sich so an, als ob es "immer so gewesen" ist, was meiner Meinung nach ein schrecklicher Grund ist und es wissenschaftlich und wissenschaftlich behindert mathematische Neugier und Denken). Ist die akzeptierte Definition die "beste" Definition, die wir haben könnten?


Dies sind meine Gedanken darüber, warum die akzeptierte Definition sinnvoll ist (es wird nur ein intuitives Argument sein):

Sei ein Unterschied für die Variable X (dh sie hat sich zu einem bestimmten Zeitpunkt von einem Wert zu einem anderen Wert geändert). Ähnliches gilt für define .Δ Y.ΔXΔY

Für eine bestimmte Zeit können wir berechnen, ob sie verwandt sind oder nicht, indem wir Folgendes tun:

sign(ΔXΔY)

Das ist etwas schön! Zum einen erfüllt es die gewünschten Eigenschaften. Wenn beide zusammen zunehmen, sollte die obige Menge die meiste Zeit positiv sein (und ähnlich, wenn sie entgegengesetzt ähnlich sind, wird sie negativ sein, da die entgegengesetzte Vorzeichen haben).Delta

Aber das gibt uns nur die Menge, die wir für eine Instanz in der Zeit wollen, und da sie rv sind, könnten wir überanpassen, wenn wir uns entscheiden, die Beziehung zweier Variablen auf der Grundlage von nur einer Beobachtung zu gründen. Nehmen Sie dann die Erwartung, das "durchschnittliche" Produkt der Unterschiede zu sehen.

sign(E[ΔXΔY])

Welches sollte im Durchschnitt erfassen, wie die durchschnittliche Beziehung wie oben definiert ist! Das einzige Problem dieser Erklärung ist jedoch, woran messen wir diesen Unterschied? Dies scheint behoben zu werden, indem dieser Unterschied zum Mittelwert gemessen wird (was aus irgendeinem Grund das Richtige ist).

Ich denke, das Hauptproblem, das ich bei der Definition habe, besteht darin, den Unterschied vom Mittelwert zu nehmen . Ich kann mir das noch nicht rechtfertigen.


Die Interpretation für das Zeichen kann für eine andere Frage belassen werden, da es ein komplizierteres Thema zu sein scheint.

Charlie Parker
quelle
2
Der Ausgangspunkt kann das Konzept oder die Intuition eines Kreuzprodukts sein (Kovarianz ist nur die Erweiterung davon). Wenn wir zwei Reihen von Zahlen X und Y gleicher Länge haben und das summierte Kreuzprodukt als Summe (Xi * Yi) definieren, wird es maximiert, wenn beide Reihen in derselben Reihenfolge sortiert wurden, und wird minimiert, wenn eine Serien wurden aufsteigend und die anderen absteigend sortiert.
ttnphns
Der Unterschied zum Mittelwert ist nicht das grundlegende Problem. Es ist nur die Größe, die zählt, der Unterschied zum Ursprung; Aus bestimmten Gründen ist es natürlich und bequem, den Ursprung in den Mittelwert zu setzen.
ttnphns
@ttnphns sagst du, wenn sie zusammen kovärieren, dann sollte die Kovarianz "maximiert" werden und wenn sie kovariieren, sollte sie so negativ wie möglich sein? (dh minimiert) Warum wird es dann nicht als Erwartung des Kreuzprodukts definiert?
Charlie Parker
Kovarianz ist natürlich für Variablen ohne inhärenten Ursprung. Wir berechnen dann den Mittelwert als Ursprung (der Mittelwert hat schöne Eigenschaften, die sich nicht auf das Assoziationsthema beziehen, daher wird er normalerweise ausgewählt). Wenn der Ursprung inhärent und bedeutungsvoll ist, ist es vernünftig, daran festzuhalten, dann ist "Kovarianz" (Co-Ausbruch) nicht symmetrisch, aber wen interessiert das?
ttnphns
1
Diese Antwort liefert eine sehr schöne Intuition in Bezug auf Kovarianz.
Glen_b -Reinstate Monica

Antworten:

10

Stellen Sie sich vor, wir beginnen mit einem leeren Zahlenstapel. Dann zeichnen wir Paare aus ihrer gemeinsamen Verteilung. Eines von vier Dingen kann passieren:(X,Y)

  1. Wenn sowohl X als auch Y größer sind als ihre jeweiligen Durchschnittswerte, sagen wir, dass das Paar ähnlich ist, und legen daher eine positive Zahl auf den Stapel.
  2. Wenn sowohl X als auch Y kleiner sind als ihre jeweiligen Durchschnittswerte, sagen wir, dass das Paar ähnlich ist und legen eine positive Zahl auf den Stapel.
  3. Wenn X größer als sein Durchschnitt und Y kleiner als sein Durchschnitt ist, sagen wir, dass das Paar unähnlich ist und eine negative Zahl auf den Stapel legt.
  4. Wenn X kleiner als sein Durchschnitt und Y größer als sein Durchschnitt ist, sagen wir, dass das Paar unähnlich ist und eine negative Zahl auf den Stapel legt.

Um ein Gesamtmaß für die (Dis-) Ähnlichkeit von X und Y zu erhalten, addieren wir alle Werte der Zahlen auf dem Stapel. Eine positive Summe deutet darauf hin, dass sich die Variablen gleichzeitig in dieselbe Richtung bewegen. Eine negative Summe deutet darauf hin, dass sich die Variablen häufig in entgegengesetzte Richtungen bewegen. Eine Nullsumme deutet darauf hin, dass die Kenntnis der Richtung einer Variablen nicht viel über die Richtung der anderen aussagt.

Es ist wichtig, über "größer als der Durchschnitt" und nicht nur über "groß" (oder "positiv") nachzudenken, da dann zwei nicht negative Variablen als ähnlich beurteilt werden (z. B. die Größe des nächsten Autounfalls auf dem M42 und dem Anzahl der morgen am Bahnhof Paddington gekauften Tickets).

Die Kovarianzformel ist eine Formalisierung dieses Prozesses:

Cov(X,Y)=E[(XE[X])(YE[Y])]

Verwenden Sie die Wahrscheinlichkeitsverteilung anstelle der Monte-Carlo-Simulation und geben Sie die Größe der Zahl an, die wir auf den Stapel legen.

Vermutungen
quelle
Wow, das ist eine sehr gute Antwort. Nur noch eine letzte Sache, tun Sie etwas dagegen , auf weitere Einzelheiten über die Begründung , warum es das Hinzufügen hat der Unterschied sein , um die Bildung von Mittelwert ? Warum nicht ein anderer Wert? Warum macht es Sinn? Ich denke, das ist die Hauptsache, die mich daran hindert, diese Definition vollständig zu verinnerlichen. Danke übrigens!
Charlie Parker
Vielen Dank. Angenommen, es gibt zwei große Lastwagen in zwei verschiedenen Ländern. Jetzt neigen große Lastwagen dazu, große Lasten zu tragen. Wenn wir dem Stapel jedes Mal eine positive Zahl hinzufügen würden, wenn jeder LKW eine große Ladung trug, müssten wir am Ende sagen, dass das Verhalten der beiden LKWs sehr ähnlich war. Tatsächlich hängt die Größe der von einem LKW beförderten Ladung jedoch nicht mit der Größe der von dem anderen zu einem bestimmten Zeitpunkt beförderten Ladung zusammen. Sie sind einfach beide große Lastwagen. Unser Maß an Ähnlichkeit wäre also nicht nützlich. Deshalb müssen wir über "überdurchschnittlich groß" nachdenken.
Vermutungen
Es tut mir leid, dass dies etwas spät ist, aber ich habe mich entschlossen, dieses Thema zu überprüfen, und ich habe immer noch eine Frage, warum es der Unterschied zum Mittelwert ist. Ist der Unterschied zu ihren jeweiligen Mitteln wichtig, da jede Zufallsvariable X und Y aus unterschiedlichen Maßstäben stammen kann? Das heißt, um ein Gefühl dafür zu haben, was "groß" ist, hängt es davon ab, um welche Basisskala es sich handelt. Um dieses Problem der Skalierung zu lösen, vergleichen wir es mit ihren jeweiligen Mitteln.
Charlie Parker
1

Hier ist meine intuitive Sichtweise ohne Gleichungen.

  1. Es ist eine Verallgemeinerung der Varianz zu höheren Dimensionen. Die Motivation bestand wahrscheinlich darin, zu beschreiben, wie sich Daten verhalten. Bei der ersten Bestellung haben wir seinen Standort - den Mittelwert. In zweiter Ordnung haben wir die Streuung - die Kovarianz.

    Ich denke, das Hauptproblem, das ich bei der Definition habe, besteht darin, den Unterschied vom Mittelwert zu nehmen. Ich kann mir das noch nicht rechtfertigen.

    Die Streuung wird relativ zum Zentrum der Verteilung ausgewertet. Die grundlegendste Definition der Varianz ist die "mittlere Abweichung vom Mittelwert". Daher müssen Sie den Mittelwert auch im Fall der Kovarianz subtrahieren.

  2. Eine weitere wichtige Motivation ist die Notwendigkeit, einen Weg zu definieren, um den Abstand zwischen Zufallsvariablen zu messen. Der Mahalanobis-Abstand und die Kovarianz gehen Hand in Hand: Bei einer Gaußschen Verteilung und zwei weiteren Stichproben, die einen gleichen euklidischen Abstand zum Verteilungsmittel haben. Wenn ich Sie fragen würde, welche der Stichproben eher ein Ausreißer ist, der nicht aus der Gaußschen Verteilung gezogen wurde, reicht der euklidische Abstand nicht aus. Der Mahalanobis-Abstand weist einen einzigen bemerkenswerten Unterschied zum euklidischen Abstand auf: Er berücksichtigt die Streuung (Kovarianz) der Verteilung. Auf diese Weise können Sie den Abstand zu Zufallsvariablen verallgemeinern.

Rhadar
quelle
1
  1. Schließlich möchten wir, dass diese Kovarianzgröße Null ist (oder wahrscheinlich extrem klein?), Wenn die beiden Variablen unabhängig voneinander sind (dh sie variieren nicht in Bezug aufeinander).

OK, lassen Sie uns betrachten zwei unabhängige Bernoulli Zufallsvariablen und . Wenn Sie damit einverstanden sind, dass Kovarianz bedeutet, aber die Subtraktion des Mittelwerts würgt, können wir leicht berechnen, dass ziemlich klein ist. Aber was ist mit unabhängigen Zufallsvariablen und für die ? Die Kovarianz ist also nicht Null (oder vielleicht nur klein), wie Sie es für unabhängige Zufallsvariablen möchten. Andererseits ist die Standarddefinition cov(12)XYE[XY]E[XY]=14X^=1000XY^=1000YE[X^Y^]=250,000(X,Y)=E[(XE[X])(YE[Y])] leidet an keinen solchen Defekten und gibt in beiden oben beschriebenen einfachen Fällen Null als Kovarianzwert an.

  1. Wir möchten auch, dass es ein negatives Vorzeichen hat, wenn zwei Zufallsvariablen entgegengesetzt ähnlich sind (dh wenn eine zunimmt, nimmt die andere Zufallsvariable tendenziell ab).

Betrachten Sie nun wie zuvor, definieren Sie jedoch . Es ist sehr klar, dass mit zunehmender einer Variable die andere abnimmt. Aber während die Standarddefinition cov einen negativen Wert ergibt, genau wie Sie es möchten.XY=1XE[XY]=0(X,Y)=E[(XE[X])(YE[Y])]

  1. Es sollte (sic) ein positives Vorzeichen haben, wenn zwei Zufallsvariablen ähnlich sind (dh wenn eine die andere erhöht und die eine die andere verringert).

Lassen Sie noch einmal wie zuvor sein, aber definieren Sie jetzt . Es ist sehr klar, dass mit zunehmender einer Variable auch die andere zunimmt. Aber ist negativ, anstatt wie gewünscht positiv zu sein, während die Standarddefinition cov einen positiven Wert ergibt wie du es willst.Y = X - 1 E [ X Y ] ( X , Y ) = E [ ( X - E [ X ] ) ( Y - E [ Y ] ) ]XY=X1E[XY](X,Y)=E[(XE[X])(YE[Y])]

Schließlich vereinfacht sich die Standarddefinition der Kovarianz zur Definition der Varianz, wenn .X=Y

Dilip Sarwate
quelle
1

Ich wunderte mich über dieselbe Frage, und die Intuition, die durch Vermutungen gegeben wurde, half mir. Um die Intuition zu visualisieren, nahm ich zwei zufällige Normalenvektoren, x und y, zeichnete das Streudiagramm auf und färbte jeden Punkt durch das Produkt ihrer Abweichungen von ihren jeweiligen Mitteln (blau für positive Werte, rot für negative).

Wie aus der Darstellung hervorgeht, ist das Produkt im oberen rechten und unteren linken Quadranten am positivsten, während es im unteren rechten und oberen linken Quadranten am negativsten ist. Der Effekt der Summierung der Produkte würde zu 0 führen, da die blauen Punkte die roten Punkte aufheben.

Sie können jedoch sehen, dass die verbleibenden Daten eine positive Beziehung zueinander aufweisen, wenn wir die roten Punkte entfernen. Dies wird durch die positive Summe der Produkte (dh die Summe der blauen Punkte) bestätigt.

Geben Sie hier die Bildbeschreibung ein

Charleslow
quelle
0

im Vektorraum von Zufallsvariablen ist es vernünftig, das Abstandsquadrat zwischen zwei Zufallsvariablen x und y mit E {(xy) ^ 2} zu definieren, was nun in Bezug auf diese Definition des Abstandspunktprodukts oder der Beziehung von Zufallsvariablen E ist {xy}, das der Definition der Kovarianz so ähnlich ist, mit Ausnahme der Begriffe -E {x} und -E {y}, die für die Art der Normalisierung dienen.

Nima
quelle