... vorausgesetzt, ich kann ihr Wissen über die Varianz auf intuitive Weise erweitern ( "Varianz" intuitiv verstehen ) oder indem ich sage: Es ist der durchschnittliche Abstand der Datenwerte vom Mittelwert - und da die Varianz quadratisch ist Einheiten nehmen wir die Quadratwurzel, um die Einheiten gleich zu halten, und das nennt man Standardabweichung.
Nehmen wir an, so viel wird vom "Empfänger" artikuliert und (hoffentlich) verstanden. Was ist nun Kovarianz und wie würde man es in einfachem Englisch erklären, ohne irgendwelche mathematischen Ausdrücke / Formeln zu verwenden? (Dh intuitive Erklärung.;)
Bitte beachten Sie: Ich kenne die Formeln und die Mathematik hinter dem Konzept. Ich möchte in der Lage sein, dasselbe auf eine leicht verständliche Weise zu "erklären", ohne die Mathematik einzubeziehen. dh, was bedeutet "Kovarianz" überhaupt?
Antworten:
Manchmal können wir das Wissen mit einem ungewöhnlichen oder anderen Ansatz "erweitern". Ich möchte, dass diese Antwort für Kindergärtner zugänglich ist und auch Spaß macht, damit jeder seine Buntstifte herausholt!
Zeichnen Sie für gepaarte( x , y) Daten deren Streudiagramm. (Die jüngeren Schüler benötigen möglicherweise einen Lehrer, um dies für sie zu erstellen. :-) Jedes Punktepaar ( xich, yich) , ( xj, yj) in diesem Diagramm bestimmt ein Rechteck: Es ist das kleinste Rechteck, dessen Seiten sind parallel zu den Achsen, die diese Punkte enthalten. Somit befinden sich die Punkte entweder in der oberen rechten und unteren linken Ecke (eine "positive" Beziehung) oder in der oberen linken und unteren rechten Ecke (eine "negative" Beziehung).
Zeichne alle möglichen Rechtecke. Färben Sie sie transparent ein, sodass die positiven Rechtecke rot (z. B.) und die negativen Rechtecke "antirot" (blau) sind. Wo sich Rechtecke überlappen, werden auf diese Weise ihre Farben entweder verbessert, wenn sie gleich sind (blau und blau oder rot und rot) oder aufgehoben, wenn sie unterschiedlich sind.
( In dieser Abbildung eines positiven (rot) und negativen (blau) Rechtecks sollte die Überlappung weiß sein. Leider hat diese Software keine echte "antirote" Farbe. Die Überlappung ist grau, daher wird die Farbe dunkler Handlung, aber im Großen und Ganzen ist der Nettobetrag von Rot korrekt. )
Jetzt sind wir bereit für die Erklärung der Kovarianz.
Die Kovarianz ist der Nettobetrag von Rot im Diagramm (wobei Blau als negativer Wert behandelt wird).
Hier sind einige Beispiele mit 32 binormalen Punkten aus Verteilungen mit den angegebenen Kovarianzen, geordnet von den negativsten (blauesten) bis zu den positivsten (rotesten).
Sie sind auf gemeinsamen Achsen gezeichnet, um sie vergleichbar zu machen. Die Rechtecke sind leicht umrandet, damit Sie sie sehen können. Dies ist eine aktualisierte (2019) Version des Originals: Es wird eine Software verwendet, die die Farben Rot und Cyan in überlappenden Rechtecken ordnungsgemäß aufhebt.
Lassen Sie uns einige Eigenschaften der Kovarianz ableiten. Das Verständnis dieser Eigenschaften ist für jeden zugänglich, der tatsächlich einige der Rechtecke gezeichnet hat. :-)
Bilinearität. Da der Rotanteil von der Größe des Diagramms abhängt, ist die Kovarianz direkt proportional zur Skalierung auf der x-Achse und zur Skalierung auf der y-Achse.
Korrelation. Die Kovarianz nimmt zu, wenn sich die Punkte einer abfallenden Linie annähern, und ab, wenn sich die Punkte einer abfallenden Linie annähern. Dies liegt daran, dass im ersten Fall die meisten Rechtecke positiv und im zweiten Fall die meisten negativ sind.
Beziehung zu linearen Assoziationen. Da nichtlineare Assoziationen Mischungen aus positiven und negativen Rechtecken erzeugen können, führen sie zu unvorhersehbaren (und nicht sehr nützlichen) Kovarianzen. Lineare Assoziationen können mit Hilfe der beiden vorhergehenden Charakterisierungen vollständig interpretiert werden.
Empfindlichkeit gegenüber Ausreißern. Ein geometrischer Ausreißer (ein Punkt steht von der Masse entfernt) erzeugt in Verbindung mit allen anderen Punkten viele große Rechtecke. Es kann allein eine positive oder negative Nettorotmenge im Gesamtbild erzeugen.
Im Übrigen unterscheidet sich diese Definition der Kovarianz von der üblichen nur durch eine universelle Proportionalitätskonstante (unabhängig von der Datensatzgröße). Die mathematisch veranlagte Person wird keine Schwierigkeiten haben, die algebraische Demonstration durchzuführen, dass die hier angegebene Formel immer doppelt so groß ist wie die übliche Kovarianz.
quelle
Es ist nützlich, sich an die Grundformel zu erinnern (einfach zu erklären, keine Notwendigkeit, über mathematische Erwartungen für einen Einführungskurs zu sprechen):
quelle
Die Kovarianz ist ein Maß dafür, wie viel eine Variable steigt, wenn die andere steigt.
quelle
Ich bin meine eigene Frage zu beantworten, aber ich dachte , es wäre toll für die Menschen in diesem Beitrag kommen einige der Erklärungen zu prüfen , auf dieser Seite .
Ich paraphrasiere eine der sehr gut artikulierten Antworten (von einem Benutzer 'Zhop'). Ich mache das für den Fall, dass diese Seite geschlossen wird oder die Seite heruntergefahren wird, wenn jemand von nun an auf diesen Beitrag zugreift;)
Hinzufügen eines weiteren (von 'CatofGrey'), das die Intuition erweitert:
Diese beiden zusammen haben mich Kovarianz verstehen lassen, wie ich es noch nie zuvor verstanden habe! Einfach erstaunlich!!
quelle
Die Antwort von Whuber gefällt mir sehr gut, daher habe ich weitere Ressourcen gesammelt. Kovarianz beschreibt sowohl, wie weit die Variablen verteilt sind, als auch die Art ihrer Beziehung.
Die Kovarianz beschreibt anhand von Rechtecken, wie weit eine Beobachtung vom Mittelwert eines Streudiagramms entfernt ist:
Wenn ein Rechteck lange Seiten und eine große Breite oder kurze Seiten und eine kleine Breite hat, zeigt dies, dass sich die beiden Variablen zusammen bewegen.
Wenn ein Rechteck zwei Seiten hat, die für diese Variablen relativ lang sind, und zwei Seiten, die für die andere Variable relativ kurz sind, liefert diese Beobachtung den Beweis, dass sich die Variablen nicht sehr gut zusammen bewegen.
Befindet sich das Rechteck im 2. oder 4. Quadranten, ist eine Variable größer als der Mittelwert, die andere kleiner als der Mittelwert. Eine Zunahme einer Variablen ist mit einer Abnahme der anderen Variablen verbunden.
Ich fand eine coole Visualisierung davon unter http://sciguides.com/guides/covariance/ . Sie erklärt, was Kovarianz ist, wenn Sie nur den Mittelwert kennen.
quelle
Hier ist ein weiterer Versuch, die Kovarianz mit einem Bild zu erklären. Jedes Panel im Bild unten enthält 50 Punkte, die aus einer bivariaten Verteilung mit einer Korrelation zwischen x und y von 0,8 und Abweichungen wie in den Zeilen- und Spaltenbeschriftungen dargestellt simuliert wurden. Die Kovarianz wird in der unteren rechten Ecke jedes Panels angezeigt.
Alle, die daran interessiert sind, dies zu verbessern ... hier der R-Code:
quelle
Ich habe die Antwort von @whuber geliebt - bevor ich nur eine vage Vorstellung davon hatte, wie Kovarianz visualisiert werden kann, aber diese rechteckigen Darstellungen sind genial.
Da die Kovarianzformel jedoch den Mittelwert enthält und die ursprüngliche Frage des OP besagte, dass der "Empfänger" das Konzept des Mittelwerts versteht, dachte ich, ich hätte einen Riss bei der Anpassung von @ whubers Rechteckdiagrammen, um jeden Datenpunkt mit dem zu vergleichen Mittel von x und y, da dies mehr repräsentiert, was in der Kovarianzformel vor sich geht. Ich dachte, es sieht tatsächlich ziemlich intuitiv aus:
Der blaue Punkt in der Mitte jedes Diagramms ist der Mittelwert von x (x_mean) und von y (y_mean).
Die Rechtecke vergleichen den Wert von x - x_mean und y - y_mean für jeden Datenpunkt.
Das Rechteck ist grün, wenn entweder:
Das Rechteck ist rot, wenn:
Kovarianz (und Korrelation) können sowohl stark negativ als auch stark positiv sein. Wenn das Diagramm von einer Farbe mehr dominiert wird als von der anderen, bedeutet dies, dass die Daten größtenteils einem konsistenten Muster folgen.
Der tatsächliche Wert der Kovarianz für zwei verschiedene Variablen x und y ist im Grunde die Summe aller grünen Bereiche minus aller roten Bereiche, dividiert durch die Gesamtzahl der Datenpunkte - effektiv die durchschnittliche Grün-gegen-Rötung des Graphen .
Wie hört sich das an?
quelle
Varianz ist der Grad, um den sich eine zufällige Variable in Bezug auf ihren erwarteten Wert ändert. Aufgrund der stochastischen Natur des zugrunde liegenden Prozesses repräsentiert die zufällige Variable.
Kovarianz ist der Grad, um den sich zwei verschiedene Zufallsvariablen relativ zueinander ändern. Dies kann passieren, wenn Zufallsvariablen durch denselben zugrunde liegenden Prozess oder Ableitungen davon gesteuert werden. Entweder beeinflussen sich die durch diese Zufallsvariablen dargestellten Prozesse gegenseitig, oder es handelt sich um denselben Prozess, aber eine der Zufallsvariablen wird von der anderen abgeleitet.
quelle
Ich würde einfach die Korrelation erklären, die ziemlich intuitiv ist. Ich würde sagen "Korrelation misst die Stärke der Beziehung zwischen zwei Variablen X und Y. Die Korrelation liegt zwischen -1 und 1 und liegt im absoluten Wert nahe bei 1, wenn die Beziehung stark ist. Kovarianz ist nur die Korrelation multipliziert mit den Standardabweichungen von Die Korrelation ist dimensionslos, die Kovarianz ergibt sich jedoch aus dem Produkt der Einheiten für Variable X und Variable Y.
quelle
Zwei Variablen, die eine hohe positive Kovarianz (Korrelation) aufweisen würden, wären die Anzahl der Personen in einem Raum und die Anzahl der Finger, die sich im Raum befinden. (Mit zunehmender Anzahl von Menschen erwarten wir auch eine Zunahme der Anzahl von Fingern.)
Etwas, das eine negative Kovarianz (Korrelation) haben könnte, wäre das Alter einer Person und die Anzahl der Haarfollikel auf ihrem Kopf. Oder die Anzahl der Zits im Gesicht einer Person (in einer bestimmten Altersgruppe) und wie viele Dates sie in einer Woche hat. Wir erwarten, dass Menschen mit mehr Jahren weniger Haare haben und Menschen mit mehr Akne weniger Datteln. Diese sind negativ korreliert.
quelle