Ich sah mich einer begrenzenden Verteilung mit einer Kovarianz von Null zwischen zwei Variablen gegenüber, aber ihre Korrelation ist . Gibt es eine solche Verteilung? Wie kann es erklärt werden?
Sie haben Recht, vielleicht muss ich mehr Details geben. OK, X und Y sind bivariate Normalverteilungen mit unterschiedlichen Varianzen und Mitteln (frei von n), aber corr = 1- (1 / n). Untersuchen Sie nun die Grenzverteilung von Yn | Xn = x.
Antworten:
Nach einer Klarstellung durch das OP scheint es, dass a) wir annehmen, dass die beiden Variablen gemeinsam einer bivariaten Normalen folgen und b) unser Interesse an der bedingten Verteilung liegt, die dann ist
Dann sehen wir , dass als , haben wir ρ n → 1 , und die Varianz der bedingten Verteilung auf Null geht. Wenn die Korrelation zur Einheit geht, reicht es intuitiv aus, " x zu kennen ", um auch " y zu kennen ".n→∞ ρn→1 x y
Aber nirgends oben bekommen wir, dass Null ist. Auch an der Grenze bleibt die Kovarianz gleich Cov ( Y n , X n ) → σ y σ x .Cov(Yn,Xn) Cov(Yn,Xn)→σyσx
Beachten Sie, dass die bedingte Kovarianz (und dann auch die bedingte Korrelation) immer Null ist, weil,
quelle
Anmerkung 1: Wenn die Korrelation streng undefiniert, da ihr Nenner gleich 0 wäre.σ2x=0
quelle
Soweit ich sehen kann (vielleicht außerhalb einiger besonderer Umstände, aber Sie erwähnen keine), ist dies nicht möglich.
Die Korrelation ist die Kovarianz geteilt durch das Produkt der beiden Standardabweichungen. Wenn die Kovarianz also Null ist, ist die Korrelation entweder Null (wenn beide Standardabweichungen nicht Null sind) oder undefiniert (wenn mindestens eine Standardabweichung 0 ist). Es sollte nicht 1 sein, wenn die Kovarianz 0 ist.
Ich gehe davon aus, dass Sie entweder einen Fehler in Ihrer Analyse gemacht haben oder Ihre Beschreibung nicht klar genug ist, um die Situation richtig zu erkennen.
quelle
Sie haben wahrscheinlich Schwierigkeiten, weil Sie die Daten als Gauß'sch visualisieren.
Es ist möglich, dass alle Daten denselben Punkt darstellen (obwohl dies redundant wäre) und dass Sie zwei Variablen mit unterschiedlichen Namen (Aliase voneinander) haben, aus denen die Daten bestehen. Dies würde zu einer Kovarianz von Null führen, und eine Korrelation von 1, da die Kovarianz im Grunde genommen die Verteilung der Daten über den Merkmalsraum darstellt, während die Korrelation angibt, wie stark eine Variable von einer anderen abhängt oder wie stark sie sich gegenseitig beeinflusst. Wenn die Daten überhaupt nicht verteilt sind, muss die Kovarianz Null sein.
HINWEIS Das Beste, was Sie mit einem solchen Datensatz tun können, ist jedoch, einfach vorherzusagen, dass alle Punkte dieselbe Ausgabe haben, was höchstwahrscheinlich zu einer hohen Verzerrung führen wird
quelle