Wenn die Kovarianz -150 beträgt, wie ist die Art der Beziehung zwischen zwei Variablen?

8

Die Kovarianz zweier Variablen wurde mit -150 berechnet. Was sagt die Statistik über die Beziehung zwischen zwei Variablen aus?

Sameera
quelle
9
Kovarianzen sind nicht einheitsfrei, daher vermittelt der numerische Rohwert keine eigene Bedeutung. Abgesehen von der Tatsache, dass es weniger als 0 ist, gibt es nicht viel zu sagen.
Glen_b -State Monica
9
Meine Variable hat einen Mittelwert von . Ist es groß oder klein? 317
whuber

Antworten:

34

Um die Antwort von Łukasz Deryło zu ergänzen : Wie er schreibt, impliziert eine Kovarianz von -150 eine negative Beziehung. Ob dies eine starke oder eine schwache Beziehung ist, hängt von den Varianzen der Variablen ab. Im Folgenden werden Beispiele für eine starke Beziehung (jede einzelne Variable hat eine Varianz von 200, sodass die Kovarianz in absoluten Zahlen im Vergleich zur Varianz groß ist) und für eine schwache Beziehung (jede Varianz ist 2000, sodass die Kovarianz klein ist) dargestellt in absoluten Zahlen im Vergleich zur Varianz).

Starke Beziehung , variance <- 200:

starke Beziehung

Schwache Beziehung variance <- 2000:

Geben Sie hier die Bildbeschreibung ein

R-Code:

library(MASS)

nn <- 100
epsilon <- 0.1
variance <- 2000 # weak relationship

opar <- par(mfrow=c(2,2))
    for ( ii in 1:4 ) {
        while ( TRUE ) {
            dataset <- mvrnorm(n=100,mu=c(0,0),Sigma=rbind(c(2000,-150),c(-150,2000)))
            if ( abs(cov(dataset)[1,2]-(-150)) < epsilon ) break
        }   
        plot(dataset,pch=19,xlab="",ylab="",main=paste("Covariance:",cov(dataset)[1,2]))
    }
par(opar)

EDIT: Anscombes Quartett

Wie Whuber bemerkt, sagt uns die Kovarianz an sich nicht viel über einen Datensatz aus. Zur Veranschaulichung nehme ich Anscombes Quartett und modifiziere es leicht. Beachten Sie, wie sehr unterschiedliche Streudiagramme alle dieselbe (gerundete) Kovarianz von -150 haben können:

Anscombe

anscombe.mod <- anscombe
anscombe.mod[,c("x1","x2","x3","x4")] <- sqrt(150/5.5)*anscombe[,c("x1","x2","x3","x4")]
anscombe.mod[,c("y1","y2","y3","y4")] <- -sqrt(150/5.5)*anscombe[,c("y1","y2","y3","y4")]
opar <- par(mfrow=c(2,2))
    with(anscombe.mod,plot(x1,y1,pch=19,main=paste("Covariance:",round(cov(x1,y1),0))))
    with(anscombe.mod,plot(x2,y2,pch=19,main=paste("Covariance:",round(cov(x2,y2),0))))
    with(anscombe.mod,plot(x3,y3,pch=19,main=paste("Covariance:",round(cov(x3,y3),0))))
    with(anscombe.mod,plot(x4,y4,pch=19,main=paste("Covariance:",round(cov(x4,y4),0))))
par(opar)

FINAL EDIT (ich verspreche es!)

xy

Finale

xx <- yy <- seq(0,100,by=10)
yy[9] <- -336.7
plot(xx,yy,pch=19,main=paste("Covariance:",cov(xx,yy)))
Stephan Kolassa
quelle
Es ist schön, die Handlungen zu sehen. Zwei Vorschläge: (1) zeigen ein breiteres Spektrum möglicher Verhaltensweisen. Da die Kovarianz absolut nichts über die Gesamtbeziehung aussagt, können Sie dies veranschaulichen, indem Sie einen einflussreichen Ausreißer einsetzen, um zu veranschaulichen, wie stark und durchweg positiv die Beziehung sein kann , die Kovarianz jedoch negativ sein kann. (2) Seien Sie effizienter: Skalieren Sie die Probendaten nach dem Generieren einfach neu, um die gewünschte Kovarianz zu erzielen. Dies vermeidet die wiederholte Datenerzeugung, bis ein Schwellenwert erreicht ist. es sichert einen genauen Wert; und es zeigt, wie wenig Bedeutung "-150" hat.
whuber
@whuber: Ich bin ehrlich - ich war zu dumm, um herauszufinden, wie man einen bestimmten Datensatz ändert, um eine bestimmte Kovarianz zu erreichen. Das Googeln und Suchen im Lebenslauf hat nicht geholfen, also habe ich mich am Ende für die Brute-Force-Ablehnung entschieden. Ich bin ein bisschen frustriert mit mir selbst; Hinweise wären willkommen.
Stephan Kolassa
Haben Sie nur Datasaurus Dozen gesehen? Ist eine noch übertriebenere Version des Anscombe-Quartetts, die Anfang dieses Jahres veröffentlicht wurde. Die ursprüngliche Online-Publikation finden Sie hier
Guilherme Marthe
1
xyx,yvs=|- -150/.v|u- -1- -150/.v<01(sx,usy)xy- -150
Cov(sx,usy)=s(us)Cov(x,y)=us2v=±u(- -150v)v=- -150.
@Guilherme In einer Antwort unter stats.stackexchange.com/a/152034/919 habe ich darüber hinaus Software bereitgestellt, die solche Beispiele nach Belieben erstellt, indem ich lediglich die Eigenschaften angegeben habe, die sie haben sollen. Als Beispiel habe ich den Code verwendet, um Anscombes Quartett zu reproduzieren.
whuber
7

Es sagt Ihnen nur, dass die Beziehung negativ ist. Dies bedeutet, dass niedrige Werte einer Variablen tendenziell zusammen mit hohen Werten der anderen auftreten.

cÖv(X.,Y.)- -sd(X.)sd(Y.)sd(X.)sd(Y.)

sd(X.)sd(Y.)- -11

Sie können auch einen Test auf Signifikanz der Korrelation durchführen.

Łukasz Deryło
quelle
2
Obwohl diese Interpretation üblich ist, verwechselt sie Mittel mit allgemeinen Tendenzen. Die Kovarianz kann leicht negativ sein, selbst wenn die überwiegende Mehrheit der Daten einer positiven Beziehung folgt.
whuber