Wann ist R im Quadrat negativ?

77

Ich verstehe, dass nicht negativ sein kann, da es das Quadrat von R ist. Ich habe jedoch in SPSS eine einfache lineare Regression mit einer einzelnen unabhängigen Variablen und einer abhängigen Variablen durchgeführt. Meine SPSS-Ausgabe gibt mir einen negativen Wert für . Wenn ich dies von Hand aus R berechnen würde, wäre positiv. Was hat SPSS unternommen, um dies als negativ zu berechnen?R 2 R 2R2R2R2

R=-.395
R squared =-.156
B (un-standardized)=-1261.611

Code, den ich verwendet habe:

DATASET ACTIVATE DataSet1. 
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA 
           /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN 
           /DEPENDENT valueP /METHOD=ENTER ageP

Ich bekomme einen negativen Wert. Kann mir jemand erklären, was das bedeutet?

Negatives RSquared

Bildbeschreibung hier eingeben

Anne
quelle
3
Beantwortet das deine Frage? stats.stackexchange.com/questions/6181/… Wenn nicht, geben Sie bitte weitere Informationen an: Dies ist die "SPSS-Ausgabe" für welche Prozedur?
whuber
2
Hat Ihr lineares Regressionsmodell einen Achsenabschnitt?
NPE
2
@ Anne Nochmals, welches SPSS-Verfahren verwenden Sie?
Whuber
1
@Anne Ich schlage vor, Sie ignorieren die Zeitreihenantwort, da es sich bei Ihren Daten nicht um Zeitreihen handelt und Sie kein Zeitreihenverfahren verwenden. Sind Sie wirklich sicher, dass das Quadrat R als negativer Wert angegeben wird? Ihre Größe ist korrekt: . Ich habe die SPSS-Hilfe durchgesehen, um festzustellen, ob der R-Quadrat-Wert für negative Rs möglicherweise als Konvention negiert ist, sehe jedoch keine Beweise dafür, dass dies der Fall ist. Vielleicht könntest du einen Screenshot der Ausgabe posten, in dem du das R-Quadrat liest? (-0,395)2=0,156
whuber
1
Die abhängige Variable ist der Preis von Häusern, sodass es machbar ist, dass der 95% CI 120.000 beträgt. Leider kann ich die Daten hier nicht posten, da dies den Nutzungsbedingungen zuwiderlaufen würde.
Anne

Antworten:

106

R2R2R2R2

Y.1500

Bildbeschreibung hier eingeben

Das Modell macht bei diesen Daten überhaupt keinen Sinn. Es ist eindeutig das falsche Modell, vielleicht aus Versehen gewählt.

(SSreg)(SSKnirps)R21-SSregSSKnirpsSSregSSKnirpsR2

R2rR2R2

R2

Harvey Motulsky
quelle
3
@JMS Das ist das Gegenteil von dem, was mein Googeln anzeigt: "/ ORIGIN" fixiert den Achsenabschnitt auf 0; "/ NOORIGIN" "weist SPSS an, die Konstante nicht zu unterdrücken" ( Eine Einführung in SPSS für Windows )
whuber
10
@whuber Richtig. @ harvey-motulsky Ein negativer R ^ 2-Wert ist eine mathematische Unmöglichkeit (und deutet auf einen Computerfehler hin) für eine reguläre OLS-Regression (mit einem Achsenabschnitt). Dies ist, was der Befehl 'REGRESSION' tut und worum es im Original-Poster geht. Auch für OLS Regression, R ^ 2 ist das Quadrat der Korrelation zwischen den vorhergesagten und den beobachteten Werten. Daher darf es nicht negativ sein. Bei einer einfachen OLS-Regression mit einem Prädiktor entspricht dies der quadratischen Korrelation zwischen dem Prädiktor und der abhängigen Variablen - auch dies darf nicht negativ sein.
Wolfgang
1
@whuber In der Tat. Mein Fehler; offensichtlich verwende ich kein SPSS - oder lese anscheinend :)
JMS
1
@whuber. Ich habe einen Absatz hinzugefügt, in dem darauf hingewiesen wird, dass R2 bei linearer Regression nur dann negativ sein kann, wenn der Achsenabschnitt (oder möglicherweise die Steigung) eingeschränkt ist. Ohne Einschränkungen muss R2 positiv sein und dem Quadrat von r, dem Korrelationskoeffizienten, entsprechen.
Harvey Motulsky
1
@ HarveyMotulsky, in diesem Fall wurden der Schnittpunkt oder die Steigung nicht eingeschränkt. Es scheint, dass Sie sagen, dass Rsquared nur negativ sein kann, wenn diese eingeschränkt sind. Können Sie näher erläutern, was in diesem speziellen Fall geschehen sein könnte?
Anne
18

Haben Sie vergessen, einen Abschnitt in Ihre Regression aufzunehmen? Ich bin nicht mit SPSS-Code vertraut, aber auf Seite 21 von Hayashis Econometrics:

R2

R2=1-ich=1neich2ich=1n(yich-y¯)2

R2

Ich würde überprüfen und sicherstellen, dass SPSS einen Intercept in Ihre Regression einbezieht.

jefflovejapan
quelle
4
Der Unterbefehl NOORIGIN in ihrem Code gibt an, dass der
Achsenabschnitt
2
das ist komisch Ich hätte gedacht, dass NOORIGINdies bedeuten würde, dass Intercept nicht im Modell enthalten ist, sondern nur vom Namen abweicht.
Matt O'Brien
6

Dies kann passieren, wenn Sie eine Zeitreihe haben, die Niid ist, und ein ungeeignetes ARIMA-Modell der Form (0,1,0) konstruieren, bei dem es sich um ein Zufallsmodell der ersten Differenz ohne Drift und dann um die Varianz (Summe der Quadrate - SSE) handelt. der Residuen ist größer als die Varianz (Summe der Quadrate SSO) der ursprünglichen Reihe. Somit ergibt die Gleichung 1-SSE / SSO eine negative Zahl, wenn SSE SSO überschreitet. Wir haben dies gesehen, wenn Benutzer einfach ein angenommenes Modell anpassen oder unzureichende Verfahren verwenden, um eine geeignete ARIMA-Struktur zu identifizieren / zu bilden. Die größere Botschaft ist, dass ein Modell Ihre Sicht verzerren kann (ähnlich wie eine schlechte Brille). Ohne Zugriff auf Ihre Daten hätte ich sonst ein Problem damit, Ihre fehlerhaften Ergebnisse zu erklären. Haben Sie IBM darauf aufmerksam gemacht?

Die Idee, dass ein angenommenes Modell kontraproduktiv ist, wurde von Harvey Motulsky bestätigt. Großartiger Beitrag, Harvey!

IrishStat
quelle
1
stat. Vielen Dank. Nein, ich habe nicht mit IBM gesprochen. Die Daten sind keine Zeitreihen. Es handelt sich um Zeitpunktdaten.
Anne
5
@Anne und andere: Da es sich bei Ihren Daten nicht um Zeitreihen handelt und Sie kein Zeitreihenverfahren verwenden, ignorieren Sie bitte meine Antwort. Andere, die bei Zeitreihen negative R-Quadrate beobachtet haben, könnten meinen Beitrag interessant und tangential informativ finden. Andere leider nicht.
IrishStat
@IrishStat: Könnten Sie bitte einen Link zum Beitrag von Harvey Motulsky hinzufügen?
kjetil b halvorsen
Harvey beantwortete die Frage hier.
IrishStat