Kann

8

Die Wikipedia-Seite auf R2 sagt, dass einen Wert größer als 1 annehmen kann. Ich sehe nicht, wie dies möglich ist.R2

Werte von außerhalb des Bereichs 0 bis 1 können auftreten, wenn sie zur Messung der Übereinstimmung zwischen beobachteten und modellierten Werten verwendet werden und wenn die "modellierten" Werte nicht durch lineare Regression erhalten werden und abhängig davon, welche Formulierung von R 2 verwendet wird. Wenn die erste Formel oben verwendet wird, können die Werte kleiner als Null sein. Wenn der zweite Ausdruck verwendet wird, können die Werte größer als eins sein.R2R2

Dieses Zitat bezieht sich auf den "zweiten Ausdruck", aber ich sehe keinen zweiten Ausdruck auf der Seite.

Gibt es ein Szenario, in dem größer als 1 sein kann? Ich denke über diese Frage für die nichtlineare Regression nach, möchte aber eine allgemeine Antwort erhalten.R2

[Für jemanden, der diese Seite mit der entgegengesetzten Frage betrachtet: Ja; kann negativ sein. Dies geschieht, wenn Sie ein Modell anpassen, das schlechter zu den Daten passt als eine horizontale Linie. Dies ist normalerweise auf einen Fehler bei der Auswahl eines Modells oder von Einschränkungen zurückzuführen.]R2

Harvey Motulsky
quelle
6
Dieses Problem wurde bereits mindestens einmal auf dieser Website stats.stackexchange.com/questions/251337 behandelt, und ich stelle mir vor, dass es weitere Fragen gibt, die sich darauf beziehen oder es vollständig erklären. S S t > S S e
SST(total)=RSS(model)+SSE(error)
SSt>SSeDies gilt im Allgemeinen nur, wenn das Modell einen Achsenabschnitt enthält und wenn der Mittelwert des Fehlers / Residuums 0 ist. Wenn sich am einfachsten auf die Korrelation bezieht und es keine Korrekturen gibt, darf es tatsächlich nicht größer sein als 1. Es ist nur so, dass es nicht immer auf die gleiche Weise wie eine Korrelation berechnet wird. R2
Sextus Empiricus
1
Sie haben also die beiden Ausdrücke: Es ist möglich, dass S S m > S S t
R2=1SSe/SSt=SSm/SSt
SSm>SSt
Sextus Empiricus
Ich berechne das R-Quadrat als "1.0 - (absolute_error_variance / abhängige_data_variance)" und da die absolute Fehlervarianz nicht kleiner als Null sein kann, beträgt der Maximalwert des R-Quadrats in meinen Berechnungen 1.0
James Phillips
2
Es sind solche Macken, die mich zu der Annahme bringen, dass im Allgemeinen am besten als Quadrat der Korrelation zwischen beobachtet und vorhergesagt angesehen wird. R2
Nick Cox
Wenn R mehr als eins quadriert, bedeutet dies, dass 1 + 1 mehr als 2 ist
Ibrahim

Antworten:

8

Ich habe die Antwort gefunden und werde die Antwort auf meine Frage veröffentlichen. Wie Martijn betonte, können Sie mit linearer Regression durch zwei äquivalente Ausdrücke berechnen :R2

R2=1SSe/SSt=SSm/SSt

Bei der nichtlinearen Regression können Sie die Quadratsumme der Residuen und die Quadratsumme der Regression nicht summieren, um die Gesamtsumme der Quadrate zu erhalten. Diese Gleichung ist einfach nicht wahr. Die obige Gleichung ist also nicht richtig. Diese beiden Experimente berechnen zwei unterschiedliche Werte für .R2

Die einzige Gleichung, die Sinn macht und (glaube ich) universell verwendet wird, ist:

R2=1SSe/SSt

Sein Wert ist niemals größer als 1,0, aber er kann negativ sein, wenn Sie das falsche Modell (oder falsche Einschränkungen) anpassen, sodass (Quadratsumme der Residuen) größer als S S t (Quadratsumme der Differenz zwischen tatsächlichen und mittleren Y-Werten).SSeSSt

Die andere Gleichung wird bei nichtlinearer Regression nicht verwendet:

R2=SSm/SSt

R2SSmSStR2

R2R2

Harvey Motulsky
quelle
Ist dieser letzte Punkt richtig? Betrachten Sie Daten in einer perfekten Linie. Betrachten Sie nun ein Modell, das genau zu dieser Linie passt. Dies hat SS_m / SS_t = 1. Betrachten Sie nun dasselbe Modell, jedoch mit einem etwas steileren Gefälle. Jetzt ist SS_m etwas größer und SS_m / SS_t> 1. Das Modell ist etwas schlechter, passt aber immer noch gut zu den Daten, nicht "wirklich schlecht".
Denziloe
@ Denziloe. Ihre Daten sind perfekt oder nahezu perfekt mit einer positiven Steigung. Passen Sie nun eine lineare Regressionslinie mit der Einschränkung an, dass die Steigung mit einer Steigung von weniger als -100 negativ ist. Das Anpassungsmodell passt schlechter als eine horizontale Linie, daher ist SSe größer als SSt. Mit der ersten Gleichung ist R2 negativ. Mit der zweiten Gleichung ist R2 größer als 1. Nein, das ist keine realistische oder häufige Situation.
Harvey Motulsky
@ Denziloe. Das Modell passt nur sehr schlecht zu den Daten (schlechter als die Nullhypothese einer horizontalen Linie), nur wenn Sie die Steigung oder den Achsenabschnitt auf einen Wert beschränken, der keinen Sinn ergibt. In Ihrem Beispiel passt das Modell besser zu den Daten als eine horizontale Linie.
Harvey Motulsky
Entschuldigung, ich folge dem nicht wirklich als Antwort. In meinem Beispiel SS_m / SS_t> +1 - stimmen Sie zu? Und das Modell passt gut - wieder stimmen Sie zu? Dies scheint Ihrer Aussage zu widersprechen: "R2 kann nur dann größer als 1 sein, wenn ... das ausgewählte Modell wirklich schlecht zu den Daten passt".
Denziloe
@Denziloe Bitte senden Sie einige aktuelle Daten und Passungen, damit ich / wir sehen können, was Sie meinen.
Harvey Motulsky
4

R2=1SSe/SStSSe=0R2=1

AlexR
quelle
1
Dies gilt im Allgemeinen nicht und gilt nur, wenn die Modellvarianz kleiner als die Fehlervarianz ist. Nehmen Sie als Beispiel eine lineare Regression ohne Intercept-Koeffizienten.
Alex R.
R2