Ist das R-Quadrat wirklich eine ungültige Metrik für nichtlineare Modelle?

8

Ich habe gelesen, dass das R-Quadrat für nichtlineare Modelle ungültig ist, da die Beziehung, die SSR + SSE = SSTotal ist, nicht mehr gilt. Kann jemand erklären, warum das so ist?

SSR und SSE sind nur die quadratischen Normen der Regressions- und Restvektoren, deren ichth Komponenten sind (Y.ich^- -Y.¯) und (Y.ich- -Y.ich^), beziehungsweise. Solange diese Vektoren orthogonal zueinander sind, sollte die obige Beziehung dann nicht immer gelten, unabhängig von der Art der Funktion, mit der Prädiktorwerte auf angepasste Werte abgebildet werden?

Außerdem sollte nicht der Regression und mit zugehörigen Restvektoren jedem der kleinsten Quadrate Modell sein orthogonal per Definition von der kleinsten Quadrate? Der Restvektor ist die Differenz zwischen dem Vektor(Y.ich- -Y.ich¯)und der Regressionsvektor. Wenn der Regressionsvektor so ist, dass der Rest- / Differenzvektor nicht orthogonal zu ihm ist, kann der Regressionsvektor mit einer Konstanten multipliziert werden, so dass er jetzt orthogonal zum Rest- / Differenzvektor ist. Dies sollte auch die Norm des Rest- / Differenzvektors reduzieren.

Wenn ich das schlecht erklärt habe, dann sag es mir bitte und ich werde versuchen es zu klären.

Greg
quelle
1
Da kann man immer rechnen R2,Können Sie erklären, in welchem ​​Sinne es als "ungültig" angesehen werden kann? Zu welchem ​​Zweck genau?
whuber
4
Dies hängt zum Teil davon ab, wie die Menge definiert wird. Ich sehe wenig Schaden darin, das Korrelationsquadrat zwischen beobachteter und angepasster Antwort vorsichtig als beschreibende Statistik zu verwenden, aber es ist nicht unbedingt das, was die nichtlineare Regression maximiert. Entscheidend ist oder sein sollte, dass die nichtlineare Regression eine funktionale Form mit einer wissenschaftlichen (technischen, medizinischen, was auch immer) Begründung oder zumindest Plausibilität verwendet: Dies ist ein Kontext, der definieren sollte, welches Maß für die Güte oder die Schlechtigkeit der Anpassung ist am besten brauchbar.
Nick Cox
@whuber Entschuldigung, ich habe Ihren Kommentar nicht gesehen, als er ursprünglich gepostet wurde. Ich denke, R-Quadrat wird in nichtlinearen Fällen aus mehreren Gründen als ungültig angesehen, aber ich habe mich hauptsächlich auf die Behauptung konzentriert, dass SSE + SSR = / = SSTotal ist, wenn die Linearität verletzt wird, weil ich es für falsch hielt.
Greg

Antworten:

6

Die Quadratsummen bei der linearen Regression sind Sonderfälle der allgemeineren Abweichungswerte im verallgemeinerten linearen Modell. Im allgemeineren Modell gibt es eine Antwortverteilung mit einem Mittelwert, der mit einer linearen Funktion der erklärenden Variablen (mit einem Intercept-Term) verknüpft ist. Die drei Abweichungsstatistiken in einem GLM sind wie folgt definiert:

Null Deviance   DTOT=2(^S^0),Explained DevianceDREG=2(^p^0),Residual Deviance  DRES=2(^S^p).

In diesen Ausdrücken der Wert ^S ist die maximierte Log-Wahrscheinlichkeit unter einem gesättigten Modell (ein Parameter pro Datenpunkt), ^0 ist die maximierte Log-Wahrscheinlichkeit unter einem Nullmodell (nur Intercept) und ^p ist die maximierte Log-Wahrscheinlichkeit unter dem Modell (Intercept Term und p Koeffizienten).

Diese Abweichungsstatistiken spielen eine Rolle analog zu skalierten Versionen der Quadratsummen bei der linearen Regression. Es ist leicht zu erkennen, dass sie die Zersetzung befriedigenDTOT=DREG+DRESDies ist analog zur Zerlegung der Quadratsummen in der linearen Regression. In der Tat erhalten Sie in dem Fall, in dem Sie eine normale Antwortverteilung mit einer linearen Verknüpfungsfunktion haben, ein lineares Regressionsmodell, und die Abweichungsstatistik reduziert sich auf Folgendes:

DTOT=1σ2i=1n(yiy¯)2=1σ2SSTOT,DREG=1σ2i=1n(y^iy¯)2=1σ2SSREG,DRES=1σ2i=1n(yiy^i)2=1σ2SSRES.

Der Variationskoeffizient in einem linearen Regressionsmodell ist nun eine Anpassungsgütestatistik, die den Anteil der Gesamtvariation in der Antwort misst, der auf die erklärenden Variablen zurückzuführen ist. Eine natürliche Erweiterung im Fall eines GLM besteht darin, die Statistik zu bilden:

RGLM2=1DRESDTOT=DREGDTOT.

Es ist leicht zu erkennen, dass sich diese Statistik im Spezialfall der linearen Regression auf den Variationskoeffizienten reduziert, da sich die Skalierungswerte aufheben. Im breiteren Kontext eines GLM hat die Statistik eine natürliche Interpretation, die ihrer Interpretation in der linearen Regression entspricht: Sie gibt den Anteil der Nullabweichung an, der durch die erklärenden Variablen im Modell erklärt wird.

Nachdem wir nun gesehen haben, wie sich die Quadratsummen in der linearen Regression auf die Abweichungen in einem GLM erstrecken, können wir sehen, dass der reguläre Variationskoeffizient im nichtlinearen Modell ungeeignet ist, da er spezifisch für den Fall von a ist lineares Modell mit einem normalverteilten Fehlerterm. Wir können jedoch sehen, dass der Standardvariationskoeffizient zwar unangemessen ist, es jedoch möglich ist, unter Verwendung der Abweichungswerte mit einer analogen Interpretation eine geeignete Analogie zu bilden.


Die verbleibende Abweichung wird manchmal nur als Abweichung bezeichnet.

Ben - Monica wieder einsetzen
quelle
1
Danke für den nützlichen Beitrag. Hat dieses generische R2 1-DRES / DTOT übrigens einen Namen? Ich sehe es manchmal als McFadden zitiert, aber McFadden wurde meiner Meinung nach als 1-logLik (Modell) / logLik (null_model) definiert, was nur mit der obigen Formel übereinstimmen würde, wenn logLik (gesättigtes_Modell) Null ist (was für die logistische Regression der Fall ist) , aber nicht für andere Modelle). Hat es also einen akzeptierten Namen?
Tom Wenseleers
Ich bin mir ziemlich sicher, dass dies tatsächlich McFaddens Pseudo- istR2. Wie Sie sagen, vereinfacht sich dies im Fall einer logistischen Regression bis auf die McFadden-Statistik.
Ben - Reinstate Monica
Ich habe gerade die ursprüngliche Referenz, core.ac.uk/download/pdf/6448852.pdf , Gleichung 57 , nachgeschlagen , und das Problem scheint zu sein, dass McFadden dieses R2 nur für ein bestimmtes GLM-Modell definiert hat, bei dem LL (ättigtes_Modell) Null war. Man könnte also wohl nur spekulieren, wie er es für den allgemeinen Fall definiert hätte ... Es ist auch durch diese einfache falsche Formel, die zB in books.google.be/… sowie in DescTools 'PseudoR2, SAS & Stata angegeben ist Ausgabe
Tom Wenseleers
Daher sollte es wahrscheinlich einen anderen Namen erhalten, da es nicht die Formel ist, die McFadden selbst angegeben hat. Vielleicht könnte man es als "generalisiertes McFadden" oder so etwas bezeichnen?
Tom Wenseleers
Vielleicht, aber selbst wenn Sie sich für die umfassendere Version entscheiden würden, wäre es sicherlich nicht das erste Mal, dass ein Konzept nach einer Person benannt wird, die nur einen bestimmten Fall erfunden / entdeckt hat. Ich würde sagen, der "verallgemeinerte" Teil ist unnötig, und man könnte ihn vernünftigerweise einfach den McFadden-Koeffizienten nennen.
Ben - Reinstate Monica
2

Warum sollte SSE + SSR gleich SST sein? Dies war zufällig beim linearen Modell der Fall. Es gibt viele Möglichkeiten zu zeigen, dass es gelten solltey=Xβ+εunter Gauß-Markov-Bedingungen. Es muss jedoch im Allgemeinen nicht gelten. Die Last besteht darin, zu beweisen, dass es gilt, nicht, dass es nicht gilt

Aksakal
quelle
2
Es sollte unter Orthogonalität von gelten (YiYi^) und (Yi^Y¯)(Regressions- und Rest-) Vektoren. Wir können partitionieren(YiY¯)2 in ((YiYi^)+(Yi^Y¯))2=(YiYi^)2+(Yi^Y¯)2+2(YiYi^)(Yi^Y¯). Wenn die beiden orthogonal sind, sollte die obige dritte Summation gleich Null sein, da sie das innere Produkt der Vektoren ist.
Greg
@ Greg, Orthogonalität selbst ist eine abgeleitete Eigenschaft, es ist nicht Teil der Regressionsannahmen
Aksakal
Ich denke lieber im 2D-Fall darüber nach. Angenommen, Sie haben die Vektoren A und B im 2D-Raum. Dies entspricht SSTotal und SSR. SSE ist der Unterschied zwischen SStotal und SSR oder (A - B). Diese drei Vektoren bilden ein Dreieck.
Greg
Angenommen, Sie halten den Vektor A konstant und wählen B so, dass (A - B) minimiert wird (also die kleinsten Quadrate). Dann || A - B || wird minimiert, wenn die Länge von B gleich der Projektion von A auf B ist. In diesem Fall sind B und (A - B) orthogonal. Wenn B länger oder kürzer als diese Projektion ist, kann es einfach mit einer Konstanten multipliziert werden, um dies zu ändern. Wenn SSR nicht orthogonal zu SSE ist, ist es daher nicht der Vektor der kleinsten Quadrate. Ich verstehe nicht, warum diese Argumentation nicht auf den n-dimensionalen Vektorraum oder auf einen Datensatz beliebiger Größe ausgedehnt werden kann.
Greg
Die Projektion ist ein lineares Konzept
Aksakal
1

Während das R-Quadrat aus anderen Gründen in nichtlinearen Modellen immer noch eine fehlerhafte Messung sein kann, glaube ich, dass ich hinreichend gezeigt habe, dass die Beziehung SSR + SSE = SSTotal in einem Modell der kleinsten Quadrate für bestimmte nichtlineare Funktionen, insbesondere für diese, immer noch gilt die einen konstanten Term ermöglichen, wie z. B. Polynommodelle. Ich glaube, dass diese Schlussfolgerung mit dem vereinbar ist, was in dieser Diskussion veröffentlicht wurde, einschließlich dem, was ich über den bereitgestellten ncbi-Link gelesen habe, obwohl ich nicht auf den vollständigen Bericht zugreifen konnte.

Wenn man eine Reihe von angepassten Werten hat y^i in Bezug auf eine Reihe von Beobachtungen yi, wo y^i =A+f(X)= Y¯ +(AY¯) +f(X)mit A ein konstanter Begriff sein und f(X) eine Funktion von Prädiktorvariablen, in der der Vektor von (Yi^Y¯) ist nicht orthogonal zu (YiYi^)kann man einen neuen Satz angepasster Werte erstellen Zi so dass Zi=c(Yi^Y¯)+Y¯, wobei c = (Yi^Y¯)(YiYi^)/(Yi^Y¯)2. Mit neu angepassten WertenZi, der Vektor (ZiY¯) wird orthogonal zum Fehlervektor und diesem neuen Fehlervektor sein (YiZi) hat eine kleinere Summe von Quadraten als das Original (YiYi^). DasZi wurden einfach durch Multiplizieren des ursprünglich geschätzten Modells mit einer Konstanten erhalten "c"und Hinzufügen eines Vielfachen des Mittelwerts der Beobachtungen, der mit dem Modell mit einem konstanten Term kompatibel ist. Daher sollte ein Modell der kleinsten Quadrate unter diesen Umständen immer orthogonale Regressions- und Fehlervektoren aufweisen, was bedeutet, dassSSE+SSR=SSTotal.

Ich habe Polynommodelle für eine Handvoll Datensätze bei der Arbeit erstellt, und diese Beziehung hat zu allen bestanden. Ich sage nur.

Greg
quelle
0

R.2ist in der nichtlinearen Regression von begrenztem Nutzen. Wir stellen es in GraphPad Prism zur Verfügung, schlagen jedoch vor, es nur auf eine Weise zu verwenden:

Ansehen R.2Wenn Sie eine Reihe von Experimenten ausführen und sicherstellen möchten, dass das heutige Experiment mit anderen Experimentläufen übereinstimmt. Zum Beispiel, wenn Sie immer bekommenR.2 zwischen 0,90 und 0,95 aber heute hast du R.2= 0,75, dann sollten Sie misstrauisch sein und sorgfältig prüfen, ob bei den in diesem bestimmten Experiment verwendeten Methoden oder Reagenzien ein Fehler aufgetreten ist. Und wenn ein neuer Mitarbeiter Ihnen Ergebnisse zeigtR.2 von 0,99 mit demselben System sollten Sie sorgfältig prüfen, wie viele "Ausreißer" entfernt wurden und ob einige Daten erstellt wurden.

Mehr .

Harvey Motulsky
quelle