Ich habe gelesen, dass das R-Quadrat für nichtlineare Modelle ungültig ist, da die Beziehung, die SSR + SSE = SSTotal ist, nicht mehr gilt. Kann jemand erklären, warum das so ist?
SSR und SSE sind nur die quadratischen Normen der Regressions- und Restvektoren, deren Komponenten sind und , beziehungsweise. Solange diese Vektoren orthogonal zueinander sind, sollte die obige Beziehung dann nicht immer gelten, unabhängig von der Art der Funktion, mit der Prädiktorwerte auf angepasste Werte abgebildet werden?
Außerdem sollte nicht der Regression und mit zugehörigen Restvektoren jedem der kleinsten Quadrate Modell sein orthogonal per Definition von der kleinsten Quadrate? Der Restvektor ist die Differenz zwischen dem Vektorund der Regressionsvektor. Wenn der Regressionsvektor so ist, dass der Rest- / Differenzvektor nicht orthogonal zu ihm ist, kann der Regressionsvektor mit einer Konstanten multipliziert werden, so dass er jetzt orthogonal zum Rest- / Differenzvektor ist. Dies sollte auch die Norm des Rest- / Differenzvektors reduzieren.
Wenn ich das schlecht erklärt habe, dann sag es mir bitte und ich werde versuchen es zu klären.
Antworten:
Die Quadratsummen bei der linearen Regression sind Sonderfälle der allgemeineren Abweichungswerte im verallgemeinerten linearen Modell. Im allgemeineren Modell gibt es eine Antwortverteilung mit einem Mittelwert, der mit einer linearen Funktion der erklärenden Variablen (mit einem Intercept-Term) verknüpft ist. Die drei Abweichungsstatistiken in einem GLM sind wie folgt definiert:
In diesen Ausdrücken der Wertℓ^S ist die maximierte Log-Wahrscheinlichkeit unter einem gesättigten Modell (ein Parameter pro Datenpunkt), ℓ^0 ist die maximierte Log-Wahrscheinlichkeit unter einem Nullmodell (nur Intercept) und ℓ^p ist die maximierte Log-Wahrscheinlichkeit unter dem Modell (Intercept Term und p Koeffizienten).
Diese Abweichungsstatistiken spielen eine Rolle analog zu skalierten Versionen der Quadratsummen bei der linearen Regression. Es ist leicht zu erkennen, dass sie die Zersetzung befriedigenDTOT=DREG+DRES Dies ist analog zur Zerlegung der Quadratsummen in der linearen Regression. In der Tat erhalten Sie in dem Fall, in dem Sie eine normale Antwortverteilung mit einer linearen Verknüpfungsfunktion haben, ein lineares Regressionsmodell, und die Abweichungsstatistik reduziert sich auf Folgendes:
Der Variationskoeffizient in einem linearen Regressionsmodell ist nun eine Anpassungsgütestatistik, die den Anteil der Gesamtvariation in der Antwort misst, der auf die erklärenden Variablen zurückzuführen ist. Eine natürliche Erweiterung im Fall eines GLM besteht darin, die Statistik zu bilden:
Es ist leicht zu erkennen, dass sich diese Statistik im Spezialfall der linearen Regression auf den Variationskoeffizienten reduziert, da sich die Skalierungswerte aufheben. Im breiteren Kontext eines GLM hat die Statistik eine natürliche Interpretation, die ihrer Interpretation in der linearen Regression entspricht: Sie gibt den Anteil der Nullabweichung an, der durch die erklärenden Variablen im Modell erklärt wird.
Nachdem wir nun gesehen haben, wie sich die Quadratsummen in der linearen Regression auf die Abweichungen in einem GLM erstrecken, können wir sehen, dass der reguläre Variationskoeffizient im nichtlinearen Modell ungeeignet ist, da er spezifisch für den Fall von a ist lineares Modell mit einem normalverteilten Fehlerterm. Wir können jedoch sehen, dass der Standardvariationskoeffizient zwar unangemessen ist, es jedoch möglich ist, unter Verwendung der Abweichungswerte mit einer analogen Interpretation eine geeignete Analogie zu bilden.
quelle
Warum sollte SSE + SSR gleich SST sein? Dies war zufällig beim linearen Modell der Fall. Es gibt viele Möglichkeiten zu zeigen, dass es gelten solltey=Xβ+ε unter Gauß-Markov-Bedingungen. Es muss jedoch im Allgemeinen nicht gelten. Die Last besteht darin, zu beweisen, dass es gilt, nicht, dass es nicht gilt
quelle
Während das R-Quadrat aus anderen Gründen in nichtlinearen Modellen immer noch eine fehlerhafte Messung sein kann, glaube ich, dass ich hinreichend gezeigt habe, dass die Beziehung SSR + SSE = SSTotal in einem Modell der kleinsten Quadrate für bestimmte nichtlineare Funktionen, insbesondere für diese, immer noch gilt die einen konstanten Term ermöglichen, wie z. B. Polynommodelle. Ich glaube, dass diese Schlussfolgerung mit dem vereinbar ist, was in dieser Diskussion veröffentlicht wurde, einschließlich dem, was ich über den bereitgestellten ncbi-Link gelesen habe, obwohl ich nicht auf den vollständigen Bericht zugreifen konnte.
Wenn man eine Reihe von angepassten Werten haty^i in Bezug auf eine Reihe von Beobachtungen yi , wo y^i =A+f(X)= Y¯ +(A−Y¯) +f(X) mit A ein konstanter Begriff sein und f(X) eine Funktion von Prädiktorvariablen, in der der Vektor von (Yi^−Y¯) ist nicht orthogonal zu (Yi−Yi^) kann man einen neuen Satz angepasster Werte erstellen Zi so dass Zi=c∗(Yi^−Y¯)+Y¯ , wobei c = ∑(Yi^−Y¯)∗(Yi−Yi^)/∑(Yi^−Y¯)2 . Mit neu angepassten WertenZi , der Vektor (Zi−Y¯) wird orthogonal zum Fehlervektor und diesem neuen Fehlervektor sein (Yi−Zi) hat eine kleinere Summe von Quadraten als das Original (Yi−Yi^) . DasZi wurden einfach durch Multiplizieren des ursprünglich geschätzten Modells mit einer Konstanten erhalten "c" und Hinzufügen eines Vielfachen des Mittelwerts der Beobachtungen, der mit dem Modell mit einem konstanten Term kompatibel ist. Daher sollte ein Modell der kleinsten Quadrate unter diesen Umständen immer orthogonale Regressions- und Fehlervektoren aufweisen, was bedeutet, dassSSE+SSR=SSTotal .
Ich habe Polynommodelle für eine Handvoll Datensätze bei der Arbeit erstellt, und diese Beziehung hat zu allen bestanden. Ich sage nur.
quelle
AnsehenR.2 Wenn Sie eine Reihe von Experimenten ausführen und sicherstellen möchten, dass das heutige Experiment mit anderen Experimentläufen übereinstimmt. Zum Beispiel, wenn Sie immer bekommenR.2 zwischen 0,90 und 0,95 aber heute hast du R.2 = 0,75, dann sollten Sie misstrauisch sein und sorgfältig prüfen, ob bei den in diesem bestimmten Experiment verwendeten Methoden oder Reagenzien ein Fehler aufgetreten ist. Und wenn ein neuer Mitarbeiter Ihnen Ergebnisse zeigtR.2 von 0,99 mit demselben System sollten Sie sorgfältig prüfen, wie viele "Ausreißer" entfernt wurden und ob einige Daten erstellt wurden.
Mehr .
quelle