Eine Möglichkeit, die Genauigkeit des logistischen Regressionsmodells mithilfe von 'glm' zu ermitteln, besteht darin, das AUC-Diagramm zu ermitteln. Wie kann man dasselbe für ein Regressionsmodell überprüfen, das mit einer kontinuierlichen Antwortvariablen gefunden wurde (family = 'gaussian')?
Mit welchen Methoden wird überprüft, wie gut mein Regressionsmodell zu den Daten passt?
r
regression
generalized-linear-model
user1140126
quelle
quelle
r-squared
Tag und dasgoodness-of-fit
Tag werfen ..Antworten:
Ich würde zunächst eine kurze Suche nach " linearer Regressionsmodelldiagnose " vorschlagen . Aber hier sind einige, die ich Ihnen empfehlen würde, zu überprüfen:
Stellen Sie sicher, dass die Annahmen zufriedenstellend erfüllt sind
Verwenden Sie Streudiagramm oder Komponente plus Restdiagramm, um die lineare Beziehung zwischen dem / den unabhängigen Prädiktor (en) und der abhängigen Variablen zu untersuchen.
Erstellen Sie ein Diagramm mit standardisiertem Residuum gegenüber dem vorhergesagten Wert und stellen Sie sicher, dass es keinen Extrempunkt mit sehr hohem Residuum gibt und die Streuung des Residuums entlang des vorhergesagten Werts weitgehend ähnlich ist und sich weitgehend gleichmäßig über und unter dem Mittelwert des Residuums verteilt. Null.
Sie können auch die y-Achse in Rest ändern . Dieses Diagramm hilft bei der Identifizierung ungleicher Varianz.2
Überprüfen Sie das Studiendesign erneut, um sicherzustellen, dass die Annahme der Unabhängigkeit angemessen ist.
Rufen Sie den Varianzinflationsfaktor (VIF) oder die Toleranzstatistik ab, um mögliche Kollinearität zu untersuchen.
Untersuchen Sie mögliche Einflusspunkte.
Untersuchen Sie die Änderung der und der angepassten StatistikR 2R2 R2
Überprüfen Sie die erforderliche Interaktion
Wenden Sie Ihr Modell auf einen anderen Datensatz an und überprüfen Sie dessen Leistung
quelle
plot.lm
können Sie die meisten der von Penguin_Knight erwähnten Diagnoseplots erhalten.Ich möchte meine Regressionsmodelle gegenseitig validieren, um festzustellen, wie gut sie sich auf neue Daten verallgemeinern lassen. Meine bevorzugte Metrik ist der mittlere absolute Fehler bei den kreuzvalidierten Daten, aber der mittlere quadratische Fehler ist häufiger und gleichermaßen nützlich.
Ich finde nicht, dass R2 eine gute Metrik dafür ist, wie gut Ihr Modell zu den Trainingsdaten passt, da fast jede auf den Trainingsdaten berechnete Fehlermetrik zu einer Überanpassung neigt. Wenn Sie R2 im Trainingssatz berechnen müssen, empfehle ich die Verwendung von angepasstem R2 .
quelle
Mit untersuchen, wie gut Ihr Modell zu den Trainingsdaten passt. Hier erfahren Sie, wie viel Prozent der Varianz in den Daten vom Modell erklärt werden.R2
Ich schlage vor, RMSE (Root Mean Square Error) Ihrer Vorhersagen für Ihren Testsatz im Vergleich zum tatsächlichen Wert zu verwenden. Dies ist eine Standardmethode zum Melden von Vorhersagefehlern einer kontinuierlichen Variablen.
quelle
Ich bin es gewohnt, die Funktionsform meines Parameterschätzers zu überprüfen, indem ich eine nichtparametrische (z. B. eine Kernel-Regression) oder semiparametrische Schätzung aufzeichne und mit der parametrisch angepassten Kurve vergleiche. Ich denke, dies ist im ersten Schritt oft schneller (und vielleicht aufschlussreicher) als das Einbeziehen von Interaktionsbegriffen oder Begriffen höherer Ordnung.
Das R-Paket np bietet viele nette nichtparametrische und semiparametrische Funktionen, und seine Vignette ist gut geschrieben: http://cran.r-project.org/web/packages/np/vignettes/np.pdf
quelle