Wie sollte man bei mehreren Kreuzvalidierungsfalten einer logistischen Regression und den daraus resultierenden Mehrfachschätzungen jedes Regressionskoeffizienten messen, ob ein Prädiktor (oder eine Reihe von Prädiktoren) auf der Grundlage der Regressionskoeffizienten stabil und aussagekräftig ist / sind? ? Ist das bei linearer Regression anders?
regression
model-selection
cross-validation
Jack Tanner
quelle
quelle
Antworten:
Sie könnten die Regressionskoeffizienten, die sich aus jeder Testfalte im CV ergeben, als unabhängige Beobachtungen behandeln und dann ihre Zuverlässigkeit / Stabilität unter Verwendung des von Shrout & Fleiss angegebenen Korrelationskoeffizienten (ICC) innerhalb der Klasse berechnen.
quelle
Ich gehe davon aus, dass Sie bei Ihrer Kreuzvalidierung die Daten in zwei Teile teilen, einen Trainingssatz und einen Testsatz. In einer Falte passen Sie ein Modell aus dem Trainingssatz an und verwenden es, um die Reaktion des Testsatzes vorherzusagen, oder? Dies gibt Ihnen eine Fehlerrate für das gesamte Modell, nicht für einen einzelnen Prädiktor.
Ich weiß nicht, ob es möglich ist, p-Werte für Prädiktoren unter Verwendung der F-Tests zu finden, die bei der gewöhnlichen linearen Regression verwendet werden.
Sie können versuchen, Prädiktoren aus dem Modell zu entfernen, indem Sie beispielsweise die Auswahl vorwärts oder rückwärts verwenden, wenn dies Ihr Ziel ist.
Sie können anstelle von CV Bootstrap verwenden, um ein Konfidenzintervall für jeden Prädiktor zu finden und dann zu sehen, wie stabil es ist.
Wie viele Falten verwenden Sie in Ihrem Lebenslauf? Ist es eine einmalige Kreuzvalidierung?
Vielleicht helfen mehr Details zu Ihrem Ziel, diese Frage zu beantworten.
quelle
glm(..., family="binomial")
R. Was mache ich mit den Intervallen für jeden Prädiktor über die Auslassungsläufe hinweg?