Modellstabilität bei der Kreuzvalidierung von Regressionsmodellen

10

Wie sollte man bei mehreren Kreuzvalidierungsfalten einer logistischen Regression und den daraus resultierenden Mehrfachschätzungen jedes Regressionskoeffizienten messen, ob ein Prädiktor (oder eine Reihe von Prädiktoren) auf der Grundlage der Regressionskoeffizienten stabil und aussagekräftig ist / sind? ? Ist das bei linearer Regression anders?

Jack Tanner
quelle
@BGreene Sehr klug. Warum nicht das als Antwort posten? Sie lassen mich auch fragen, ob das Ensemble, das Literatur lernt, etwas Relevantes enthält.
Jack Tanner
Wenn Sie "mehrfache Kreuzvalidierung" sagen, meinen Sie damit, dass Sie mal eine fache Kreuzvalidierung ausführen ? mk
Boscovich
@andrea, ich sage "mehrere Kreuzvalidierungsfalten", dh Falten. k
Jack Tanner

Antworten:

2

Sie könnten die Regressionskoeffizienten, die sich aus jeder Testfalte im CV ergeben, als unabhängige Beobachtungen behandeln und dann ihre Zuverlässigkeit / Stabilität unter Verwendung des von Shrout & Fleiss angegebenen Korrelationskoeffizienten (ICC) innerhalb der Klasse berechnen.

BGreene
quelle
0

Ich gehe davon aus, dass Sie bei Ihrer Kreuzvalidierung die Daten in zwei Teile teilen, einen Trainingssatz und einen Testsatz. In einer Falte passen Sie ein Modell aus dem Trainingssatz an und verwenden es, um die Reaktion des Testsatzes vorherzusagen, oder? Dies gibt Ihnen eine Fehlerrate für das gesamte Modell, nicht für einen einzelnen Prädiktor.

Ich weiß nicht, ob es möglich ist, p-Werte für Prädiktoren unter Verwendung der F-Tests zu finden, die bei der gewöhnlichen linearen Regression verwendet werden.

Sie können versuchen, Prädiktoren aus dem Modell zu entfernen, indem Sie beispielsweise die Auswahl vorwärts oder rückwärts verwenden, wenn dies Ihr Ziel ist.

Sie können anstelle von CV Bootstrap verwenden, um ein Konfidenzintervall für jeden Prädiktor zu finden und dann zu sehen, wie stabil es ist.

Wie viele Falten verwenden Sie in Ihrem Lebenslauf? Ist es eine einmalige Kreuzvalidierung?

Vielleicht helfen mehr Details zu Ihrem Ziel, diese Frage zu beantworten.

Tobias Abenius
quelle
Angenommen, dies ist ausgelassen. Jeder Prädiktor in jeder Falte hat bereits ein Konfidenzintervall, z. B. von einem Bayes'schen posterioren CI oder einem Standardfehler von glm(..., family="binomial")R. Was mache ich mit den Intervallen für jeden Prädiktor über die Auslassungsläufe hinweg?
Jack Tanner