In seiner Arbeit Lineare Modellauswahl durch Kreuzvalidierung zeigt Jun Shao, dass für das Problem der Variablenauswahl bei der multivariaten linearen Regression die Methode der ausschließlichen Kreuzvalidierung (LOOCV) „asymptotisch inkonsistent“ ist. Im Klartext werden tendenziell Modelle mit zu vielen Variablen ausgewählt. In einer Simulationsstudie zeigte Shao, dass LOOCV selbst bei nur 40 Beobachtungen andere Kreuzvalidierungstechniken übertreffen kann.
Dieses Papier ist etwas umstritten und wird etwas ignoriert (10 Jahre nach seiner Veröffentlichung hatten meine Kollegen aus der Chemometrie noch nie davon gehört und verwendeten LOOCV gerne für die variable Auswahl ...). Es gibt auch eine Überzeugung (ich bin daran schuld), dass die Ergebnisse etwas über den ursprünglich begrenzten Umfang hinausgehen.
Die Frage also: Wie weit reichen diese Ergebnisse? Sind sie auf die folgenden Probleme anwendbar?
- Variablenauswahl für logistische Regression / GLM?
- Variablenauswahl für die Fisher-LDA-Klassifizierung?
- Variablenauswahl mit SVM mit endlichem (oder unendlichem) Kernelraum?
- Vergleich von Modellen in der Klassifikation, sagen SVM mit verschiedenen Kerneln?
- Vergleich von Modellen in linearer Regression, z. B. Vergleich von MLR mit Ridge Regression?
- etc.
quelle
Antworten:
Sie müssen den Zweck des Modells angeben, bevor Sie sagen können, ob die Ergebnisse von Shao anwendbar sind. Wenn der Zweck beispielsweise die Vorhersage ist, ist LOOCV sinnvoll und die Inkonsistenz der Variablenauswahl ist kein Problem. Wenn es andererseits darum geht, die wichtigen Variablen zu identifizieren und zu erläutern, wie sie sich auf die Antwortvariable auswirken, sind die Ergebnisse von Shao offensichtlich wichtig und LOOCV ist nicht geeignet.
Die AIC ist asymptotisch LOOCV und die BIC ist asymptotisch äquivalent zu einem Leave- out-CV mit v = n [ 1 - 1 / ( log ( n ) - 1 ) ] --- das BIC-Ergebnis nur für lineare Modelle. Der BIC bietet also eine konsistente Modellauswahl. Daher ist eine kurze Zusammenfassung des Ergebnisses von Shao, dass AIC zur Vorhersage nützlich ist, BIC jedoch zur Erklärung.v v = n [ 1 - 1 / ( log( n ) - 1 ) ]
quelle
Nicht wirklich, es ist wohlbekannt, was die Theorie der Modellauswahl angeht, obwohl sie sicherlich falsch interpretiert wird. Das eigentliche Problem ist, wie relevant es für die Praxis des Modellierens in freier Wildbahn ist. Angenommen, Sie führen die Simulationen für die Fälle durch, die Sie untersuchen möchten, und stellen fest, dass LOOCV tatsächlich inkonsistent ist. Der einzige Grund dafür ist, dass Sie das "wahre" Modell bereits kannten und daher feststellen konnten, dass die Wahrscheinlichkeit der Wiederherstellung des "wahren" Modells nicht gegen 1 konvergiert. dass die Phänomene durch lineare Modelle beschrieben werden und das "wahre" Modell eine Teilmenge der in Betracht kommenden Modelle ist)?
Shaos Artikel ist sicherlich interessant, um den theoretischen Rahmen voranzutreiben. Es gibt sogar Klarheit: Wenn das "wahre" Modell tatsächlich in Betracht gezogen wird, haben wir die Konsistenzergebnisse, an die wir uns halten können. Ich bin mir jedoch nicht sicher, wie interessant tatsächliche Simulationen für die von Ihnen beschriebenen Fälle wären. Aus diesem Grund konzentrieren sich die meisten Bücher wie EOSL nicht so sehr auf das Ergebnis von Shao, sondern auf Vorhersage- / Generalisierungsfehler als Kriterium für die Modellauswahl.
BEARBEITEN: Die sehr kurze Antwort auf Ihre Frage lautet: Shaos Ergebnisse sind anwendbar, wenn Sie eine Schätzung der kleinsten Quadrate und eine quadratische Verlustfunktion durchführen. Nicht weiter. (Ich denke, es gab eine interessante Arbeit von Yang (2005?), Die untersuchte, ob Sie Konsistenz und Effizienz haben könnten, mit einer negativen Antwort.)
quelle
quelle
1) In der Antwort von @ars wird Yang (2005) erwähnt: "Können die Stärken von AIC und BIC geteilt werden?" . Vereinfacht gesagt scheint es nicht möglich zu sein, ein Modellauswahlkriterium zu haben, mit dem sowohl die Konsistenz (in der Regel das richtige Modell ausgewählt wird, wenn es tatsächlich ein korrektes Modell gibt und es zu den in Betracht gezogenen Modellen gehört) als auch die Effizienz (das niedrigste Mittel) erreicht werden Fehlerquadrat im Durchschnitt der von Ihnen ausgewählten Modelle). Wenn Sie dazu neigen, im Durchschnitt das richtige Modell auszuwählen, erhalten Sie manchmal etwas zu kleine Modelle. Wenn Sie jedoch häufig einen echten Prädiktor verpassen, schneiden Sie in Bezug auf MSE schlechter ab als jemand, der immer ein paar falsche Prädiktoren enthält.
Wie bereits erwähnt, ist es in Ordnung, LOOCV oder AIC weiterhin zu verwenden, wenn Sie mehr Wert auf gute Vorhersagen legen als auf die richtigen Variablen.
2) Ich wollte aber auch auf zwei andere seiner Arbeiten hinweisen: Yang (2006) "Vergleichen von Lernmethoden für die Klassifizierung" und Yang (2007) "Konsistenz der Kreuzvalidierung für den Vergleich von Regressionsverfahren" . Diese Artikel zeigen, dass Sie das Verhältnis von Trainings- zu Testdaten nicht auf 0 reduzieren müssen, wenn Sie Modelle vergleichen, die langsamer konvergieren als lineare Modelle.
Um Ihre ursprünglichen Fragen 1-6 direkter zu beantworten: Die Ergebnisse von Shao gelten, wenn lineare Modelle miteinander verglichen werden. Ob für die Regression oder Klassifizierung, wenn Sie nichtparametrische Modelle vergleichen, die langsamer konvergieren (oder sogar ein lineares Modell mit einem nichtparametrischen Modell vergleichen), können Sie die meisten Daten für das Training verwenden und haben dennoch einen modellauswahlkonsistenten Lebenslauf. .. aber dennoch schlägt Yang vor, dass LOOCV zu extrem ist.
quelle