Wann sind die Ergebnisse von Shao zur einmaligen Kreuzvalidierung anwendbar?

22

In seiner Arbeit Lineare Modellauswahl durch Kreuzvalidierung zeigt Jun Shao, dass für das Problem der Variablenauswahl bei der multivariaten linearen Regression die Methode der ausschließlichen Kreuzvalidierung (LOOCV) „asymptotisch inkonsistent“ ist. Im Klartext werden tendenziell Modelle mit zu vielen Variablen ausgewählt. In einer Simulationsstudie zeigte Shao, dass LOOCV selbst bei nur 40 Beobachtungen andere Kreuzvalidierungstechniken übertreffen kann.

Dieses Papier ist etwas umstritten und wird etwas ignoriert (10 Jahre nach seiner Veröffentlichung hatten meine Kollegen aus der Chemometrie noch nie davon gehört und verwendeten LOOCV gerne für die variable Auswahl ...). Es gibt auch eine Überzeugung (ich bin daran schuld), dass die Ergebnisse etwas über den ursprünglich begrenzten Umfang hinausgehen.

Die Frage also: Wie weit reichen diese Ergebnisse? Sind sie auf die folgenden Probleme anwendbar?

  1. Variablenauswahl für logistische Regression / GLM?
  2. Variablenauswahl für die Fisher-LDA-Klassifizierung?
  3. Variablenauswahl mit SVM mit endlichem (oder unendlichem) Kernelraum?
  4. Vergleich von Modellen in der Klassifikation, sagen SVM mit verschiedenen Kerneln?
  5. Vergleich von Modellen in linearer Regression, z. B. Vergleich von MLR mit Ridge Regression?
  6. etc.
shabbychef
quelle
In den Büchern zur Chemometrie muss sich etwas befinden. Der einzige Mann, den ich kenne, der LOO benutzt, tut es auch.

Antworten:

14

Sie müssen den Zweck des Modells angeben, bevor Sie sagen können, ob die Ergebnisse von Shao anwendbar sind. Wenn der Zweck beispielsweise die Vorhersage ist, ist LOOCV sinnvoll und die Inkonsistenz der Variablenauswahl ist kein Problem. Wenn es andererseits darum geht, die wichtigen Variablen zu identifizieren und zu erläutern, wie sie sich auf die Antwortvariable auswirken, sind die Ergebnisse von Shao offensichtlich wichtig und LOOCV ist nicht geeignet.

Die AIC ist asymptotisch LOOCV und die BIC ist asymptotisch äquivalent zu einem Leave- out-CV mit v = n [ 1 - 1 / ( log ( n ) - 1 ) ] --- das BIC-Ergebnis nur für lineare Modelle. Der BIC bietet also eine konsistente Modellauswahl. Daher ist eine kurze Zusammenfassung des Ergebnisses von Shao, dass AIC zur Vorhersage nützlich ist, BIC jedoch zur Erklärung.vv=n[1-1/(Log(n)-1)]

Rob Hyndman
quelle
1
Ich glaube, Shao hat gezeigt, dass der k-fache Lebenslauf inkonsistent ist, wenn festgelegt wird, während n wächst. kn
Shabbychef
1
Der BIC wächst mit n.
Rob Hyndman
1
Ich möchte nur stillschweigend daran erinnern, dass die * IC <-> * CV-Korrespondenz von Shao nur für lineare Modelle funktioniert und der BIC nur dem k-fachen CV mit bestimmtem k entspricht.
Eigentlich glaube ich , dass Shao zeigt CV inkonsistent ist , wenn als n inf , wobei n v die Anzahl der Proben in dem Testsatz. Somit ist der k- fache Lebenslauf für die Variablenauswahl immer inkonsistent. Habe ich falsch verstanden Mit k- fachem Lebenslauf meine ich, die Stichprobe in k Gruppen aufzuteilen und an k - 1 von ihnen zu trainieren und an 1 von ihnen zu testen und dann k- mal zu wiederholen . Dann ist n v / n = 1 / k für knv/n1ninfnvkkkk-1knv/n=1/kk-facher Lebenslauf, der sich nie dem 1. nähert
shabbychef
3
@mbq: Nein - der AIC / LOO-Beweis von Stone 1977 geht nicht von linearen Modellen aus. Aus diesem Grund wird es im Gegensatz zu Shaos Ergebnissen häufig zitiert. siehe zum Beispiel die Kapitel zur Modellauswahl in EOSL oder im Handbuch für Computerstatistik oder wirklich jedes gute Kapitel / Dokument zur Modellauswahl. Es ist nur ein bisschen mehr als eine Seite lang und lesenswert, weil es etwas ordentlicher ist, als er es vermeidet, die Fisher-Informationen / den Score zu berechnen, um das Ergebnis abzuleiten.
ars
7

Dieses Papier ist etwas umstritten und wird etwas ignoriert

Nicht wirklich, es ist wohlbekannt, was die Theorie der Modellauswahl angeht, obwohl sie sicherlich falsch interpretiert wird. Das eigentliche Problem ist, wie relevant es für die Praxis des Modellierens in freier Wildbahn ist. Angenommen, Sie führen die Simulationen für die Fälle durch, die Sie untersuchen möchten, und stellen fest, dass LOOCV tatsächlich inkonsistent ist. Der einzige Grund dafür ist, dass Sie das "wahre" Modell bereits kannten und daher feststellen konnten, dass die Wahrscheinlichkeit der Wiederherstellung des "wahren" Modells nicht gegen 1 konvergiert. dass die Phänomene durch lineare Modelle beschrieben werden und das "wahre" Modell eine Teilmenge der in Betracht kommenden Modelle ist)?

Shaos Artikel ist sicherlich interessant, um den theoretischen Rahmen voranzutreiben. Es gibt sogar Klarheit: Wenn das "wahre" Modell tatsächlich in Betracht gezogen wird, haben wir die Konsistenzergebnisse, an die wir uns halten können. Ich bin mir jedoch nicht sicher, wie interessant tatsächliche Simulationen für die von Ihnen beschriebenen Fälle wären. Aus diesem Grund konzentrieren sich die meisten Bücher wie EOSL nicht so sehr auf das Ergebnis von Shao, sondern auf Vorhersage- / Generalisierungsfehler als Kriterium für die Modellauswahl.

BEARBEITEN: Die sehr kurze Antwort auf Ihre Frage lautet: Shaos Ergebnisse sind anwendbar, wenn Sie eine Schätzung der kleinsten Quadrate und eine quadratische Verlustfunktion durchführen. Nicht weiter. (Ich denke, es gab eine interessante Arbeit von Yang (2005?), Die untersuchte, ob Sie Konsistenz und Effizienz haben könnten, mit einer negativen Antwort.)

ars
quelle
Ich halte es nicht für relevant, ob ich das wahre Modell in freier Wildbahn kenne. Wenn es ein "wahres" Modell gibt, würde ich eine Methode vorziehen, die es eher findet.
Shabbychef
2
@ shabbychef: Ich bin nicht anderer Meinung. Aber beachten Sie: "Wenn es ein 'wahres' Modell gibt" und es in Erwägung gezogen wird, wie würden Sie das a priori wissen?
Ars
1
Beachten Sie auch, dass mein zweiter Absatz den Punkt in Ihrem Kommentar ausmacht. Dies ist eine schöne Eigenschaft, aber es ist nicht klar, wie anwendbar es in freier Wildbahn ist; Auch wenn es in gewissem Sinne beruhigend ist, kann es irreführend sein.
ars
2
@ars - Beachten Sie, dass die "Linearität" des "wahren" Modells nicht die einzige Möglichkeit ist, das "wahre" Modell aus einem linearen Modell wiederherzustellen. Wenn die nichtlineare Komponente des "wahren" Modells durch den Rauschausdruck gut modelliert werden kann (z. B. heben sich nichtlineare Effekte tendenziell auf), können wir das lineare Modell meiner Meinung nach vernünftigerweise als "wahr" bezeichnen. Dies ähnelt der Annahme, dass der Rest in einer linearen Taylorreihe vernachlässigbar ist.
Wahrscheinlichkeitslogik
1
v
6



10/101


quelle
Abgesehen von Beweisen frage ich mich, ob es Simulationsstudien zu einem der fünf Fälle gegeben hat, die ich zum Beispiel aufführe.
Shabbychef
Willst du welche machen?
2
Ich mache; Ich werde allerdings noch viel mehr R lernen müssen, um die Ergebnisse hier zu teilen.
Shabbychef
1
@shabbychef: Hast du das jemals tun müssen? Übrigens, wenn Sie immer noch Chemiker zählen, die CV für die Variablenauswahl verwenden oder nicht, können Sie mich auf die Seite derjenigen setzen, die sich weigern, weil a) ich noch keine echten Daten hatte Stellen Sie genügend Fälle (Stichproben) ein, um auch nur einen Modellvergleich zu ermöglichen, und b) für meine spektroskopischen Daten werden die relevanten Informationen normalerweise über große Teile des Spektrums "verschmiert", sodass ich eine Regularisierung bevorzuge, die keine harte Variablenauswahl vornimmt.
cbeleites unterstützt Monica
1

1) In der Antwort von @ars wird Yang (2005) erwähnt: "Können die Stärken von AIC und BIC geteilt werden?" . Vereinfacht gesagt scheint es nicht möglich zu sein, ein Modellauswahlkriterium zu haben, mit dem sowohl die Konsistenz (in der Regel das richtige Modell ausgewählt wird, wenn es tatsächlich ein korrektes Modell gibt und es zu den in Betracht gezogenen Modellen gehört) als auch die Effizienz (das niedrigste Mittel) erreicht werden Fehlerquadrat im Durchschnitt der von Ihnen ausgewählten Modelle). Wenn Sie dazu neigen, im Durchschnitt das richtige Modell auszuwählen, erhalten Sie manchmal etwas zu kleine Modelle. Wenn Sie jedoch häufig einen echten Prädiktor verpassen, schneiden Sie in Bezug auf MSE schlechter ab als jemand, der immer ein paar falsche Prädiktoren enthält.

Wie bereits erwähnt, ist es in Ordnung, LOOCV oder AIC weiterhin zu verwenden, wenn Sie mehr Wert auf gute Vorhersagen legen als auf die richtigen Variablen.

2) Ich wollte aber auch auf zwei andere seiner Arbeiten hinweisen: Yang (2006) "Vergleichen von Lernmethoden für die Klassifizierung" und Yang (2007) "Konsistenz der Kreuzvalidierung für den Vergleich von Regressionsverfahren" . Diese Artikel zeigen, dass Sie das Verhältnis von Trainings- zu Testdaten nicht auf 0 reduzieren müssen, wenn Sie Modelle vergleichen, die langsamer konvergieren als lineare Modelle.

Um Ihre ursprünglichen Fragen 1-6 direkter zu beantworten: Die Ergebnisse von Shao gelten, wenn lineare Modelle miteinander verglichen werden. Ob für die Regression oder Klassifizierung, wenn Sie nichtparametrische Modelle vergleichen, die langsamer konvergieren (oder sogar ein lineares Modell mit einem nichtparametrischen Modell vergleichen), können Sie die meisten Daten für das Training verwenden und haben dennoch einen modellauswahlkonsistenten Lebenslauf. .. aber dennoch schlägt Yang vor, dass LOOCV zu extrem ist.

civilstat
quelle