TL, DR: Es sieht so aus, als ob entgegen häufig wiederholter Ratschläge die einmalige Kreuzvalidierung (LOO-CV) - das heißt, der fache CV mit (die Anzahl der Falten) ist gleich (die Anzahl) der Trainingsbeobachtungen) - liefert Schätzungen des Generalisierungsfehlers, diefür jedes K am wenigsten variabel sind, und nicht die variabelsten, wobei eine bestimmte Stabilitätsbedingung entweder für das Modell / den Algorithmus, den Datensatz oder für beidevorausgesetzt wird(ich bin nicht sicher, welche ist richtig, da ich diese Stabilitätsbedingung nicht wirklich verstehe).
- Kann jemand klar erklären, was genau diese Stabilitätsbedingung ist?
- Stimmt es, dass die lineare Regression ein solcher "stabiler" Algorithmus ist, was bedeutet, dass LOO-CV in diesem Zusammenhang die beste Wahl für CV ist, was die Abweichung und Varianz der Schätzungen des Generalisierungsfehlers angeht?
Die konventionelle Weisheit ist, dass die Wahl von in fachem CV einem Bias-Varianz-Kompromiss folgt, wobei solche niedrigeren Werte von (gegen 2) zu Schätzungen des Generalisierungsfehlers führen, die mehr pessimistische Bias, aber geringere Varianz und höhere Werte aufweisen von (Annäherung an ) führen zu Schätzungen, die weniger voreingenommen sind, aber eine größere Varianz aufweisen. Die konventionelle Erklärung für dieses mit zunehmende Varianzphänomen findet sich vielleicht am prominentesten in den Elementen des statistischen Lernens (Abschnitt 7.10.1):
Mit K = N ist der Kreuzvalidierungsschätzer für den wahren (erwarteten) Vorhersagefehler ungefähr unverzerrt, kann jedoch eine hohe Varianz aufweisen, da die N "Trainingssätze" einander so ähnlich sind.
Die Folge ist, dass die Validierungsfehler stärker korreliert sind, so dass ihre Summe variabler ist. Diese Argumentation wird in vielen Antworten auf dieser Seite (zB wiederholt hier , hier , hier , hier , hier , hier und hier ) sowie auf verschiedenen Blogs und etc. Aber eine detaillierte Analyse ist so gut wie nie gegeben, statt nur eine Intuition oder eine kurze Skizze, wie eine Analyse aussehen könnte.
Man kann jedoch widersprüchliche Aussagen finden, die normalerweise eine bestimmte "Stabilitäts" -Zustand zitieren, die ich nicht wirklich verstehe. Zum Beispiel dieser widersprüchliche Antwort zitiert ein paar Absätze aus einem 2015 Papier , das sagt unter anderem : „Für Modelle / Modellierungsverfahren mit geringer Instabilität , LOO oft die geringste Variabilität“ (Hervorhebung hinzugefügt). Dieses Papier (Abschnitt 5.2) scheint zuzustimmen, dass LOO die am wenigsten variable Wahl von , solange das Modell / der Algorithmus "stabil" ist. Noch eine weitere Stellungnahme zu diesem Thema gibt es auch in diesem Artikel (Korollar 2): "Die Varianz der k- fachen Kreuzvalidierung [...] hängt nicht von k ab, "wieder unter Berufung auf eine bestimmte" Stabilitätsbedingung ".
Die Erklärung, warum LOO der variabelste fache Lebenslauf sein könnte, ist intuitiv genug, aber es gibt eine Gegenintuition . Die endgültige CV-Schätzung des mittleren quadratischen Fehlers (MSE) ist der Mittelwert der MSE-Schätzungen in jeder Falte. Wenn also K auf N ansteigt , ist die CV-Schätzung der Mittelwert einer zunehmenden Anzahl von Zufallsvariablen. Und wir wissen, dass die Varianz eines Mittelwerts mit der Anzahl der gemittelten Variablen abnimmt. Damit LOO die variabelste K- fach CV sein kann, muss es zutreffen, dass die Zunahme der Varianz aufgrund der erhöhten Korrelation zwischen den MSE-Schätzungen die Abnahme der Varianz aufgrund der höheren Anzahl von gemittelten Falten überwiegt. Und es ist überhaupt nicht offensichtlich, dass dies wahr ist.
Nachdem ich dies alles gründlich durcheinander gebracht hatte, entschloss ich mich, eine kleine Simulation für den linearen Regressionsfall durchzuführen. Ich simulierte 10.000 Datensätze mit = 50 und 3 unkorrelierten Prädiktoren, wobei ich den Generalisierungsfehler jedes Mal mit K- fachem CV mit K = 2, 5, 10 oder 50 = N schätzte . Der R-Code ist hier. Hier sind die resultierenden Mittelwerte und Abweichungen der CV-Schätzungen für alle 10.000 Datensätze (in MSE-Einheiten):
k = 2 k = 5 k = 10 k = n = 50
mean 1.187 1.108 1.094 1.087
variance 0.094 0.058 0.053 0.051
Diese Ergebnisse zeigen das erwartete Muster, dass höhere Werte von zu einer weniger pessimistischen Verzerrung führen, scheinen jedoch auch zu bestätigen, dass die Varianz der CV-Schätzungen im LOO-Fall am niedrigsten und nicht am höchsten ist.
Es scheint also, dass die lineare Regression einer der "stabilen" Fälle ist, die in den obigen Abhandlungen erwähnt wurden, in denen eine Zunahme von eher mit einer Abnahme als einer Zunahme der Varianz in den CV-Schätzungen verbunden ist. Was ich aber immer noch nicht verstehe, ist:
- Was genau ist dieser "Stabilitäts" -Zustand? Gilt dies in gewissem Maße für Modelle / Algorithmen, Datensätze oder beides?
- Gibt es eine intuitive Möglichkeit, über diese Stabilität nachzudenken?
- Was sind andere Beispiele für stabile und instabile Modelle / Algorithmen oder Datensätze?
- Ist es relativ sicher anzunehmen, dass die meisten Modelle / Algorithmen oder Datensätze "stabil" sind und daher generell so hoch gewählt werden sollte, wie es rechnerisch machbar ist?
quelle
Antworten:
Diese Antwort folgt meiner Antwort in Bezug auf die Verzerrung und die Varianz in Bezug auf die K-fache Kreuzvalidierung , in der erläutert wird, warum LOOCV nicht immer zu einer höheren Varianz führt. Nach einem ähnlichen Ansatz, werde ich versuchen , einen Fall zu markieren , wo LOOCV Blei hat zu einem höheren Varianz in Gegenwart von Ausreißern und ein „instabilen Modell“.
Algorithmische Stabilität (Lerntheorie)
Die algorithmische Stabilität ist ein aktuelles Thema, und in den letzten 20 Jahren wurden mehrere klassische, einflussreiche Ergebnisse nachgewiesen. Hier sind einige Artikel, die oft zitiert werden
Die beste Seite, um sich ein Bild zu machen, ist sicherlich die Wikipedia-Seite, die eine hervorragende Zusammenfassung enthält, die von einem vermutlich sehr sachkundigen Benutzer verfasst wurde.
Intuitive Definition von Stabilität
Formal gibt es ein halbes Dutzend Versionen von Stabilität, verbunden durch technische Bedingungen und Hierarchien finden Sie in dieser Grafik von hier zum Beispiel:
Das Ziel ist jedoch einfach: Wir möchten den Generalisierungsfehler eines bestimmten Lernalgorithmus genau einschränken, wenn der Algorithmus das Stabilitätskriterium erfüllt. Wie zu erwarten ist, ist die entsprechende Grenze umso enger, je restriktiver das Stabilitätskriterium ist.
Notation
Die folgende Notation stammt aus dem Wikipedia-Artikel, der das Bousquet- und Elisseef-Papier selbst kopiert:
Formale Definitionen
Die vielleicht stärkste Vorstellung von Stabilität, der ein interessanter Lernalgorithmus gehorchen könnte, ist die von einheitlicher Stabilität :
Stabilität der Hypothese
Der Vorteil dieser Stabilitätsformen besteht darin, dass sie Grenzen für die Abweichung und Varianz stabiler Algorithmen festlegen. Insbesondere hat Bousquet diese Grenzen für die Stabilität von Gleichförmigkeit und Hypothese im Jahr 2002 bewiesen. Seitdem wurde viel Arbeit geleistet, um die Stabilitätsbedingungen zu lockern und die Grenzen zu verallgemeinern, zum Beispiel argumentieren Kale, Kumar, Vassilvitskii im Jahr 2011, dass Quadratstabilität bedeutet Bessere Varianz Quantitative Varianzreduktionsgrenzen.
Einige Beispiele für stabile Algorithmen
Die folgenden Algorithmen haben sich als stabil erwiesen und haben Verallgemeinerungsgrenzen bewiesen:
Eine experimentelle Simulation
Wiederholen wir den Versuch aus dem vorherigen Thread ( siehe hier ), so fügen wir nun ein bestimmtes Verhältnis von Ausreißern in den Datensatz ein. Bestimmtes:
Durch Ausführen der Simulation wie zuvor und Auftragen des resultierenden durchschnittlichen MSE und der Varianz des MSE werden Ergebnisse erzielt, die Experiment 2 des Papiers von Bengio & Grandvalet 2004 sehr ähnlich sind .
Linke Seite : keine Ausreißer. Rechte Seite : 3% Ausreißer.
(Die Erklärung der letzten Abbildung finden Sie im verlinkten Artikel.)
Erklärungen
Zitiert Yves Grandvalets Antwort auf den anderen Thread:
In der Praxis ist es schwierig, einen Anstieg der Varianz aufgrund von LOOCV zu simulieren. Es erfordert eine bestimmte Kombination aus Instabilität, einigen Ausreißern, aber nicht zu vielen, und einer großen Anzahl von Iterationen. Möglicherweise wird dies erwartet, da sich gezeigt hat, dass die lineare Regression recht stabil ist. Ein interessantes Experiment wäre, dies für höherdimensionale Daten und einen instabileren Algorithmus (z. B. Entscheidungsbaum) zu wiederholen.
quelle
Ich werde meine Antwort im Zusammenhang mit dem von Ihnen zitierten Absatz geben:
Der CV-Schätzer des wahren (erwarteten) Vorhersagefehlers basiert auf einem Trainingssatzbeispiel, daher ist die Erwartung hier über den Trainingssatzbeispielen, wenn ich das richtig verstehe.
Also, was dieser Absatz über "hohe Varianz" sagt, ist, dass es einen "hohen" Unterschied zwischen dem erwarteten Fehler und dem durch CV geschätzten Fehler gibt (der hier der Durchschnitt über Falten ist).
Dies ist sinnvoll, weil das Modell für ein bestimmtes Trainingsset geeignet ist und weil alle Trainingsfalten innerhalb von Leave-One-Out so ähnlich sind. Während die Trainingsfalten innerhalb einer CV-Runde sehr ähnlich sind, unterscheidet sich die Schätzung wahrscheinlich um ein Vielfaches, wenn wir Trainingsmuster gegen CV tauschen. Da wir im k-fachen Lebenslauf die Trainingsfalten "diversifizieren", haben wir eine gewisse Auswirkung auf die Mittelung, und über die k-fachen variieren die Schätzungen dann weniger.
Mit anderen Worten, der Leave-One-Out-CV-Schätzer ähnelt im Grunde einer Holdout-Methode, bei der Sie keine Falze drehen und Ihre Fehlerschätzung auf einen Validierungssatz stützen. Bei Trainingsbeispielen gibt es wiederum eine hohe Varianz im Vergleich zu Schätzungen aus dem k-fachen, bei denen Sie den Durchschnitt über Falten bilden, indem Sie bereits etwas unterschiedliche Modelle innerhalb der k-fachen Runde trainieren (mit anderen Worten, wenn Sie Trainingssätze tauschen, werden die Schätzungen von Der Fehler über k-fach wird wahrscheinlich nicht so stark variieren.
BEARBEITEN:
Wenn ich hier einige Antworten auf Cross-Validated und das Internet im Allgemeinen lese, scheint es eine gewisse Verwirrung darüber zu geben, auf welchen Schätzer wir uns beziehen. Ich denke, einige Leute beziehen sich auf ein Modell mit einer hohen Varianz (wobei ML für den Verlust eine dominierende Varianzkomponente ist) gegenüber einer hohen Varianz des k-fachen CV-Schätzers. Ein anderer Satz von Antworten bezieht sich auf die Varianz als die Stichprobenvarianz in Bezug auf die Falten, wenn jemand sagt, dass "k-fach eine hohe Varianz hat". Daher schlage ich vor, genau zu sein, da die Antworten in beiden Fällen unterschiedlich sind.
quelle
Wir haben das schon einmal durchgemacht - Sie werden zu mathematisch in Bezug auf ein totes Pferd. Sehen Sie sich hier Ron Kohavis (Stanford-Univ) Klassiker über CV und das Bias-Varianz-Dilemma an . Wenn Sie mit dem Lesen fertig sind, möchten Sie LOOCV nicht mehr ausführen und werden wahrscheinlich vom 10-fachen CV und / oder Bootstrap-Bias-CV angezogen.
Sie müssen auch über große Datenmengen nachdenken, für die LOOCV viel zu rechenintensiv ist. Derzeit ist LOOCV in den Workflows / Pipelines der meisten Gruppen nicht wirklich eine Option.
LREG als Klassifikator würde funktionieren, wenn die Daten linear trennbar sind, aber im Durchschnitt wäre seine Verzerrung zu hoch, da viele Datensätze nicht linear trennbar sind.
Aus meiner Sicht nicht, da es keine allgemeine Stabilitätsregel gibt.
Dies ist offen und zu weit gefasst, da unendlich viele Antworten erfunden werden können, was nicht hilfreich wäre.
quelle