Beeinflusst die Implementierung der Kreuzvalidierung die Ergebnisse?

9

Wie Sie wissen, gibt es zwei beliebte Arten der Kreuzvalidierung: K-fach und zufällige Unterabtastung (wie in Wikipedia beschrieben ). Trotzdem weiß ich, dass einige Forscher Artikel erstellen und veröffentlichen, in denen etwas, das als K-facher Lebenslauf bezeichnet wird, tatsächlich eine zufällige Unterabtastung ist. In der Praxis wissen Sie also nie, was wirklich in dem Artikel steht, den Sie lesen.
Normalerweise ist der Unterschied natürlich nicht wahrnehmbar, und so lautet meine Frage: Können Sie sich ein Beispiel vorstellen, bei dem sich das Ergebnis eines Typs erheblich von einem anderen unterscheidet?


quelle

Antworten:

4

Sie können sicherlich unterschiedliche Ergebnisse erzielen, einfach weil Sie an verschiedenen Beispielen trainieren. Ich bezweifle sehr, dass es einen Algorithmus oder eine Problemdomäne gibt, in der sich die Ergebnisse der beiden auf vorhersehbare Weise unterscheiden würden.

bmargulies
quelle
Ich meinte deutlich unterschiedliche Ergebnisse. Ich denke auch, dass es keine gibt, zumindest kein Beispiel aus der Praxis. Trotzdem denke ich, ich werde noch einige Zeit warten.
3

Normalerweise ist der Unterschied natürlich nicht wahrnehmbar, und so lautet meine Frage: Können Sie sich ein Beispiel vorstellen, bei dem sich das Ergebnis eines Typs erheblich von einem anderen unterscheidet?

Ich bin mir nicht sicher, ob der Unterschied unbemerkt bleibt und dass er nur im Ad-hoc-Beispiel spürbar sein wird. Sowohl die Kreuzvalidierungs- als auch die Bootstrapping-Methode (Sub-Sampling) hängen entscheidend von ihren Entwurfsparametern ab, und dieses Verständnis ist noch nicht vollständig. Im Allgemeinen hängen die Ergebnisse innerhalb der k-fachen Kreuzvalidierung entscheidend von der Anzahl der Faltungen ab, sodass Sie immer andere Ergebnisse erwarten können als bei der Teilstichprobe.

Ein typisches Beispiel: Angenommen, Sie haben ein echtes lineares Modell mit einer festen Anzahl von Parametern. Wenn Sie die k-fache Kreuzvalidierung (mit einem gegebenen, festen k) verwenden und die Anzahl der Beobachtungen auf unendlich gehen lassen, ist die k-fache Kreuzvalidierung für die Modellauswahl asymptotisch inkonsistent, dh es wird ein falsches Modell mit identifiziert Wahrscheinlichkeit größer als 0. Dieses überraschende Ergebnis ist Jun Shao, "Lineare Modellauswahl durch Kreuzvalidierung", Journal of American Statistical Association , 88 , 486-494 (1993), zu verdanken. Weitere Artikel finden sich jedoch in diesem Sinne.

Im Allgemeinen spezifizieren seriöse statistische Dokumente das Kreuzvalidierungsprotokoll, genau weil die Ergebnisse nicht unveränderlich sind. In dem Fall, in dem sie eine große Anzahl von Falten für große Datensätze auswählen, bemerken sie und versuchen, Verzerrungen bei der Modellauswahl zu korrigieren.

gappy
quelle
Nein, nein, nein, es geht um maschinelles Lernen, nicht um Modellauswahl.
1
Interessante Unterscheidung. Ich dachte, die Modellauswahl sei für das maschinelle Lernen in fast allen Bedeutungen des Begriffs von zentraler Bedeutung.
Gappy
All diese Dinge funktionieren für triviale (meist lineare) Modelle, wenn Sie nur wenige Parameter haben und sie nur an Daten anpassen möchten, um etwas darüber zu sagen, wie z. B. y und x, und Sie möchten überprüfen, ob y = x ^ 2 oder y ist = x. Hier spreche ich über die Fehlerabschätzung von Modellen wie SVMs oder RFs, die Tausende von Parametern haben können und aufgrund komplexer Heuristiken immer noch nicht überanpassen.
Diese Ergebnisse gelten für die Regression allgemeiner linearer Modelle mit einer beliebigen Anzahl unabhängiger Variablen. Die Variablen können beliebige Lernende sein. Die entscheidende Annahme ist, dass die Anzahl der Lernenden, die das wahre Modell beschreiben, begrenzt bleibt, wenn die Anzahl der Beobachtungen unendlich wird. All dies funktioniert für die Regression, daher bin ich mir bei einer Klassifizierungsaufgabe wie Ihrer nicht sicher, ob es hilft.
Gappy
Es tut nicht; GLM ist kein maschinelles Lernen. Echte Methoden des maschinellen Lernens sind klug genug, um ihre Komplexität unabhängig von einer wachsenden Anzahl von Objekten zu halten (wenn dies natürlich ausreicht). Selbst für lineare Modelle funktioniert diese ganze Theorie ziemlich schlecht, da die Konvergenz schlecht ist.