Wie Sie wissen, gibt es zwei beliebte Arten der Kreuzvalidierung: K-fach und zufällige Unterabtastung (wie in Wikipedia beschrieben ). Trotzdem weiß ich, dass einige Forscher Artikel erstellen und veröffentlichen, in denen etwas, das als K-facher Lebenslauf bezeichnet wird, tatsächlich eine zufällige Unterabtastung ist. In der Praxis wissen Sie also nie, was wirklich in dem Artikel steht, den Sie lesen.
Normalerweise ist der Unterschied natürlich nicht wahrnehmbar, und so lautet meine Frage: Können Sie sich ein Beispiel vorstellen, bei dem sich das Ergebnis eines Typs erheblich von einem anderen unterscheidet?
9
Ich bin mir nicht sicher, ob der Unterschied unbemerkt bleibt und dass er nur im Ad-hoc-Beispiel spürbar sein wird. Sowohl die Kreuzvalidierungs- als auch die Bootstrapping-Methode (Sub-Sampling) hängen entscheidend von ihren Entwurfsparametern ab, und dieses Verständnis ist noch nicht vollständig. Im Allgemeinen hängen die Ergebnisse innerhalb der k-fachen Kreuzvalidierung entscheidend von der Anzahl der Faltungen ab, sodass Sie immer andere Ergebnisse erwarten können als bei der Teilstichprobe.
Ein typisches Beispiel: Angenommen, Sie haben ein echtes lineares Modell mit einer festen Anzahl von Parametern. Wenn Sie die k-fache Kreuzvalidierung (mit einem gegebenen, festen k) verwenden und die Anzahl der Beobachtungen auf unendlich gehen lassen, ist die k-fache Kreuzvalidierung für die Modellauswahl asymptotisch inkonsistent, dh es wird ein falsches Modell mit identifiziert Wahrscheinlichkeit größer als 0. Dieses überraschende Ergebnis ist Jun Shao, "Lineare Modellauswahl durch Kreuzvalidierung", Journal of American Statistical Association , 88 , 486-494 (1993), zu verdanken. Weitere Artikel finden sich jedoch in diesem Sinne.
Im Allgemeinen spezifizieren seriöse statistische Dokumente das Kreuzvalidierungsprotokoll, genau weil die Ergebnisse nicht unveränderlich sind. In dem Fall, in dem sie eine große Anzahl von Falten für große Datensätze auswählen, bemerken sie und versuchen, Verzerrungen bei der Modellauswahl zu korrigieren.
quelle