Ist die Hold-out-Validierung eine bessere Annäherung an das Abrufen neuer Daten als der k-fache Lebenslauf?

10

Ich habe eine Antwort überdacht , die ich vor ein paar Wochen auf eine Frage gegeben habe

Die Hold-out-Kreuzvalidierung erzeugt einen einzelnen Testsatz, der wiederholt zur Demonstration verwendet werden kann. Wir scheinen uns alle einig zu sein, dass dies in vielerlei Hinsicht ein negatives Merkmal ist, da sich herausstellen könnte, dass der eine durchgehaltene Satz durch Zufälligkeit nicht repräsentativ ist. Darüber hinaus können Sie sich auf die gleiche Weise an die Testdaten anpassen wie an die Trainingsdaten.

Es scheint mir jedoch, dass die statische Natur einer durchgehaltenen Stichprobe eine bessere Annäherung an das "Erhalten von mehr Daten" als der k-fache Lebenslauf darstellt und das Problem der Mittelwertbildung über Falten hinweg vermeidet. Ich kann jedoch keine statistische Grundlage für dieses Gefühl finden, das ich habe. Gibt es eine Logik in meiner Intuition?

Zum Beispiel denke ich für ein bevorstehendes Projekt daran, zuerst die Hold-Out-Validierung zum Erstellen und Testen eines Modells zu verwenden und dann als Validierungsschritt den Hold-Out-Satz mehrmals neu zu zeichnen, um zu zeigen, dass meine Schätzungen des Vorhersagefehlers ( auf dem Testsatz) sind robust gegenüber Stichprobenfehlern im Testsatz. Ist das aus irgendeinem Grund eine schlechte Idee? Diese Frage wurde schon einmal gestellt , aber nie beantwortet.

Shadowtalker
quelle

Antworten:

6

IMHO ist eine der schlechtesten Eigenschaften der Hold-out-Validierung eher psychologischer als statistischer Natur: Ich sehe viel Hold-out, das so interpretiert wird, als wäre es ein unabhängiges Validierungsexperiment (mit Unabhängigkeit bereits auf experimenteller Ebene), obwohl viele der Entscheidende Probleme, die ich bei der Resampling-Validierung sehe, können und werden genauso auch bei Hold-out auftreten (jedes Problem, das durch unsachgemäße Aufteilung entsteht).

Davon abgesehen ist es meiner Meinung nach fast dasselbe wie Resampling (zumindest so, wie ich es in der Praxis gesehen habe). Unterschiede sind

  • Die Gesamtzahl der tatsächlich verschiedenen getesteten Fälle ist geringer (und folglich ist die Schätzung weniger sicher).
  • Bei Hold-out wird die Leistung für das tatsächlich getestete Modell beansprucht, nicht für ein tatsächlich nicht getestetes Modell, das aus dem Hold-out-Traing und den Hold-out-Testdaten erstellt wurde. Resampling behauptet, dass die gemessene Leistung eine gute Annäherung an die Leistung des letzteren Modells ist. Ich habe aber auch den so verwendeten Hold-out-Ansatz gesehen ("Set Validation").

Esbensen und Geladi: Grundsätze der ordnungsgemäßen Validierung: Verwendung und Missbrauch der erneuten Probenahme zur Validierung, Journal of Chemometrics, 24 (3-4), 168-187, argumentiert, dass beide in der Praxis keine sehr guten Näherungswerte für Datensätze sind (Validierung) Experimente), mit denen die wirklich interessanten Leistungsmerkmale gemessen werden können.

Sie könnten sich auf die gleiche Weise an die Testdaten anpassen wie an die Trainingsdaten.

Wie bei jeder anderen Validierung: Wenn Sie eine datengesteuerte Modellierung / Modellauswahl durchführen, ist eine andere unabhängige Validierungsstufe erforderlich. Ich sehe hier keinen Unterschied zwischen Hold-out- und Resampling-Schemata.

Verwenden Sie zuerst die Hold-Out-Validierung, um ein Modell zu erstellen und zu testen, und zeichnen Sie dann als Validierungsschritt den Hold-Out-Satz mehrmals neu, um zu zeigen, dass meine Schätzungen des Vorhersagefehlers (auf dem Test-Set) gegenüber Stichprobenfehlern im Test robust sind einstellen. Ist das aus irgendeinem Grund eine schlechte Idee?

Ich denke schon, ja: IMHO sollte ein verschachteltes Setup verwendet werden
(es sei denn, Sie möchten vorschlagen, dass die Hold-Out-Validierung ebenfalls wiederholt werden könnte und sollte - dies ist ein gültiger Ansatz, der sich von der iterierten / wiederholten Set-Validierung nur durch Interpretation unterscheidet : ob es sich bei der Leistungsangabe um die vielen tatsächlich getesteten Modelle handelt oder ob sie auf das eine Modell extrapoliert wird, das aus allen Daten besteht).

cbeleites unzufrieden mit SX
quelle