Was ist eine Kreuzvalidierungsfalte oder macht dieser Satz keinen Sinn?

9

Ich verstehe das Konzept der k-fachen Kreuzvalidierung , aber ich verstehe nicht, was eine "Falte" bedeutet. Zitat aus der verlinkten Seite auf Wikipedia:

Der Kreuzvalidierungsprozess wird dann k-mal wiederholt (die Falten)

Das scheint sehr vage zu sein. Bezieht sich die Falte auf jede Wiederholung des Prozesses? Oder ist es ein Substantiv, sich auf den gepaarten Datensatz für Trainingstests zu beziehen?

Alex
quelle
2
Ich bekenne , dass ich nicht einmal wissen , was Kreuzvalidierung ist, aber ist das nicht nur die üblichen englischsprachigen von „Bedeutung -fach“ „das heißt - mal“, wie in „Es gibt eine Vervierfachung der gewalttätig Kriminalität seit der Legalisierung von Handwaffen. " kk
David Richerby
das ist ein sehr guter Punkt. Wie Sie in der Antwort sehen können, können die Falten verwendet werden, um auf die Daten zu verweisen.
Alex
Ja, obwohl das sehr nach einem Missverständnis eines Nicht-Muttersprachlers klingt, das aufgefangen hat.
David Richerby

Antworten:

10

Der Wortlaut ist dort definitiv umständlich.

Denken Sie daran, dass die Kreuzvalidierung einen Datensatz in ungefähr gleich "Unterdatensätze" partitioniert . Jeder dieser "Unterdatensätze" wird als "Falz" bezeichnet. fache Kreuzvalidierung erfordert das erneute Anpassen eines Modells mal, wobei jedes Mal genau eine Falte aus den Daten weggelassen wird, sodass der Begriff "Falte" auch verwendet werden kann, um sich auf jede Wiederholung zu beziehen.KKK

Da es eine Eins-zu-Eins-Entsprechung zwischen Falten und Wiederholungen gibt, gibt es normalerweise kein Problem mit dieser laxen Terminologie. Aus dem Kontext ist normalerweise ersichtlich, welche Verwendung beabsichtigt ist, und manchmal macht es keinen Unterschied.

Shadowtalker
quelle
Richtig, diese Interpretation macht jeden der disjunkten Testsätze zu einer "Falte". Somit können die Trainingsdaten als "Daten nicht in der Falte" bezeichnet werden. Haben Sie eine Referenz dafür?
Alex
1
Und ja, "out-of-fold" ist ein gültiger Begriff
Shadowtalker
2
Die Modelle werden manchmal als Ersatzmodelle bezeichnet, z. B. Braga-Neto UM, Dougherty ER.: Ist die Kreuzvalidierung für die Microarray-Klassifizierung mit kleinen Stichproben gültig? Bioinformatik. 2004, 12. Februar; 20 (3): 374–80. dx.doi.org/10.1093/bioinformatics/btg419 . "Falten" wird oft im Unterschied zu einem "Lauf" (Iteration / Wiederholung) der Kreuzvalidierung verwendet (ein Lauf besteht dann aus Falten in der Bedeutung "Prozedur")kk
cbeleites unzufrieden mit SX
2
+1 aber "Daten nicht in der Falte" Phrase klingt sehr umständlich und extrem unklar @Alex. Benutze es nicht.
Amöbe
1
Ich benutze oft faul "falten", um jeden Teil des Datensatzes zu bezeichnen. Wie in "Falte 5 ist im Vergleich zu den restlichen Daten
unausgeglichen
3

"Falten" bezieht sich auf eine Aufteilung (in der Bedeutung des Wortes) der Stichprobe in einen Trainingssatz und einen Validierungssatz . Das heisst:STjVj

  1. TjVj= ,
  2. TjVj=S ,

( ).1jk

Beachten Sie, dass bei der "klassischen" fachen Kreuzvalidierung (CV) eine zusätzliche Bedingung an die Validierungssätze gestellt wird:k

  1. ViVj= ( ).ij

Schließlich ist zu beachten, dass das im klassischen fachen Lebenslauf sowohl die als auch die Größe der Validierungs- und Trainingssätze :daher.kk|Vj|1k|S||Tj|k1k|S|

Jim
quelle
0

Ich stimme dem OP zu, dass diese Terminologie umständlich und verwirrend ist. Hier ist meine Meinung dazu: Gut ausgebildete englische Muttersprachler sind an Begriffe wie "zweifach" oder "dreifach" gewöhnt, die nur ein bisschen antiquiert klingen, aber immer noch verwendbar sind. Kritisch gesehen sehen wir diese Wörter jedoch nicht so, dass sie das Substantiv "fold" enthalten. "fold" ist hier eher ein Suffix, eine lustige Spezialkonstruktion, die mit einer Zahl kombiniert wird, um eine farbenfrohe Variante von "double" oder "Triple" usw. zu erstellen. Es hat absolut nichts mit dem Verb "to fold" oder zu tun das Substantiv "Falte", das beim Origami auftreten und sich auf ein gefaltetes Stück Papier beziehen könnte.

Ich vermute, dass das Wort "fold" im Zusammenhang mit der k-fachen Kreuzvalidierung als Substantiv für "Partition" verwendet wurde, als ein Sprecher / Verfasser, der nicht so gut mit Englisch oder mit Kreuzvalidierung vertraut war, dies für "k-fach" wörtlich hielt bedeutete "k 'Falten' der Daten machen". Es ist ziemlich verständlich, dass jemand zu diesem Schluss kommen würde. Allerdings „k-fach“ bedeutet nicht „machen k‚Falten‘“ - stattdessen heißt es „ tun Kreuzvalidierung k mal “, wo das Detail des Müssens auch k Partitionen der Daten machen impliziert.

Persönlich benutze ich niemals "Fold" auf diese seltsame Weise; Ich nenne die fraglichen Datensegmente "Partitionen", und es ist viel klarer.

Nur weil sich diese Verwendung in der Community verbreitet hat, ist die Verwendung von Englisch IMO nicht sinnvoll. Ich ziehe eine einfache und klare Kommunikation der Erfindung und Verwendung verwirrender neuer Fachsprache vor.

eraoul
quelle