Ich verstehe das Konzept der k-fachen Kreuzvalidierung , aber ich verstehe nicht, was eine "Falte" bedeutet. Zitat aus der verlinkten Seite auf Wikipedia:
Der Kreuzvalidierungsprozess wird dann k-mal wiederholt (die Falten)
Das scheint sehr vage zu sein. Bezieht sich die Falte auf jede Wiederholung des Prozesses? Oder ist es ein Substantiv, sich auf den gepaarten Datensatz für Trainingstests zu beziehen?
Antworten:
Der Wortlaut ist dort definitiv umständlich.
Denken Sie daran, dass die Kreuzvalidierung einen Datensatz in ungefähr gleich "Unterdatensätze" partitioniert . Jeder dieser "Unterdatensätze" wird als "Falz" bezeichnet. fache Kreuzvalidierung erfordert das erneute Anpassen eines Modells mal, wobei jedes Mal genau eine Falte aus den Daten weggelassen wird, sodass der Begriff "Falte" auch verwendet werden kann, um sich auf jede Wiederholung zu beziehen.K K K
Da es eine Eins-zu-Eins-Entsprechung zwischen Falten und Wiederholungen gibt, gibt es normalerweise kein Problem mit dieser laxen Terminologie. Aus dem Kontext ist normalerweise ersichtlich, welche Verwendung beabsichtigt ist, und manchmal macht es keinen Unterschied.
quelle
"Falten" bezieht sich auf eine Aufteilung (in der Bedeutung des Wortes) der Stichprobe in einen Trainingssatz und einen Validierungssatz . Das heisst:S Tj Vj
( ).1≤j≤k
Beachten Sie, dass bei der "klassischen" fachen Kreuzvalidierung (CV) eine zusätzliche Bedingung an die Validierungssätze gestellt wird:k
Schließlich ist zu beachten, dass das im klassischen fachen Lebenslauf sowohl die als auch die Größe der Validierungs- und Trainingssätze :daher.k k |Vj|≊1k|S| |Tj|≊k−1k|S|
quelle
Ich stimme dem OP zu, dass diese Terminologie umständlich und verwirrend ist. Hier ist meine Meinung dazu: Gut ausgebildete englische Muttersprachler sind an Begriffe wie "zweifach" oder "dreifach" gewöhnt, die nur ein bisschen antiquiert klingen, aber immer noch verwendbar sind. Kritisch gesehen sehen wir diese Wörter jedoch nicht so, dass sie das Substantiv "fold" enthalten. "fold" ist hier eher ein Suffix, eine lustige Spezialkonstruktion, die mit einer Zahl kombiniert wird, um eine farbenfrohe Variante von "double" oder "Triple" usw. zu erstellen. Es hat absolut nichts mit dem Verb "to fold" oder zu tun das Substantiv "Falte", das beim Origami auftreten und sich auf ein gefaltetes Stück Papier beziehen könnte.
Ich vermute, dass das Wort "fold" im Zusammenhang mit der k-fachen Kreuzvalidierung als Substantiv für "Partition" verwendet wurde, als ein Sprecher / Verfasser, der nicht so gut mit Englisch oder mit Kreuzvalidierung vertraut war, dies für "k-fach" wörtlich hielt bedeutete "k 'Falten' der Daten machen". Es ist ziemlich verständlich, dass jemand zu diesem Schluss kommen würde. Allerdings „k-fach“ bedeutet nicht „machen k‚Falten‘“ - stattdessen heißt es „ tun Kreuzvalidierung k mal “, wo das Detail des Müssens auch k Partitionen der Daten machen impliziert.
Persönlich benutze ich niemals "Fold" auf diese seltsame Weise; Ich nenne die fraglichen Datensegmente "Partitionen", und es ist viel klarer.
Nur weil sich diese Verwendung in der Community verbreitet hat, ist die Verwendung von Englisch IMO nicht sinnvoll. Ich ziehe eine einfache und klare Kommunikation der Erfindung und Verwendung verwirrender neuer Fachsprache vor.
quelle