Mir wurde gesagt, dass es von Vorteil ist, eine geschichtete Kreuzvalidierung zu verwenden, insbesondere wenn die Antwortklassen nicht ausgeglichen sind. Wenn ein Zweck der Kreuzvalidierung darin besteht, die Zufälligkeit unserer ursprünglichen Trainingsdatenstichprobe zu berücksichtigen, würde es sicher dagegen wirken, wenn Sie für jede Falte die gleiche Klassenverteilung festlegen, es sei denn, Sie waren sicher, dass Ihr ursprünglicher Trainingssatz eine repräsentative Klassenverteilung aufweist.
Ist meine Logik fehlerhaft?
BEARBEITEN Mich interessiert, ob diese Methode das Gut des Lebenslaufs schädigt. Ich kann verstehen, warum es notwendig ist, wenn Sie eine kleine Stichprobe / sehr unausgeglichene Klassen / beides haben, um zu vermeiden, dass kein einziger Vertreter der Nebenklasse in einer Falte ist.
In der Arbeit Äpfel-zu-Äpfel in Kreuzvalidierungsstudien: Fallstricke bei der Leistungsmessung von Klassifikatoren wird die Argumentation für eine gute Schichtung dargelegt, aber alle Argumente scheinen zu lauten: "Schichtung bietet Sicherheit und mehr Konsistenz", aber es wäre keine Schutzmaßnahme erforderlich, wenn dies ausreicht Daten.
Ist die Antwort einfach "Wir verwenden es aus Notwendigkeit, da wir selten genug Daten haben." ?
quelle
Vielleicht können Sie sich das so vorstellen. Angenommen, Sie haben einen Datensatz mit 100 Stichproben, 90 in Klasse 'A' und 10 in Klasse 'B'. In diesem sehr unausgeglichenen Design können Sie, wenn Sie normale zufällige Gruppen bilden, auf sehr wenigen (oder NIEMALS NIEMALS!) Modellen der Klasse 'B' aufbauen. Wenn Sie ein Modell erstellen, das auf Daten trainiert wird, bei denen es so wenige oder gar keine Daten der anderen Klasse gibt, wie können Sie dann davon ausgehen, dass es die seltenere Gruppe effektiv vorhersagt? Die geschichtete Kreuzvalidierung ermöglicht eine Randomisierung, stellt jedoch auch sicher, dass diese unausgeglichenen Datensätze einige beider Klassen aufweisen.
Schauen wir uns ein Beispiel mit R-Code an, um Bedenken hinsichtlich der Verwendung eines geschichteten Lebenslaufs mit ausgewogeneren Datenmengen zu zerstreuen.
Wie Sie sehen können, haben in einem Datensatz, der gut ausbalanciert ist, die Falten zufällig eine ähnliche Verteilung. Ein geschichteter Lebenslauf ist daher unter diesen Umständen lediglich eine Gewährleistungsmaßnahme. Um die Varianz anzugehen, müssten Sie jedoch die Verteilungen jeder Falte betrachten. Unter bestimmten Umständen (sogar ab 50-50) können Sie Foldings mit zufälligen Teilungen von 30-70 haben (Sie können den obigen Code ausführen und sehen, dass dies tatsächlich passiert!). Dies könnte zu einem schlechteren Modell führen, da es nicht genug von einer Klasse hatte, um es genau vorherzusagen, wodurch die Gesamt-CV-Varianz erhöht wird. Dies ist offensichtlich wichtiger, wenn Sie über "begrenzte" Stichproben verfügen, bei denen Sie mit größerer Wahrscheinlichkeit extreme Unterschiede in der Verteilung haben.
Bei sehr großen Datenmengen ist eine Schichtung möglicherweise nicht erforderlich, da die Falten groß genug sind, um wahrscheinlich immer noch mindestens einen guten Anteil der „selteneren“ Klasse zu enthalten. Es gibt jedoch wirklich keinen Rechenverlust und keinen wirklichen Grund, auf eine Schichtung zu verzichten, wenn Ihre Stichproben unausgewogen sind, egal wie viele Daten Sie meiner Meinung nach haben.
quelle
stratifcation is generally a better scheme, both in terms of bias and variance, when compared to regular cross-validation
. Es gibt kein perfektes Stichprobenverfahren, aber bei unausgeglichenen Entwürfen ist eine Schichtung ein guter Ansatz.