Verständnis der geschichteten Kreuzvalidierung

54

Was ist der Unterschied zwischen geschichteter Kreuzvalidierung und Kreuzvalidierung ?

Wikipedia sagt:

Bei der geschichteten k-fach Kreuzvalidierung werden die Falten so ausgewählt, dass der mittlere Antwortwert in allen Falten ungefähr gleich ist. Bei einer dichotomen Klassifizierung bedeutet dies, dass jede Falte ungefähr die gleichen Anteile der beiden Arten von Klassenbezeichnungen enthält.

Aber ich bin immer noch verwirrt.

  1. Was mean response valueheißt in diesem Zusammenhang?
  2. Warum ist # 1 wichtig?
  3. Wie erreicht man die Nummer 1 in der Praxis?
Amelio Vazquez-Reina
quelle

Antworten:

43

Der Artikel zur gegenseitigen Validierung in der Encyclopedia of Database Systems lautet:

Bei der Schichtung werden die Daten neu geordnet, um sicherzustellen, dass jede Falte ein guter Repräsentant des Ganzen ist. Beispielsweise ist es bei einem Binärklassifizierungsproblem, bei dem jede Klasse 50% der Daten umfasst, am besten, die Daten so anzuordnen, dass jede Klasse in jeder Falte etwa die Hälfte der Instanzen umfasst.

In Bezug auf die Bedeutung der Schichtung kommt Kohavi (eine Studie zur Kreuzvalidierung und zum Bootstrap für die Genauigkeitsschätzung und Modellauswahl) zu dem Schluss, dass:

Die Schichtung ist im Vergleich zur regelmäßigen Kreuzvalidierung in Bezug auf Verzerrung und Varianz im Allgemeinen ein besseres Schema.

Baumann
quelle
5
Können Sie intuitiv beschreiben, warum es besser ist als ein regulärer Lebenslauf?
MohamedEzz
Fügen Sie möglicherweise einen Absatz hinzu, der unterschiedliche Schichtungsebenen enthält, auf die Sie abzielen können, und der die Zufälligkeit der Falten in unterschiedlichem Maße beeinträchtigt. Manchmal müssen Sie nur sicherstellen, dass in jeder Falte mindestens eine Aufzeichnung jeder Klasse vorhanden ist. Dann könnten Sie die Falten einfach zufällig erzeugen, prüfen, ob diese Bedingung erfüllt ist, und nur in dem unwahrscheinlichen Fall, dass sie nicht erfüllt sind, die Falten neu mischen.
David Ernst
37

Durch die Schichtung soll sichergestellt werden, dass jede Falte für alle Schichten der Daten repräsentativ ist. Im Allgemeinen erfolgt dies in einer überwachten Weise für die Klassifizierung und zielt darauf ab, sicherzustellen, dass jede Klasse (ungefähr) gleichmäßig über jede Testfalte verteilt ist (die natürlich auf ergänzende Weise kombiniert werden, um Trainingsfalten zu bilden).

Die Intuition dahinter bezieht sich auf die Verzerrung der meisten Klassifizierungsalgorithmen. Sie neigen dazu, jede Instanz gleich zu gewichten, was bedeutet, dass überrepräsentierte Klassen zu viel Gewicht erhalten (z. B. Optimierung des F-Maßes, der Genauigkeit oder einer komplementären Fehlerform). Die Schichtung ist nicht so wichtig für einen Algorithmus, der jede Klasse gleich gewichtet (z. B. Kappa, Informiertheit oder ROC AUC optimieren) oder nach einer Kostenmatrix (z. B. die jeder Klasse einen Wert gibt, der richtig gewichtet ist, und / oder Kosten für jede Art von Fehlklassifizierung). Siehe z. B. DMW Powers (2014), Was das F-Maß nicht misst: Merkmale, Fehler, Irrtümer und Fehlerbehebungen. http://arxiv.org/pdf/1503.06410

Ein spezielles Problem, das selbst bei unvoreingenommenen oder ausgewogenen Algorithmen von Bedeutung ist, besteht darin, dass sie in der Regel keine Klasse lernen oder testen können, die überhaupt nicht in einer Falte dargestellt wird, und darüber hinaus sogar in dem Fall, dass nur eine einer Klasse vorhanden ist dargestellt in einer Falte erlaubt keine Verallgemeinerung durchgeführt bzw. ausgewertet. Aber auch diese Überlegung ist nicht allgemeingültig und gilt beispielsweise nicht so sehr für das Lernen in einer Klasse, bei dem versucht wird, zu bestimmen, was für eine einzelne Klasse normal ist, und Ausreißer angesichts dieser gegenseitigen Validierung effektiv als eine andere Klasse identifiziert werden Es geht darum, Statistiken zu ermitteln, die keinen bestimmten Klassifikator generieren.

Andererseits beeinträchtigt die überwachte Schichtung die technische Reinheit der Bewertung, da die Etiketten der Testdaten keinen Einfluss auf das Training haben sollten, sondern in der Schichtung bei der Auswahl der Trainingsinstanzen verwendet werden. Eine unbeaufsichtigte Schichtung ist auch möglich, wenn ähnliche Daten verteilt werden und nur die Attribute der Daten betrachtet werden, nicht die wahre Klasse. Siehe z. B. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855, NA Diamantidis, D. Karlis, EA Giakoumakis (1997), Unüberwachte Schichtung der Kreuzvalidierung zur Genauigkeitsschätzung.

Die Schichtung kann auch eher auf die Regression als auf die Klassifikation angewendet werden. In diesem Fall wird wie bei der unbeaufsichtigten Schichtung eher die Ähnlichkeit als die Identität verwendet, aber in der überwachten Version wird der bekannte wahre Funktionswert verwendet.

Weitere Komplikationen sind seltene Klassen und Multilabel-Klassifikationen, bei denen Klassifikationen in mehreren (unabhängigen) Dimensionen durchgeführt werden. Hier können Tupel der wahren Bezeichnungen über alle Dimensionen hinweg als Klassen zum Zwecke der Kreuzvalidierung behandelt werden. Es müssen jedoch nicht alle Kombinationen vorkommen, und einige Kombinationen sind möglicherweise selten. Seltene Klassen und seltene Kombinationen sind ein Problem, da eine Klasse / Kombination, die mindestens einmal, aber weniger als K-mal (in K-CV) auftritt, nicht in allen Testfalten dargestellt werden kann. In solchen Fällen könnte man stattdessen eine Form von geschichtetem Boostrapping in Betracht ziehen (Stichprobe mit Ersatz, um eine Trainingsfalte in voller Größe mit erwarteten Wiederholungen und 36,8% ohne Auswahl zum Testen zu erzeugen, wobei eine Instanz jeder Klasse anfänglich ohne Ersatz für die Testfalte ausgewählt wurde). .

Ein weiterer Ansatz für die Mehrfachetiketten-Schichtung besteht darin, zu versuchen, jede Klassendimension einzeln zu schichten oder zu booten, ohne eine repräsentative Auswahl von Kombinationen zu gewährleisten. Mit L Labels und N Instanzen und Kkl Instanzen der Klasse k für Label l können wir zufällig (ohne Ersatz) aus der entsprechenden Menge von markierten Instanzen Dkl ungefähr N / LKkl Instanzen auswählen. Dies stellt kein optimales Gleichgewicht sicher, sondern sucht das Gleichgewicht heuristisch. Dies kann verbessert werden, indem die Auswahl von Labels mit oder über der Quote gesperrt wird, sofern keine Auswahl getroffen wird (da einige Kombinationen nicht vorkommen oder selten sind). Probleme können bedeuten, dass entweder zu wenig Daten vorhanden sind oder dass die Dimensionen nicht unabhängig voneinander sind.

David MW Powers
quelle
5

Der mittlere Antwortwert ist in allen Falten ungefähr gleich. Dies ist eine andere Möglichkeit zu sagen, dass der Anteil jeder Klasse in allen Falten ungefähr gleich ist.

Zum Beispiel haben wir einen Datensatz mit 80 Datensätzen der Klasse 0 und 20 Datensätzen der Klasse 1. Wir können einen mittleren Antwortwert von (80 * 0 + 20 * 1) / 100 = 0,2 erhalten, und wir möchten, dass 0,2 der mittlere Antwortwert aller Falten ist. Dies ist auch eine schnelle Methode in EDA, um zu messen, ob der angegebene Datensatz ungleichmäßig ist, anstatt zu zählen.

Lucy Lu
quelle