Meldevarianz der wiederholten k-fachen Kreuzvalidierung

17

Ich habe eine wiederholte k-fache Kreuzvalidierung verwendet und den Mittelwert (der Bewertungsmetrik, z. B. Sensitivität, Spezifität) angegeben, der als Gesamtmittelwert über die Falten verschiedener Läufe der Kreuzvalidierung berechnet wurde.

Ich bin mir jedoch nicht sicher, wie ich die Varianz melden soll. Ich habe hier viele Fragen zur wiederholten Kreuzvalidierung gefunden, aber keine, die mir bekannt ist, beantwortet die Frage der Varianz bei wiederholten Kreuzvalidierungstests explizit.

Ich verstehe, dass die Gesamtvarianz auf Folgendes zurückzuführen ist: 1) Instabilität des Modells und 2) begrenzte Stichprobengröße.

Es scheint 4 verschiedene Ansätze zu geben, um die Varianz für die wiederholte k-fache Kreuzvalidierung zu berechnen:

1) Die Varianz der geschätzten durchschnittlichen Leistungsmetrik (z. B. Genauigkeit) über Läufe der Kreuzvalidierung ist eine gültige Schätzung der Varianz.

2) die gepoolte Varianz, indem laufspezifische Varianzen gepoolt werden (die über verschiedene Falten eines Laufs eines Kreuzvalidierungstests berechnet werden).

3) Verketten der Klassifizierungsergebnisse aus verschiedenen Faltungen eines Kreuzvalidierungslaufs in einem großen Vektor. Wenn zum Beispiel die Anzahl der Testdaten in jeder Falte 10 ist und ich einen 10-fachen Lebenslauf habe, hat der resultierende Vektor für eine Wiederholung die Größe 100. Wenn ich nun meinen Kreuzvalidierungstest 10 Mal wiederhole, werde ich es tun haben 10 Vektoren der Größe 100, von denen jeder die Klassifikation enthält, die aus einem 10-fachen CV-Lauf resultiert. Jetzt würde ich den Mittelwert und die Varianz als den Fall eines Lebenslaufs mit einem Durchgang berechnen.

4) Ich habe auch gelesen (Gleichungen 2 und 3 in 1 ), dass die Varianz die Summe der externen Varianz und der erwarteten internen Varianz ist. Wenn ich richtig verstehe, ist die externe Varianz die Varianz der wiederholungsspezifischen Durchschnittsleistungen und die interne Varianz die Varianz über verschiedene Falten einer Kreuzvalidierungsreihe.

Ich würde mich sehr über Ihre Hilfe und Anleitung freuen, welche Varianz für den wiederholten Kreuzvalidierungstest geeignet wäre.

Vielen Dank,

Alein
quelle
Wie die Theorie "kein freies Mittagessen"; Sie können nicht mit Sicherheit sagen, dass eine der vier Methoden am besten geeignet ist, da anscheinend alle von Ihnen aufgelisteten Verfahren angemessen sind. Bei einer bestimmten Option würde ich jedoch Option 3 wählen. Es gehen mehr Daten und Informationen nicht verloren, wie dies bei anderen von Ihnen aufgeführten Verfahren der Fall ist.
Discipulus

Antworten:

2

1 und 3 erscheinen mir ungültig, da sie die Abhängigkeiten zwischen wiederholten Durchläufen nicht berücksichtigen. Mit anderen Worten, wiederholte k-fache Läufe sind einander ähnlicher als reale Wiederholungen des Experiments mit unabhängigen Daten.

2 berücksichtigt nicht die Abhängigkeiten zwischen Falzen innerhalb desselben Laufs.

Ich weiß nicht über 4.

Eine potenziell relevante (und entmutigende) Referenz ist Bengio & Grandvalet, 2004, "No Unbias Estimator of the Varianz of K-Fold Cross-Validation".

Trisoloriansunscreen
quelle