Wie wird die Verwirrungsmatrix aus der K-fachen Kreuzvalidierung gemeldet?

18

Angenommen, ich mache eine K-fache Kreuzvalidierung mit K = 10 Falten. Es wird eine Verwirrungsmatrix für jede Falte geben. Soll ich beim Berichten der Ergebnisse die durchschnittliche Verwirrungsmatrix berechnen oder nur die Verwirrungsmatrizen summieren?

der
quelle

Antworten:

11

Wenn Sie die Leistung eines Modells testen (dh keine Parameter optimieren), addieren Sie im Allgemeinen die Verwirrungsmatrizen. Stellen Sie sich das so vor: Sie haben Ihre Daten in 10 verschiedene Falz- oder Testgruppen aufgeteilt. Sie trainieren Ihr Modell an 9/10 der Falten und testen die erste Falte und erhalten eine Verwirrungsmatrix. Diese Verwirrungsmatrix repräsentiert die Klassifizierung von 1/10 der Daten. Sie wiederholen die Analyse erneut mit dem nächsten Testsatz und erhalten eine weitere Verwirrungsmatrix, die ein weiteres Zehntel der Daten darstellt. Durch Hinzufügen dieser neuen Verwirrungsmatrix zur ersten werden nun 20% Ihrer Daten dargestellt. Sie fahren fort, bis Sie alle Ihre Falten ausgeführt haben, alle Ihre Verwirrungsmatrizen summieren und die endgültige Verwirrungsmatrix die Leistung dieses Modells für alle Daten darstellt. Sie könnten die Verwirrungsmatrizen mitteln, aber das liefert keine zusätzlichen Informationen aus der kumulativen Matrix und kann voreingenommen sein, wenn Ihre Falten nicht alle gleich groß sind.

Hinweis - Dies setzt eine nicht wiederholte Erfassung Ihrer Daten voraus. Ich bin mir nicht ganz sicher, ob dies bei wiederholter Probenahme anders wäre. Wird aktualisiert, wenn ich etwas erfahre oder jemand eine Methode empfiehlt.

cdeterman
quelle
Danke, Determan. Was ist mit der Modellauswahl (dh Optimierung der Tuning-Parameter)?
John M
@JohnM dann schauen Sie sich jede Falte einzeln an, um einen Hinweis darauf zu erhalten, welche Parameter für das gesamte Modell am besten geeignet sind. Möglicherweise möchten Sie in verschachtelten Lebenslauf suchen, wenn Sie beide kombinieren möchten.
cdeterman