Basierend auf der geschätzten Klassifizierungsgenauigkeit möchte ich testen, ob ein Klassifizierer statistisch besser als ein anderer Klassifizierer ist. Für jeden Klassifikator wähle ich zufällig eine Trainings- und Teststichprobe aus dem Basissatz aus, trainiere das Modell und teste das Modell. Ich mache das zehnmal für jeden Klassifikator. Ich habe daher zehn Messungen der geschätzten Klassifikationsgenauigkeit für jeden Klassifikator. Wie teste ich statistisch, ob der ein besserer Klassifizierer als der im Basisdatensatz ist? Welcher T-Test ist geeignet?c l a s s i f i e r 2
machine-learning
classification
t-test
Entropie
quelle
quelle
Antworten:
Eine Übersicht und Kritik einiger t-Test-Ansätze finden Sie in der Auswahl zwischen zwei Lernalgorithmen basierend auf kalibrierten Tests , Näherungswerten für statistische Tests zum Vergleichen von Lernalgorithmen für überwachte Klassifizierungen und Vergleich von Klassifizierern: Zu vermeidende Fallstricke und ein empfohlener Ansatz
quelle
Ich habe das Fleiss-Buch nicht zur Hand, also ist das alles IIRC.
Beantwortung der Frage von @ JohnMoeller in den Kommentaren für den Moment: Die ursprüngliche Frage ist meiner Meinung nach unbeantwortbar.
Wenn Sie dies tun, erhalten Sie eine 2 x 2-Kontingenztabelle, die Klassifikator 1 richtig / falsch und Klassifikator 2 richtig / falsch angibt. Welches ist der Ausgangspunkt für McNemars Test . Dies ist also ein paarweiser Vergleich, der leistungsfähiger ist als der Vergleich von "unabhängigen" Proportionen (die nicht vollständig unabhängig sind, wenn sie zufällig aus derselben endlichen Stichprobe gezogen werden).
Ich kann McNemars "Kleingedrucktes" derzeit nicht nachschlagen, aber 30 Muster sind nicht viel. Möglicherweise müssen Sie sogar von McNemar zu Fisher's genauem Test [oder etwas anderem] wechseln, der die Binomialwahrscheinlichkeiten berechnet.
Proportionen:
Es spielt keine Rolle, ob Sie ein und denselben Klassifikator 10x mit 10 Testfällen oder einmal mit all diesen 100 Fällen testen (die 2 x 2-Tabelle zählt nur alle Testfälle).
Wenn die 10 Genauigkeitsschätzungen für jeden Klassifikator in der ursprünglichen Frage durch zufälliges Halten oder 10-fache Kreuzvalidierung oder 10x Out-of-Bootstrap erhalten werden, wird normalerweise davon ausgegangen, dass die 10 für jeden Klassifikator berechneten Ersatzmodelle äquivalent sind (= haben die gleiche Genauigkeit), so dass die Testergebnisse zusammengefasst werden können *. Bei einer 10-fachen Kreuzvalidierung wird davon ausgegangen, dass die Größe der Testprobe der Gesamtzahl der Testproben entspricht. Bei den anderen Methoden bin ich mir nicht so sicher: Sie können den gleichen Fall mehr als einmal testen. Je nach Daten / Problem / Anwendung sind dies nicht so viele Informationen wie das Testen eines neuen Falls.
quelle