Es gibt viele Situationen, in denen Sie möglicherweise mehrere verschiedene Klassifizierer trainieren oder verschiedene Methoden zum Extrahieren von Features verwenden. In der Literatur geben Autoren häufig den mittleren Klassifizierungsfehler über eine Reihe von zufälligen Teilungen der Daten an (dh nach einer doppelt verschachtelten Kreuzvalidierung) und geben manchmal auch Abweichungen über den Fehler über die Teilungen an. Dies allein reicht jedoch nicht aus, um zu sagen, dass ein Klassifikator signifikant besser ist als ein anderer. Ich habe viele verschiedene Ansätze gesehen - mit Chi-Quadrat-Tests, T-Tests, ANOVA mit Post-Hoc-Tests usw.
Mit welcher Methode sollte die statistische Signifikanz bestimmt werden? Dieser Frage liegt folgende Frage zugrunde: Welche Annahmen sollten wir hinsichtlich der Verteilung der Klassifizierungswerte treffen?
Antworten:
Lassen Sie mich zur hervorragenden Antwort von @ jb. Hinzufügen, dass Sie den McNemar- Test für denselben Testsatz verwenden können, um festzustellen, ob ein Klassifikator signifikant besser als der andere ist. Dies funktioniert nur bei Klassifizierungsproblemen (was McNemars ursprüngliche Arbeit als "dichotome Eigenschaft" bezeichnet), was bedeutet, dass die Klassifizierer entweder richtig oder falsch verstehen, kein Leerzeichen in der Mitte.
quelle
Da es sich bei der Verteilung von Klassifizierungsfehlern um eine Binärverteilung handelt (entweder gibt es eine Fehlklassifizierung oder es gibt keine), würde ich sagen, dass die Verwendung von Chi-Quadrat nicht sinnvoll ist.
Es ist auch nur sinnvoll, die Effizienz von Klassifizierern zu vergleichen, die mit denselben Datensätzen arbeiten. Der Satz „Kein freies Mittagessen“ besagt, dass alle Modelle über alle Datensätze die gleiche durchschnittliche Effizienz aufweisen. Welches Modell also besser aussieht, hängt nur von den jeweiligen Datensätzen ab gewählt, um sie zu trainieren http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization .
Wenn Sie die Effizienz der Modelle A und B mit dem Datensatz D vergleichen, reicht meiner Meinung nach die durchschnittliche Effizienz + der Mittelwert aus, um eine Auswahl zu treffen.
Wenn man viele Modelle hat, die eine vernünftige Effizienz haben (und linear unabhängig voneinander sind), würde ich lieber ein Ensemblemodell bauen, als einfach das beste Modell zu wählen.
quelle
Ich empfehle das Paper von Tom Dietterich mit dem Titel "Approximate Statistical Tests for Compared Supervised Classification Learning Algorithms". Hier ist das Profil der Zeitung auf CiteSeer: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 . Aus dem Abstract: "Dieser Aufsatz gibt einen Überblick über fünf ungefähre statistische Tests zur Bestimmung, ob ein Lernalgorithmus bei einer bestimmten Lernaufgabe einen anderen übertrifft. Diese Tests werden experimentell verglichen, um ihre Wahrscheinlichkeit zu bestimmen, einen Unterschied falsch zu erfassen, wenn kein Unterschied vorliegt (Fehler vom Typ I) ). ... McNemars Test hat nachweislich einen niedrigen Typ-I-Fehler. ... "
quelle
IMHO sollte es keinen Unterschied zwischen der Verteilung von Punktzahlen und der Verteilung anderer Datentypen geben. so dass im Grunde alles , was Sie zu überprüfen, ob Ihre Daten normal verteilt sind oder nicht sehen hier . Darüber hinaus gibt es große Bücher , die gründlich mit dieser Frage befassen sehen hier (dh kurz: sie alle testen , ob das Ergebnis von zwei Sichter signifikant verschieden ist .. und wenn sie es tun, können sie in einem kombiniert werden - Ensemble - Modell)
quelle
Es gibt keinen einzigen Test, der für alle Situationen geeignet ist. Ich kann das Buch "Evaluating Learning Algorithms" von Nathalie Japkowicz und Mohak Shah, Cambridge University Press, 2011 empfehlen. Die Tatsache, dass ein Buch mit fast 400 Seiten zu diesem Thema verfasst werden kann, legt nahe, dass es kein einfaches Thema ist. Ich habe oft festgestellt, dass es keinen Test gibt, der wirklich den Anforderungen meines Studiums entspricht. Daher ist es wichtig, die Vor- und Nachteile der letztendlich verwendeten Methode zu verstehen.
Ein häufiges Problem besteht darin, dass für große Datensätze ein statistisch signifikanter Unterschied mit einer Effektgröße erzielt werden kann, die keine praktische Bedeutung hat.
quelle