Ich möchte die Genauigkeit von zwei Klassifikatoren für die statistische Signifikanz vergleichen. Beide Klassifikatoren werden mit demselben Datensatz ausgeführt. Dies lässt mich glauben, dass ich einen T-Test mit einer Stichprobe von dem verwenden sollte, was ich gelesen habe .
Beispielsweise:
Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000
Ist das der richtige Test? Wenn ja, wie berechne ich, ob der Unterschied in der Genauigkeit zwischen den Klassifikatoren signifikant ist?
Oder sollte ich einen anderen Test verwenden?
Ich kann Ihnen sagen, dass der Unterschied statistisch hoch signifikant sein wird, ohne überhaupt irgendetwas laufen zu lassen. Es besteht den IOTT (interokularer Traumatest - es trifft Sie zwischen den Augen).
Wenn Sie jedoch einen Test durchführen möchten, können Sie ihn als Test mit zwei Anteilen durchführen - dies kann mit einem T-Test mit zwei Stichproben erfolgen.
Möglicherweise möchten Sie "Genauigkeit" jedoch in seine Komponenten zerlegen. Sensitivität und Spezifität oder falsch-positiv und falsch-negativ. In vielen Anwendungen sind die Kosten für die verschiedenen Fehler sehr unterschiedlich.
quelle
Da die Genauigkeit in diesem Fall der Anteil der korrekt klassifizierten Proben ist, können wir den Hypothesentest für ein System mit zwei Anteilen anwenden.
Die Teststatistik ist gegeben durch
Der Zurückweisungsbereich ist gegeben durch
Verweise:
quelle