Der Vergleich von zwei Klassifikatorgenauigkeitsergebnissen für die statistische Signifikanz mit dem t-Test

Ich möchte die Genauigkeit von zwei Klassifikatoren für die statistische Signifikanz vergleichen. Beide Klassifikatoren werden mit demselben Datensatz ausgeführt. Dies lässt mich glauben, dass ich einen T-Test mit einer Stichprobe von dem verwenden sollte, was ich gelesen habe .

Beispielsweise:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

Ist das der richtige Test? Wenn ja, wie berechne ich, ob der Unterschied in der Genauigkeit zwischen den Klassifikatoren signifikant ist?

Oder sollte ich einen anderen Test verwenden?

machine-learning statistical-significance classification t-test Chris
quelle

Antworten:

Ich würde mich wahrscheinlich für McNemars Test entscheiden, wenn Sie die Klassifikatoren nur einmal trainieren würden. David Barber schlägt auch einen ziemlich ordentlichen Bayes-Test vor , der mir ziemlich elegant erscheint, aber nicht weit verbreitet ist (er wird auch in seinem Buch erwähnt ).

Um nur hinzuzufügen, wie Peter Flom sagt, lautet die Antwort mit ziemlicher Sicherheit "Ja", wenn man sich nur den Unterschied in der Leistung und der Größe der Stichprobe ansieht (ich nehme die angegebenen Zahlen als Testsatzleistung und nicht als Trainingssatzleistung).

Übrigens haben Japkowicz und Shah kürzlich ein Buch zum Thema "Evaluierung von Lernalgorithmen : Eine Klassifizierungsperspektive" herausgebracht . Ich habe es nicht gelesen, aber es scheint eine nützliche Referenz für diese Art von Fragen zu sein.

Dikran Beuteltier
quelle

Ich führe eine 10-fache Kreuzvalidierung durch, um diese Ergebnisse zu erhalten. Bedeutet das, dass es sich tatsächlich um unterschiedliche Datensätze handelt? Das ist die Gesamtgröße, die für Test / Zug in Kreuzvalidierung aufgeteilt wird

Chris

Die Genauigkeiten für jede Falte sind nicht unabhängig, was gegen die Annahmen der meisten statistischen Tests verstößt, aber wahrscheinlich kein großes Problem darstellt. Ich benutze oft 100 zufällige Trainings- / Test-Splits und benutze dann den Wilcoxon Paired Signed Rank Test (benutze die gleichen zufälligen Splits für beide Klassifikatoren). Ich bevorzuge diese Art von Test, da ich häufig kleine Datensätze verwende (da ich an einer Überanpassung interessiert bin), sodass die Variabilität zwischen zufälligen Teilungen in der Regel mit dem Leistungsunterschied zwischen Klassifikatoren vergleichbar ist.

Dikran Beuteltier

(+1) für Wilcoxon Paired Signed Rank Test (und den Link zum Buch ... wenn der TOC seine Versprechen erfüllen kann, kann dieses Buch ein Muss für alle MLs werden: O)

Steffen

Ich habe auch vorzeichenbehaftete Rang-Tests sowie gepaarte T-Tests zum Vergleichen von Klassifikatoren verwendet. Jedes Mal, wenn ich mit einem einseitigen Test zu diesem Zweck berichte, habe ich Schwierigkeiten mit den Überprüfern. Daher habe ich auf zweiseitige Tests zurückgegriffen!

BGreene

Würden Sie angesichts der Tatsache, dass das OP in den Kommentaren klargestellt hat, dass es sich bei der Frage tatsächlich um eine gegenseitige Validierung handelt, möglicherweise erwägen, Ihre Antwort auf dieses Thema zu erweitern? Wir können das Q dann bearbeiten. Dies ist ein wichtiges Thema, und es gibt einige sehr verwandte (oder sogar doppelte) Fragen, aber keine hat eine gute Antwort. In einem Kommentar oben empfehlen Sie die Verwendung eines gepaarten Tests für die CV-Schätzungen und sagen, dass Sie nicht der Meinung sind, dass die Nichtunabhängigkeit hier ein großes Problem darstellt. Warum nicht? Es klingt für mich nach einem potenziell massiven Problem!

Amöbe sagt Reinstate Monica

Ich kann Ihnen sagen, dass der Unterschied statistisch hoch signifikant sein wird, ohne überhaupt irgendetwas laufen zu lassen. Es besteht den IOTT (interokularer Traumatest - es trifft Sie zwischen den Augen).

Wenn Sie jedoch einen Test durchführen möchten, können Sie ihn als Test mit zwei Anteilen durchführen - dies kann mit einem T-Test mit zwei Stichproben erfolgen.

Möglicherweise möchten Sie "Genauigkeit" jedoch in seine Komponenten zerlegen. Sensitivität und Spezifität oder falsch-positiv und falsch-negativ. In vielen Anwendungen sind die Kosten für die verschiedenen Fehler sehr unterschiedlich.

Peter Flom - Wiedereinsetzung von Monica
quelle

z

$z$

n

$n$

t

$t$

z

$z$

Der Genauigkeitsprozentsatz, den ich in meiner Frage angegeben habe, ist nur ein Beispiel.

Chris

Da die Genauigkeit in diesem Fall der Anteil der korrekt klassifizierten Proben ist, können wir den Hypothesentest für ein System mit zwei Anteilen anwenden.

$\hat p_1$ $\hat p_2$ $n$ $x_1$ $x_2$

$\hat p_1 = x_1/n,\quad \hat p_2 = x_2/n$

Die Teststatistik ist gegeben durch

$\displaystyle Z = \frac{\hat p_1 - \hat p_2}{\sqrt{2\hat p(1 -\hat p)/n}}\qquad$ wo $\quad\hat p= (x_1+x_2)/2n$

$p_2$ $p_1$

$H_0: p_1 = p_2\quad$ (Nullhypothese besagt, dass beide gleich sind)
$H_a: p_1 < p_2\quad$ (Alternative Hypotyese, die besagt, dass die neuere besser ist als die existierende)

Der Zurückweisungsbereich ist gegeben durch

$Z < -z_\alpha \quad$ $H_0$ $H_a$

$z_\alpha$ $\alpha$ $z_{0.5} = 1.645$ $Z < -1.645$ $1-\alpha$

Verweise:

R. Johnson und J. Freund, Miller und Freund's Probability and Statistics for Engineers, 8. Aufl. Prentice Hall International, 2011. (Primärquelle)
Test der hypothesengenauen Formelzusammenfassung . (Übernommen aus [1])

Ébe Isaac
quelle

Sollte nicht

\hat{p}

$\quad\hat p$

{\hat{p}}_{1}

$\hat p_1$

{\hat{p}}_{2}

$\hat p_2$

\hat{p} = (x_{1} + x_{2}) / 2 n

$\quad\hat p= (x_1+x_2)/2n$

Ich stimme zwar zu, dass ein Proportionalitätstest verwendet werden könnte, aber in der ursprünglichen Frage gibt es nichts, was darauf hindeutet, dass ein einseitiger Test angemessen ist. Darüber hinaus ist "wir könnten mit 95% Selbstvertrauen sagen" eine häufige Fehlinterpretation. Siehe zB hier: metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf

Frans Rodenburg

@ ShivaTp In der Tat. Vielen Dank für den Hinweis auf die dringend benötigte Tippfehlerbehebung. Bearbeiten bestätigt.

Ébe Isaac