Wie kann die statistische Signifikanz der Genauigkeit eines Klassifikators bewertet werden?

8

Ich habe die Klassifikatorgenauigkeit in Prozent und die Anzahl der Eingangsabtastwerte ausgegeben. Gibt es einen Test, der anhand dieser Informationen feststellen kann, wie statistisch signifikant das Ergebnis ist?

Vielen Dank

Shan
quelle
Kannst du ein Beispiel geben?
Max Gordon
3
Mir ist nicht klar, was Sie haben und wonach Sie fragen. Es gibt Tests, ob ein Anteil 0 ist, aber das ist kein aussagekräftiger Test für die Genauigkeit - die Genauigkeit von 0 wäre in gewisser Weise perfekt - immer falsch!
Peter Flom

Antworten:

10

Sie möchten die Verteilung der Genauigkeit des Vermutens definieren. Vielleicht ist dies wie wobei Binomial ( , ) für einige bekannte (sagen wir 50%).X/nn p pXnpp

Berechnen Sie dann die Wahrscheinlichkeit, die Ergebnisse zu beobachten, die Sie erzielt haben, wenn dieses Nullmodell wahr wäre. In R können Sie binom.testes direkt mit verwenden oder berechnen pbinom.

Normalerweise möchten Sie die Genauigkeit nicht mit "Raten" vergleichen, sondern mit einer alternativen Methode. In diesem Fall können Sie den McNemar-Test verwenden . in R , mcnemar.test.

Karl
quelle
6

Ich sehe nicht, wo das Testen gegen völlige Zufälligkeit so hilfreich ist. Ein Klassifikator, der nur reine Zufallsraten schlagen kann, ist nicht sehr nützlich. Ein größeres Problem ist die Verwendung von Proportionen, die korrekt als Genauigkeitsbewertung klassifiziert wurden. Dies ist eine diskontinuierliche falsche Bewertungsregel, die leicht manipuliert werden kann, da sie willkürlich und unempfindlich ist. Eine (von vielen) Möglichkeiten, die Mängel zu erkennen, besteht darin, den korrekt klassifizierten Anteil zu berechnen, wenn Sie ein Modell mit nur einem Achsenabschnitt haben. Es wird hoch sein, wenn die Prävalenz nicht nahe bei 0,5 liegt.

Sobald Sie eine geeignetere Regel ausgewählt haben, ist es hilfreich, ein Konfidenzintervall für den Index zu berechnen. Die statistische Signifikanz ist von geringem Wert.

Frank Harrell
quelle
Meinen Sie mit dem Anteil der korrekt klassifizierten die Standardklassifizierungsgenauigkeit? danke
Simone
1
Ja; eine sehr problematische Maßnahme.
Frank Harrell
Ja, das ist eine sehr problematische Maßnahme. Ich stimme mit Ihnen ein.
Simone
2
Klassifikatoren, die das zufällige Erraten kaum übertreffen, können in einigen Situationen äußerst nützlich sein. Daher ist es auch nützlich, einen Test zu haben, der das Vertrauen in einen Klassifikator quantifiziert, der besser als der Zufall ist.
ely
3

Sicher können Sie ein Konfidenzintervall berechnen . Wenn Ihre Genauigkeit ist, die für einen Testsatz von Elementen geschätzt wird , gilt Also Sie können also sagen: Zum Beispiel können Sie das Wilson-Intervall berechnen . N a c c - paccNP(acc-p

accpp(1p)/NN(0,1)
P(accpp(1p)/N[zα/2,+zα/2])1α
P(p[l,u])1α
l=2 N acc+zα/22zα/2zα/22+4 N acc4 N acc22(N+zα/22)
u=2 N acc+zα/22+zα/2zα/22+4 N acc4 N acc22(N+zα/22)

Ich denke, Sie können berechnen, wie sehr sich Ihre Leistung von einer zufälligen unterscheidet, die den Gewinn berechnet . Die Genauigkeit eines Zufallsklassifizierers ist: wobei die empirische Häufigkeit der Klasse , die auf dem geschätzt wird, und die Zahl ist von verschiedenen Klassen. Im Durchschnitt klassifiziert ein zufälliger Klassifizierer, der das zufällige Erraten der Klasse anhand der Wahrscheinlichkeit des klassifiziert, Beispiele für Klasse korrekt. Wobei die Anzahl der Datensätze der Klasse

accr=i=1cpi2
piicipini=niNniiniiim Testset. Somit ist Vielleicht werfen Sie einen Blick auf eine meiner Fragen .
accr=p1n1++pcncn1++nc=p1n1N++pcncN=icpi2

Der Gewinn ist:

gain=accaccr

Ich denke tatsächlich, dass ein statistischer Test skizziert werden kann. Der Zähler kann als normale Zufallsvariable , aber Sie sollten herausfinden, welche Art von Zufallsvariable der Nenner könnte sein.acc rN(acc,p(1p)/N)accr

Simone
quelle
3
Auch hier bin ich nicht davon überzeugt, dass ein statistischer Test gegen absolut keinen prädiktiven Wert von Wert ist.
Frank Harrell
2
Klassifikatoren, die das zufällige Erraten kaum übertreffen, können in einigen Situationen äußerst nützlich sein. Daher ist es auch nützlich, einen Test zu haben, der das Vertrauen in einen Klassifikator quantifiziert, der besser als der Zufall ist.
ely
1
In den allermeisten Situationen möchten wir wissen, wie gut eine Vorhersage unterscheidet, und nicht nur, ob sie besser als zufällig unterscheidet.
Frank Harrell
Nicht, wenn Sie eine Reihe schwacher Klassifikatoren verstärken, was eine sehr häufige Aktivität ist. Sie mögen sich um Diskriminierung kümmern, sobald Sie den vollständig gesteigerten endgültigen Klassifikator erreicht haben, aber zwischen Start und Ziel liegt viel Arbeit, und es ist wichtig zu zeigen, dass ein komplizierter Klassifikator empirisch besser abschneidet als der Zufall.
ely
1
Und einige Anwendungsbereiche, beispielsweise Finanzmärkte, in denen Sie den Klassifikator in vielen, ungefähr unabhängigen Fällen verwenden können, können viel bedeuten, wenn Sie nur ein bisschen besser als der Zufall sind (R-Quadrate von etwa 11% oder 12% werden als großartig angesehen). In diesen Fällen kann es als sehr gut angesehen werden, wenn selbst der verstärkte Klassifikator ein R-Quadrat von 15% aufweist. In diesem Fall ist es wirklich wichtig, ob Sie statistisch feststellen können, ob die schwachen Klassifikatoren definitiv besser sind als zu raten.
ely
1

Sie könnten an folgenden Artikeln interessiert sein:

  • Eric W. Noreen, Computerintensive Methoden zum Testen von Hypothesen: Eine Einführung, John Wiley & Sons, New York, NY, USA, 1989.
  • Alexander Yeh, Genauere Tests zur statistischen Signifikanz von Ergebnisunterschieden, in: Proceedings of the 18. International Conference on Computational Linguistics, Band 2, Seiten 947-953, 2000.

Ich denke, sie decken ab, worüber Dimitrios Athanasakis spricht.

Ich habe eine Option von Yeh so implementiert, wie ich es verstehe:

http://www.clips.uantwerpen.be/~vincent/software#art

vvasch
quelle
0

Ich denke, eine Sache, die Sie ausprobieren könnten, wäre ein Permutationstest. Einfach ausgedrückt, permutieren Sie die gewünschten Eingabe-Ausgabe-Paare, die Sie Ihrem Klassifizierer mehrmals zuführen, zufällig. Wenn es nicht gelingt, über 100 verschiedene Permutationen auf derselben Ebene etwas zu reproduzieren, ist es im 99% -Intervall von Bedeutung und so weiter. Dies ist im Grunde der gleiche Prozess, der verwendet wird, um p-Werte zu erhalten (die der Wahrscheinlichkeit entsprechen, eine lineare Korrelation derselben Mangnitude nach zufälliger Permutation der Daten zu erhalten) und so weiter.

Dimitrios Athanasakis
quelle
Könnten Sie näher erläutern, was Sie für Eingabe- / gewünschte Ausgabepaare gemeint haben?
Simone