Ich verwende derzeit mehrere verschiedene Klassifizierer für verschiedene Entitäten, die aus Text extrahiert wurden, und verwende Präzision / Rückruf als Zusammenfassung der Leistung jedes einzelnen Klassifizierers für ein bestimmtes Dataset.
Ich frage mich, ob es eine sinnvolle Möglichkeit gibt, die Leistung dieser Klassifizierer auf ähnliche Weise zu vergleichen, die aber auch die Gesamtzahl der einzelnen Entitäten in den zu klassifizierenden Testdaten berücksichtigt.
Momentan verwende ich Präzision / Rückruf als Maß für die Leistung, könnte also so etwas haben wie:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
Der Datensatz, auf dem ich diese Dateien ausführe, kann jedoch 100.000 Personen, 5.000 Unternehmen, 500 Käsesorten und 1 Ei enthalten.
Gibt es also eine zusammenfassende Statistik, die ich der obigen Tabelle hinzufügen kann und die auch die Gesamtzahl der einzelnen Artikel berücksichtigt? Oder gibt es eine Möglichkeit, die Tatsache zu messen, dass z. B. 100% vor / nach dem Ei-Klassifikator bei nur einem Datenelement möglicherweise keine Bedeutung hat?
Nehmen wir an, wir hatten Hunderte solcher Klassifikatoren. Ich suche nach einer guten Möglichkeit, um Fragen wie "Welche Klassifikatoren sind schlechter als erwartet? Welche Klassifikatoren haben nicht genügend Testdaten, um festzustellen, ob sie schlechter als erwartet sind?" Zu beantworten.
quelle
Antworten:
Sie müssen sich das Konfidenzintervall der Statistik ansehen. Dies hilft zu messen, wie viel Unsicherheit in der Statistik vorliegt, was weitgehend von der Stichprobengröße abhängt.
quelle
Meiner Meinung nach ist es schwierig, die Leistung zu vergleichen, wenn der Größenunterschied so groß ist. Unter diesem Link ( siehe Wikipedia unter http://en.wikipedia.org/wiki/Effect_size ) sehen Sie möglicherweise verschiedene Strategien.
Die, die ich vorschlage, hängt mit der Varianz zusammen. Betrachten Sie beispielsweise die Leistung des Klassifikators (100%) und des Personenklassifikators (65%). Der minimale Fehler, den Sie mit dem früheren Klassifikator begehen, beträgt 100%. Der minimale Fehler, den Sie mit dem letzteren Klassifikator festschreiben können, ist jedoch 10e-5.
Eine Möglichkeit, einen Klassifikator zu vergleichen, besteht darin, diese Dreierregel ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics) zu beachten, mit der Sie die Leistung und ihre Variabilität vergleichen können.
Eine andere Möglichkeit ist F-Measure , eine Kombination aus Präzision und Rückruf, und es ist irgendwie unabhängig von der Effektgröße.
quelle
Die Anzahl der Daten in der Klasse wird manchmal als die
support
des Klassifikators bezeichnet. Es gibt an, wie sehr Sie Ihrem Ergebnis vertrauen können, so wie ein p-Wert es Ihnen ermöglichen würde, einem Test zu vertrauen oder ihm zu misstrauen.Ein Ansatz, den Sie verwenden können, besteht darin, mehrere Kennzahlen für die Klassifikatorleistung zu berechnen, und zwar nicht nur die Genauigkeit und den Abruf, sondern auch die wahre positive Rate, die falsche positive Rate, die Spezifität, die Sensitivität, die positive Wahrscheinlichkeit, die negative Wahrscheinlichkeit usw., und zu prüfen, ob sie miteinander übereinstimmen . Wenn eine der Maßnahmen maximal ist (100%) und die andere nicht, ist dies meiner Erfahrung nach häufig ein Hinweis auf einen Fehler (z. B. schlechte Unterstützung, trivialer Klassifikator, voreingenommener Klassifikator usw.). Auf dieser Seite finden Sie eine Liste der Leistungskennzahlen für Klassifizierer.
quelle