Angenommen, ich habe einen Algorithmus, der die Dinge in zwei Kategorien unterteilt. Ich kann die Genauigkeit des Algorithmus an beispielsweise 1000 Testobjekten messen. Angenommen, 80% der Objekte sind korrekt klassifiziert.
Nehmen wir an, ich ändere den Algorithmus irgendwie so, dass 81% der Dinge richtig klassifiziert sind.
Können Statistiken Aufschluss darüber geben, ob meine Verbesserung des Algorithmus statistisch signifikant ist? Ist das Konzept der statistischen Signifikanz in dieser Situation relevant? Bitte weisen Sie mich in die Richtung einiger Ressourcen, die relevant sein könnten.
Danke vielmals.
Wie Erik sagte, kann man dies auf statistische Signifikanz überprüfen. Überlegen Sie sich jedoch einen Moment genau, was Sie überprüfen möchten. Ich denke, eine interessantere Frage könnte sein, zu fragen, wie wahrscheinlich es ist, dass der angeblich "verbesserte" Algorithmus besser (oder sinnvollerweise besser) ist als das Original, wenn man die Daten einer beobachteten Differenz von 1% zugrunde legt. Das Stellen von Fragen in Bezug auf "statistische Signifikanz" führt tendenziell zu der entgegengesetzten Art von Frage: Besteht bei gleichen beiden Algorithmen eine Wahrscheinlichkeit von weniger als 5%, eine Verbesserung von mindestens so viel zu beobachten?
Für mich ist die letztere Frage verkehrt, aber irgendwie zum Standard geworden. Sie können Wikipedia über die Kontroverse beim Testen statistischer Hypothesen lesen . Vielleicht interessieren Sie sich später für die Bayes'sche Folgerung . Wenn Sie wirklich in die Bayes'sche Datenanalyse einsteigen möchten, können Sie die "Bayes'sche Datenanalyse" von Gelman et al. Oder diese Frage prüfen .
quelle
Anwenden von Erik Antwort auf Michaels :
Genauso kann man denken, worauf Erik sich bezieht, wenn er das Leistungsmaß auswählt.
Ich finde es hilfreich, anhand der Fragen, die sie beantworten, auf verschiedene solche Maßnahmen zu verweisen (hier in der mir am besten vertrauten medizinischen Diagnosesprache - aber vielleicht können Sie den Patienten einfach durch Text und die Krankheit durch Spam ersetzen ;-)):
Empfindlichkeit: Wenn der Patient wirklich an der Krankheit leidet, wie wahrscheinlich ist es, dass der Klassifikator dies erkennt?
Spezifität: Wie wahrscheinlich ist es, dass der Klassifikator dies erkennt, wenn der Patient die Krankheit tatsächlich nicht hat?
Positiver prädiktiver Wert: Wie wahrscheinlich ist es, dass der Patient tatsächlich an der Krankheit leidet, wenn der Klassifikator behauptet, er sei krank?
Negativer Vorhersagewert: Wenn der Klassifikator behauptet, der Patient sei nicht krank, wie wahrscheinlich ist es dann, dass der Patient die Krankheit wirklich nicht hat?
Wie Sie sehen, sind die prädikitiven Werte das, woran Ärzte und Patienten wirklich interessiert sind. Fast jeder charakterisiert seinen Klassifikator jedoch durch Sensitivität und Spezifität. Der Grund dafür ist, dass die Vorhersagewerte die Prävalenz der Krankheit berücksichtigen müssen und diese für verschiedene Arten von Patienten sehr unterschiedlich sein kann (Größenordnungen!).
Mehr zum Thema für Ihre Frage:
Ich wette, Sie haben Recht, wenn Sie sich Sorgen machen.
Nehmen wir beide Szenarien von Erik als Beispiel:
Hier sind die unabhängigen Testmuster:
(Beachten Sie, dass dieser Test zweiseitig war, vorausgesetzt, die beiden Klassifikatoren wären veröffentlicht worden, selbst wenn die Ergebnisse umgekehrt gewesen wären ...)
Hier ist die bestmögliche Situation: gepaarter Test, und der neue Klassifikator ist für alle Proben richtig, der alte ist auch richtig, plus 10 weitere:
(Der p-Wert bleibt unter dem magischen Wert von 0,05, solange nicht mehr als 10 der 1000 Proben von den beiden Klassifikatoren unterschiedlich vorhergesagt wurden.)
Auch wenn p-Werte die richtige Antwort auf die falsche Frage sind, gibt es Hinweise darauf, dass es ein enger Raum ist.
Unter Berücksichtigung der üblichen wissenschaftlichen Praxis, dh es wurde eine unbekannte (unveröffentlichte) Anzahl neuer Funktionen getestet, und nur die, die etwas besser funktionierte, wurde veröffentlicht, wodurch der Platz noch enger wurde. Und dann ist der 80% -Klassifikator möglicherweise nur der Nachfolger eines 79% -Klassifikators ...
Wenn Sie gerne Deutsch lesen, gibt es einige wirklich schöne Bücher von Beck-Bornhold und Dubben. Wenn ich mich richtig erinnere, hat Mit an Wahrscheinlichkeit grenzender Sicherheit eine sehr nette Diskussion über diese Probleme. (Ich weiß nicht, ob es eine englische Ausgabe gibt, eine eher wörtliche Übersetzung des Titels lautet "Mit einer an die Wahrscheinlichkeit grenzenden Gewissheit".)
quelle
Ich würde dringend davon abraten, eine diskontinuierliche, unkorrekte Bewertungsregel zu verwenden (eine Genauigkeitsbewertung wie Sensitivität, Spezifität, korrekt eingestufter Anteil, die in einem falschen Modell zu optimierenden Ergebnissen führt), und stattdessen Likelihood-Ratio-Tests oder partielle F-Tests für den Mehrwert des neuen Modells verwenden Variablen.
Eine von mehreren Möglichkeiten, die Probleme mit der korrekten Einstufung des Anteils zu erkennen, besteht darin, dass Sie, wenn der Gesamtanteil in einer Kategorie 0,9 beträgt, 0,9 der Zeit korrekt sind, indem Sie die Daten ignorieren und jede Beobachtung als in dieser Kategorie klassifizieren.
quelle