Einstufungswahrscheinlichkeitsschwelle

49

Ich habe eine Frage zur Klassifizierung im Allgemeinen. Sei f ein Klassifikator, der eine Menge von Wahrscheinlichkeiten mit bestimmten Daten D ausgibt. Normalerweise würde man sagen: Wenn P (c | D)> 0,5, ordnen wir eine Klasse 1 zu, andernfalls 0 (sei dies eine Binärzahl) Einstufung).

Meine Frage ist, was ist, wenn ich herausfinde, dass der Klassifikator eine bessere Leistung erbringt, wenn ich auch die Wahrscheinlichkeiten, die größer als 0,2 sind, als 1 klassifiziere. Ist es legitim, diesen neuen Schwellenwert bei der Klassifizierung zu verwenden?

Ich würde die Notwendigkeit einer niedrigeren Klassifizierung im Zusammenhang mit den Daten interpretieren, die ein kleineres Signal aussenden. für das Klassifikationsproblem noch von Bedeutung.

Ich verstehe, dass dies eine Möglichkeit ist, dies zu tun. Wenn dies jedoch nicht korrekt ist, wie sehen dann einige Datentransformationen aus, bei denen einzelne Features auf ähnliche Weise hervorgehoben werden, sodass der Schwellenwert bei 0,5 bleiben kann?

sdgaw erzswer
quelle
8
Sie haben bereits eine ausgezeichnete Antwort, also lassen Sie mich einfach Folgendes sagen: Ihr "normal" ist kein normales Verhalten, das normal sein sollte. Ich bin nicht sicher, wo die "Schwelle bei 0,5" zum Standard wurde, und ich weiß, dass es einige, ansonsten hervorragende, Software gibt, die die Idee fördert, aber es ist im Allgemeinen eine sehr schlechte Praxis.
Matthew Drury
1
@MatthewDrury: Es sei denn, die Punktzahl ist natürlich die gut kalibrierte relevante hintere Wahrscheinlichkeit, keinen wichtigen Fehler zu machen (letztere würde sich um unterschiedliche Kosten der Fehlklassifizierung kümmern).
cbeleites unterstützt Monica

Antworten:

68

Frank Harrell hat darüber in seinem Blog geschrieben: Klassifikation vs. Vorhersage , dem ich voll und ganz zustimme.

Sein Argument ist im Wesentlichen, dass die statistische Komponente Ihrer Übung endet, wenn Sie für jede Klasse Ihrer neuen Stichprobe eine Wahrscheinlichkeit ausgeben. Die Auswahl eines Schwellenwerts, ab dem Sie eine neue Beobachtung als 1 gegen 0 einstufen, ist nicht mehr Teil der Statistik . Es ist Teil der Entscheidungskomponente . Und hier benötigen Sie die probabilistische Ausgabe Ihres Modells - aber auch Überlegungen wie:

  • Welche Konsequenzen hat die Entscheidung, eine neue Beobachtung als Klasse 1 gegen 0 zu behandeln? Sende ich dann eine günstige Marketing-Mail an alle 1s? Oder wende ich eine invasive Krebsbehandlung mit großen Nebenwirkungen an?
  • Welche Konsequenzen hat die Behandlung einer "wahren" 0 als 1 und umgekehrt? Werde ich einen Kunden abhaken? Jemanden unnötig medizinisch behandeln lassen?
  • Sind meine "Klassen" wirklich diskret? Oder gibt es tatsächlich ein Kontinuum (z. B. Blutdruck), bei dem klinische Schwellenwerte in Wirklichkeit nur kognitive Abkürzungen sind? Wenn ja, wie weit über einer Schwelle ist der Fall, dass ich gerade "klassifiziere"?
  • Oder bedeutet eine niedrige, aber positive Wahrscheinlichkeit, Klasse 1 zu sein, tatsächlich "weitere Daten abrufen", "einen weiteren Test durchführen"?

Um Ihre Frage zu beantworten: Sprechen Sie mit dem Endverbraucher Ihrer Klassifizierung und erhalten Sie Antworten auf die obigen Fragen. Oder erklären Sie ihr oder ihm Ihren probabilistischen Output und lassen Sie sie oder ihn die nächsten Schritte durchlaufen.

S. Kolassa - Setzen Sie Monica wieder ein
quelle
1
Vielen Dank für diese aufschlussreiche Antwort. Ich werde das Problem selbst weiter untersuchen - ich bin sicher, dass ich diese Eigenschaft irgendwie in den statistischen Lernteil umwandeln kann.
Sdgaw Erzswer
Wow, ich wünschte, ich könnte etwas hinzufügen, hätte aber keine herausragende Antwort!
the_SJC
4
Sehr gute Antwort: Die Fragen sind genau richtig! Mein Beruf auf der Anwendungsseite zu sein, ob das Finden einer Entscheidungsschwelle als Statistik bezeichnet wird oder nicht - es fällt vollständig in meine beruflichen Pflichten das Modell - auch aus dem Grund, dass alle diese Entscheidungen in den Validierungsprozess einbezogen werden müssen.
cbeleites unterstützt Monica
11

Stephans Antwort ist großartig. Dies hängt im Wesentlichen davon ab, was Sie mit dem Klassifikator tun möchten.

Nur ein paar Beispiele hinzufügen.

Ein Weg, um die beste Schwelle zu finden, besteht darin, eine objektive Funktion zu definieren. Bei der binären Klassifizierung kann dies beispielsweise Genauigkeit oder F1-Punktzahl sein. Je nachdem, welche Option Sie auswählen, ist der beste Schwellenwert unterschiedlich. Für die F1-Wertung gibt es hier eine interessante Antwort: Was ist die F1-Optimale Schwelle? Wie berechne ich es? . Aber wenn Sie sagen "Ich möchte F1-Punkte verwenden", treffen Sie tatsächlich die Wahl. Ob diese Wahl gut ist oder nicht, hängt vom endgültigen Zweck ab.

Eine andere Möglichkeit, dies zu sehen, ist der Kompromiss zwischen Erkundung und Ausbeutung (Stephans letzter Punkt): Der mehrarmige Bandit ist ein Beispiel für ein solches Problem: Man muss sich mit zwei widersprüchlichen Zielen auseinandersetzen, Informationen zu beschaffen und den besten Banditen auszuwählen . Eine Bayes'sche Strategie besteht darin, jeden Banditen nach dem Zufallsprinzip auszuwählen, mit der Wahrscheinlichkeit, dass er der Beste ist. Es ist nicht gerade eine Klassifizierung, sondern ein ähnlicher Umgang mit Ausgabewahrscheinlichkeiten.

Wenn der Klassifikator nur ein Baustein im Entscheidungsfindungsalgorithmus ist, hängt der beste Schwellenwert vom endgültigen Zweck des Algorithmus ab. Es sollte im Hinblick auf die objektive Funktion des gesamten Prozesses bewertet und abgestimmt werden.

Benoit Sanchez
quelle
Vielen Dank für eine weitere tolle Antwort. Wenn ich es richtig verstehe und mich mit dem letzten Schritt in der Pipeline befasse, ist es absolut legitim, den Schwellenwert direkt zu optimieren.
sdgaw erzswer
@sdgawerzswer: ja. Und a) stellen Sie sicher, dass Sie die Antwort auf die richtige Frage optimieren und b) stellen Sie sicher, dass Sie diese Entscheidung (und die Schwellenwertfindung) zusammen mit dem Rest des Modells validieren.
cbeleites unterstützt Monica
3

Möglicherweise ist es sinnvoll zu überlegen, wie die Wahrscheinlichkeit berechnet wird. Klassifikatoren verwenden heutzutage einen Bias-Vektor, der mit einer Matrix (lineare Algebra) multipliziert wird. Solange der Vektor Werte ungleich Null enthält, ist die Wahrscheinlichkeit (das Produkt aus Vektor und Matrix) niemals 0.

Dies führt in der realen Welt zu Verwirrung bei Menschen, die keine lineare Algebra genommen haben. Sie stören sich daran, dass es Wahrscheinlichkeitswerte für Elemente gibt, von denen sie glauben, dass sie 0 haben sollten. Mit anderen Worten, sie verwechseln die statistische Eingabe mit der Entscheidung, die auf dieser Eingabe basiert. Wir Menschen können sagen, dass etwas mit einer Wahrscheinlichkeit von 0,0002234 in den meisten "praktischen" Anwendungsfällen mit 0 identisch ist. In Diskussionen über höhere kognitive Wissenschaften gibt es möglicherweise eine interessante Diskussion darüber, warum der Bias-Vektor dies tut, oder besser gesagt, dies gilt für kognitive Anwendungen.

Kameron Cole
quelle
2

Es gibt keine falsche Schwelle. Der Schwellenwert, den Sie wählen, hängt von Ihrem Ziel in Ihrer Vorhersage oder vielmehr von dem ab, was Sie bevorzugen möchten, beispielsweise Präzision gegenüber Wiederauffindbarkeit (versuchen Sie, die zugehörige AUC grafisch darzustellen und zu messen, um verschiedene Klassifizierungsmodelle Ihrer Wahl zu vergleichen).

Ich gebe Ihnen dieses Beispiel für Präzision gegen Rückruf, da ich an meinem eigenen Problemfall, an dem ich gerade arbeite, meinen Schwellenwert in Abhängigkeit von der minimalen Präzision (oder dem PPV-positiven Vorhersagewert) wähle, die mein Modell bei der Vorhersage haben soll, aber i Negative sind mir egal. Als solches nehme ich die Schwelle, die der gewünschten Präzision entspricht, sobald ich mein Modell trainiert habe. Präzision ist meine Einschränkung und Rückruf ist die Leistung meines Modells, wenn ich es mit anderen Klassifizierungsmodellen vergleiche.

Alex F
quelle