Ich habe eine Frage zur Klassifizierung im Allgemeinen. Sei f ein Klassifikator, der eine Menge von Wahrscheinlichkeiten mit bestimmten Daten D ausgibt. Normalerweise würde man sagen: Wenn P (c | D)> 0,5, ordnen wir eine Klasse 1 zu, andernfalls 0 (sei dies eine Binärzahl) Einstufung).
Meine Frage ist, was ist, wenn ich herausfinde, dass der Klassifikator eine bessere Leistung erbringt, wenn ich auch die Wahrscheinlichkeiten, die größer als 0,2 sind, als 1 klassifiziere. Ist es legitim, diesen neuen Schwellenwert bei der Klassifizierung zu verwenden?
Ich würde die Notwendigkeit einer niedrigeren Klassifizierung im Zusammenhang mit den Daten interpretieren, die ein kleineres Signal aussenden. für das Klassifikationsproblem noch von Bedeutung.
Ich verstehe, dass dies eine Möglichkeit ist, dies zu tun. Wenn dies jedoch nicht korrekt ist, wie sehen dann einige Datentransformationen aus, bei denen einzelne Features auf ähnliche Weise hervorgehoben werden, sodass der Schwellenwert bei 0,5 bleiben kann?
quelle
Antworten:
Frank Harrell hat darüber in seinem Blog geschrieben: Klassifikation vs. Vorhersage , dem ich voll und ganz zustimme.
Sein Argument ist im Wesentlichen, dass die statistische Komponente Ihrer Übung endet, wenn Sie für jede Klasse Ihrer neuen Stichprobe eine Wahrscheinlichkeit ausgeben. Die Auswahl eines Schwellenwerts, ab dem Sie eine neue Beobachtung als 1 gegen 0 einstufen, ist nicht mehr Teil der Statistik . Es ist Teil der Entscheidungskomponente . Und hier benötigen Sie die probabilistische Ausgabe Ihres Modells - aber auch Überlegungen wie:
Um Ihre Frage zu beantworten: Sprechen Sie mit dem Endverbraucher Ihrer Klassifizierung und erhalten Sie Antworten auf die obigen Fragen. Oder erklären Sie ihr oder ihm Ihren probabilistischen Output und lassen Sie sie oder ihn die nächsten Schritte durchlaufen.
quelle
Stephans Antwort ist großartig. Dies hängt im Wesentlichen davon ab, was Sie mit dem Klassifikator tun möchten.
Nur ein paar Beispiele hinzufügen.
Ein Weg, um die beste Schwelle zu finden, besteht darin, eine objektive Funktion zu definieren. Bei der binären Klassifizierung kann dies beispielsweise Genauigkeit oder F1-Punktzahl sein. Je nachdem, welche Option Sie auswählen, ist der beste Schwellenwert unterschiedlich. Für die F1-Wertung gibt es hier eine interessante Antwort: Was ist die F1-Optimale Schwelle? Wie berechne ich es? . Aber wenn Sie sagen "Ich möchte F1-Punkte verwenden", treffen Sie tatsächlich die Wahl. Ob diese Wahl gut ist oder nicht, hängt vom endgültigen Zweck ab.
Eine andere Möglichkeit, dies zu sehen, ist der Kompromiss zwischen Erkundung und Ausbeutung (Stephans letzter Punkt): Der mehrarmige Bandit ist ein Beispiel für ein solches Problem: Man muss sich mit zwei widersprüchlichen Zielen auseinandersetzen, Informationen zu beschaffen und den besten Banditen auszuwählen . Eine Bayes'sche Strategie besteht darin, jeden Banditen nach dem Zufallsprinzip auszuwählen, mit der Wahrscheinlichkeit, dass er der Beste ist. Es ist nicht gerade eine Klassifizierung, sondern ein ähnlicher Umgang mit Ausgabewahrscheinlichkeiten.
Wenn der Klassifikator nur ein Baustein im Entscheidungsfindungsalgorithmus ist, hängt der beste Schwellenwert vom endgültigen Zweck des Algorithmus ab. Es sollte im Hinblick auf die objektive Funktion des gesamten Prozesses bewertet und abgestimmt werden.
quelle
Möglicherweise ist es sinnvoll zu überlegen, wie die Wahrscheinlichkeit berechnet wird. Klassifikatoren verwenden heutzutage einen Bias-Vektor, der mit einer Matrix (lineare Algebra) multipliziert wird. Solange der Vektor Werte ungleich Null enthält, ist die Wahrscheinlichkeit (das Produkt aus Vektor und Matrix) niemals 0.
Dies führt in der realen Welt zu Verwirrung bei Menschen, die keine lineare Algebra genommen haben. Sie stören sich daran, dass es Wahrscheinlichkeitswerte für Elemente gibt, von denen sie glauben, dass sie 0 haben sollten. Mit anderen Worten, sie verwechseln die statistische Eingabe mit der Entscheidung, die auf dieser Eingabe basiert. Wir Menschen können sagen, dass etwas mit einer Wahrscheinlichkeit von 0,0002234 in den meisten "praktischen" Anwendungsfällen mit 0 identisch ist. In Diskussionen über höhere kognitive Wissenschaften gibt es möglicherweise eine interessante Diskussion darüber, warum der Bias-Vektor dies tut, oder besser gesagt, dies gilt für kognitive Anwendungen.
quelle
Es gibt keine falsche Schwelle. Der Schwellenwert, den Sie wählen, hängt von Ihrem Ziel in Ihrer Vorhersage oder vielmehr von dem ab, was Sie bevorzugen möchten, beispielsweise Präzision gegenüber Wiederauffindbarkeit (versuchen Sie, die zugehörige AUC grafisch darzustellen und zu messen, um verschiedene Klassifizierungsmodelle Ihrer Wahl zu vergleichen).
Ich gebe Ihnen dieses Beispiel für Präzision gegen Rückruf, da ich an meinem eigenen Problemfall, an dem ich gerade arbeite, meinen Schwellenwert in Abhängigkeit von der minimalen Präzision (oder dem PPV-positiven Vorhersagewert) wähle, die mein Modell bei der Vorhersage haben soll, aber i Negative sind mir egal. Als solches nehme ich die Schwelle, die der gewünschten Präzision entspricht, sobald ich mein Modell trainiert habe. Präzision ist meine Einschränkung und Rückruf ist die Leistung meines Modells, wenn ich es mit anderen Klassifizierungsmodellen vergleiche.
quelle