Wir wissen, dass einige objektive Funktionen einfacher zu optimieren sind und andere schwierig. Und es gibt viele Verlustfunktionen, die wir verwenden möchten, die aber schwer zu verwenden sind, zum Beispiel 0-1-Verlust. Wir finden also einige Proxy- Verlust-Funktionen, um die Arbeit zu erledigen. Zum Beispiel verwenden wir den Scharnierverlust oder den logistischen Verlust, um den 0-1-Verlust zu "approximieren".
Die folgende Handlung stammt aus Chris Bishops PRML-Buch . Der Scharnierverlust ist in blau, der Logverlust in rot, der Quadratverlust in grün und der Fehler 0/1 in schwarz dargestellt.
Ich verstehe den Grund, warum wir ein solches Design haben (für Scharnier- und Logistikverlust), ist, dass wir wollen, dass die Zielfunktion konvex ist.
Durch die Betrachtung von Scharnierverlust und logistischem Verlust werden stark falsch klassifizierte Instanzen stärker benachteiligt , und interessanterweise werden auch korrekt klassifizierte Instanzen benachteiligt, wenn sie schwach klassifiziert sind . Es ist ein wirklich seltsames Design.
Meine Frage ist, zu welchen Preisen wir verschiedene "Proxy-Loss-Funktionen" wie Scharnierverlust und Logistikverlust einsetzen müssen.
Antworten:
Einige meiner Gedanken sind jedoch möglicherweise nicht richtig.
Konvexität ist sicherlich eine schöne Eigenschaft, aber ich denke, der wichtigste Grund ist, dass wir wollen, dass die objektive Funktion Ableitungen ungleich Null aufweist , damit wir die Ableitungen verwenden können, um sie zu lösen. Die Zielfunktion kann nicht konvex sein. In diesem Fall halten wir oft nur an einigen lokalen Optima oder Sattelpunkten an.
Ich denke, ein solches Design rät dem Modell, nicht nur die richtigen Vorhersagen zu treffen, sondern auch zuversichtlich mit den Vorhersagen umzugehen. Wenn wir nicht möchten, dass korrekt klassifizierte Instanzen bestraft werden, können wir beispielsweise den Scharnierverlust (blau) um 1 nach links verschieben, damit sie keinen Verlust mehr erleiden. Aber ich glaube, das führt in der Praxis oft zu schlechteren Ergebnissen.
IMO Indem wir verschiedene Verlustfunktionen auswählen, bringen wir verschiedene Annahmen in das Modell ein. Beispielsweise nimmt der logistische Regressionsverlust (rot) eine Bernoulli-Verteilung an, der MSE-Verlust (grün) ein Gaußsches Rauschen.
In Anlehnung an das Beispiel der kleinsten Fehlerquadrate im Vergleich zur logistischen Regression in PRML habe ich zum Vergleich den Scharnierverlust hinzugefügt.
Wie in der Abbildung gezeigt, haben Scharnierverlust und logistische Regression / Kreuzentropie / log-Wahrscheinlichkeit / Softplus sehr nahe beieinander liegende Ergebnisse, da ihre objektiven Funktionen nahe beieinander liegen (Abbildung unten), während MSE im Allgemeinen empfindlicher gegenüber Ausreißern ist. Scharnierverlust hat nicht immer eine eindeutige Lösung, da er nicht streng konvex ist.
Eine wichtige Eigenschaft des Scharnierverlusts ist jedoch, dass Datenpunkte, die weit von der Entscheidungsgrenze entfernt sind, nichts zum Verlust beitragen. Die Lösung ist dieselbe, wenn diese Punkte entfernt werden.
Die verbleibenden Punkte werden im Kontext von SVM als Unterstützungsvektoren bezeichnet. Während SVM einen Regularizer-Term verwendet, um die maximale Margin-Eigenschaft und eine einzigartige Lösung sicherzustellen.
quelle
Poste eine späte Antwort, da es eine sehr einfache Antwort gibt, die noch nicht erwähnt wurde.
Wenn Sie die nicht-konvexe 0-1-Verlustfunktion durch einen konvexen Ersatz (z. B. Scharnierverlust) ersetzen , lösen Sie jetzt tatsächlich ein anderes Problem als das, das Sie lösen wollten (um die Anzahl der Klassifizierungsfehler zu minimieren). So können Sie gewinnen Rechen Lenkbarkeit (wird das Problem konvex, dh Sie es mit Werkzeugen von konvexer Optimierung effizient lösen können), aber im allgemeinen Fall gibt es eigentlich keine Möglichkeit , den Fehler des Klassifikators zu beziehen , dass mindernd einen „Proxy“ Verlust und die Fehler des Klassifikators, der den 0-1-Verlust minimiert . Wenn es Ihnen wirklich darum ging, die Anzahl der Fehlklassifizierungen zu minimieren, dann ist dies meiner Meinung nach ein sehr hoher Preis.
quelle
Idealerweise sollte Ihre Verlustfunktion den tatsächlichen Geschäftsverlust widerspiegeln. Wenn Sie beispielsweise beschädigte Waren klassifizieren, kann der Verlust der Fehlklassifizierung folgendermaßen aussehen:
quelle