Ich habe zwei Arten von Formulierungen für logistische Verluste gesehen. Wir können leicht zeigen, dass sie identisch sind, der einzige Unterschied ist die Definition der Bezeichnung .
Formulierung / Notation 1, :
Dabei ist , wobei die logistische Funktion eine reelle Zahl \ beta ^ Tx auf ein 0,1-Intervall abbildet .
Formulierung / Notation 2, :
Die Auswahl einer Notation ist wie die Auswahl einer Sprache. Es gibt Vor- und Nachteile, die eine oder andere Sprache zu verwenden. Was sind die Vor- und Nachteile dieser beiden Notationen?
Meine Versuche, diese Frage zu beantworten, scheinen, dass die Statistik-Community die erste und die Informatik-Community die zweite Schreibweise mag.
- Die erste Notation kann mit dem Begriff "Wahrscheinlichkeit" erklärt werden, da die logistische Funktion eine reelle Zahl in ein 0,1-Intervall umwandelt .
- Die zweite Notation ist prägnanter und lässt sich leichter mit Scharnierverlust oder 0-1-Verlust vergleichen.
Habe ich recht? Irgendwelche anderen Einsichten?
Antworten:
Die kurze Version
Die lange Version
Das Schöne an der mathematischen Modellierung ist, dass sie flexibel ist. Dies sind zwar äquivalente Verlustfunktionen, sie leiten sich jedoch aus sehr unterschiedlichen zugrunde liegenden Modellen der Daten ab.
Formel 1
Die erste Notation leitet sich von einem Bernoulli-Wahrscheinlichkeitsmodell für , das herkömmlicherweise auf { 0 , 1 } definiert ist . In diesem Modell, das Ergebnis / label / class / Vorhersage wird durch eine Zufallsvariable repräsentiert Y , das eine folgt B e r n o u l l i ( p ) Verteilung. Daher ist seine Wahrscheinlichkeit: P ( Y = y | p ) = L ( p ; y ) = p yy {0,1} Y Bernoulli(p)
für . Indem wir 0 und 1 als Indikatorwerte verwenden, können wir die stückweise Funktion ganz rechts auf einen präzisen Ausdruck reduzieren.p∈[0,1]
Wie Sie bereits ausgeführt haben, können Sie mit einer Matrix von Eingabedaten x verknüpfen , indem Sie logit p = β T x zulassen . Von hier aus ergibt eine einfache algebraische Manipulation, dass log L ( p ; y ) dasselbe ist wie das erste L ( y , β T x ) in Ihrer Frage (Hinweis: ( y - 1 ) = - ( 1 - y ) ). So minimieren Sie den Protokollverlust über { 0 ,Y x logitp=βTx logL(p;y) L(y,βTx) (y−1)=−(1−y) entspricht der Maximum-Likelihood-Schätzung eines Bernoulli-Modells.{0,1}
Diese Formulierung ist auch ein Sonderfall des verallgemeinerten linearen Modells , das als für eine invertierbare, differenzierbare Funktion g und eine Verteilung D in der Exponentialfamilie formuliert ist .Y∼D(θ), g(Y)=βTx g D
Formel 2
Eigentlich bin ich mit der Formel 2 nicht vertraut. Die Definition von auf { - 1 , 1 } ist jedoch Standard bei der Formulierung einer Support-Vektor-Maschine . Das Anpassen einer SVM entspricht dem Maximieren von max ( { 0 , 1 - y β T x } ) + λ ‖ β ‖ 2 .y {−1,1}
Dies ist die Lagrange-Form eines eingeschränkten Optimierungsproblems. Es ist auch ein Beispiel für ein reguliertes Optimierungsproblem mit der Zielfunktion für eine Verlustfunktion ℓ und einem skalaren Hyperparameter λ , der den Grad der Regularisierung (auch "Schrumpfung" genannt) steuert β . Der Scharnierverlust ist nur eine von mehreren Drop-In-Möglichkeiten für ℓ , zu denen auch das zweite L ( y , β T x gehört
quelle
Ich denke, @ssdecontrol hatte eine sehr gute Antwort. Ich möchte nur einige Kommentare für die Formel 2 für meine eigene Frage hinzufügen.
Der Grund, warum die Leute diese Formulierung mögen, ist, dass sie sehr präzise ist und die "Wahrscheinlichkeitsinterpretationsdetails" entfernt.
quelle