Warum gibt es zwei verschiedene Formulierungen / Notationen für logistische Verluste?

23

Ich habe zwei Arten von Formulierungen für logistische Verluste gesehen. Wir können leicht zeigen, dass sie identisch sind, der einzige Unterschied ist die Definition der Bezeichnung .y

Formulierung / Notation 1, :y{0,+1}

L(y,βTx)=ylog(p)(1y)log(1p)

Dabei ist p=11+exp(βTx) , wobei die logistische Funktion eine reelle Zahl \ beta ^ TxβTx auf ein 0,1-Intervall abbildet .

Formulierung / Notation 2, y{1,+1} :

L(y,βTx)=log(1+exp(yβTx))

Die Auswahl einer Notation ist wie die Auswahl einer Sprache. Es gibt Vor- und Nachteile, die eine oder andere Sprache zu verwenden. Was sind die Vor- und Nachteile dieser beiden Notationen?


Meine Versuche, diese Frage zu beantworten, scheinen, dass die Statistik-Community die erste und die Informatik-Community die zweite Schreibweise mag.

  • Die erste Notation kann mit dem Begriff "Wahrscheinlichkeit" erklärt werden, da die logistische Funktion eine reelle Zahl βTx in ein 0,1-Intervall umwandelt .
  • Die zweite Notation ist prägnanter und lässt sich leichter mit Scharnierverlust oder 0-1-Verlust vergleichen.

Habe ich recht? Irgendwelche anderen Einsichten?

Haitao Du
quelle
4
Ich bin mir sicher, dass dies schon mehrmals gefragt wurde. ZB stats.stackexchange.com/q/145147/5739
StasK
1
Warum ist die zweite Notation Ihrer Meinung nach leichter mit dem Verlust von Scharnieren zu vergleichen? Nur weil es auf anstatt auf oder auf etwas anderem definiert ist? { 0 , 1 }{1,1}{0,1}
Shadowtalker
1
Ich mag die Symmetrie der ersten Form ein bisschen, aber der lineare Teil ist ziemlich tief vergraben, so dass es schwierig sein kann, damit zu arbeiten.
Matthew Drury
@ssdecontrol Bitte überprüfen Sie diese Zahl, cs.cmu.edu/~yandongl/loss.html wobei die x-Achse ist und die y-Achse der Verlustwert ist. Eine solche Definition ist bequem zu vergleichen mit 01 Verlust, Scharnierverlust, etc.yβTx
Haitao Du

Antworten:

12

Die kurze Version

  • Ja
  • Ja

Die lange Version

Das Schöne an der mathematischen Modellierung ist, dass sie flexibel ist. Dies sind zwar äquivalente Verlustfunktionen, sie leiten sich jedoch aus sehr unterschiedlichen zugrunde liegenden Modellen der Daten ab.

Formel 1

Die erste Notation leitet sich von einem Bernoulli-Wahrscheinlichkeitsmodell für , das herkömmlicherweise auf { 0 , 1 } definiert ist . In diesem Modell, das Ergebnis / label / class / Vorhersage wird durch eine Zufallsvariable repräsentiert Y , das eine folgt B e r n o u l l i ( p ) Verteilung. Daher ist seine Wahrscheinlichkeit: P ( Y = y | p ) = L ( p ; y ) = p yy{0,1}YBernoulli(p)

P(Y=y | p)=L(p;y)=py (1p)1y={1py=0py=1

für . Indem wir 0 und 1 als Indikatorwerte verwenden, können wir die stückweise Funktion ganz rechts auf einen präzisen Ausdruck reduzieren.p[0,1]

Wie Sie bereits ausgeführt haben, können Sie mit einer Matrix von Eingabedaten x verknüpfen , indem Sie logit p = β T x zulassen . Von hier aus ergibt eine einfache algebraische Manipulation, dass log L ( p ; y ) dasselbe ist wie das erste L ( y , β T x ) in Ihrer Frage (Hinweis: ( y - 1 ) = - ( 1 - y ) ). So minimieren Sie den Protokollverlust über { 0 ,Yxlogitp=βTxlogL(p;y)L(y,βTx)(y1)=(1y) entspricht der Maximum-Likelihood-Schätzung eines Bernoulli-Modells.{0,1}

Diese Formulierung ist auch ein Sonderfall des verallgemeinerten linearen Modells , das als für eine invertierbare, differenzierbare Funktion g und eine Verteilung D in der Exponentialfamilie formuliert ist .YD(θ), g(Y)=βTxgD

Formel 2

Eigentlich bin ich mit der Formel 2 nicht vertraut. Die Definition von auf { - 1 , 1 } ist jedoch Standard bei der Formulierung einer Support-Vektor-Maschine . Das Anpassen einer SVM entspricht dem Maximieren von max ( { 0 , 1 - y β T x } ) + λ β 2 .y{1,1}

max({0,1yβTx})+λβ2.

Dies ist die Lagrange-Form eines eingeschränkten Optimierungsproblems. Es ist auch ein Beispiel für ein reguliertes Optimierungsproblem mit der Zielfunktion für eine Verlustfunktion und einem skalaren Hyperparameter λ , der den Grad der Regularisierung (auch "Schrumpfung" genannt) steuert β . Der Scharnierverlust ist nur eine von mehreren Drop-In-Möglichkeiten für , zu denen auch das zweite L ( y , β T x gehört

(y,β)+λβ2
λβ in Ihrer Frage.L(y,βTx)
Shadowtalker
quelle
Sollte es in der Formel 1 nicht sein:
py(1p)1y1y
glebm
7

Ich denke, @ssdecontrol hatte eine sehr gute Antwort. Ich möchte nur einige Kommentare für die Formel 2 für meine eigene Frage hinzufügen.

L(y,y^)=log(1+exp(yy^))

Der Grund, warum die Leute diese Formulierung mögen, ist, dass sie sehr präzise ist und die "Wahrscheinlichkeitsinterpretationsdetails" entfernt.

y^yy^

L01(y,y^)=I[yy^>0]Lhinge(y,y^)=(1yy^)+Llogistic(y,y^)=log(1+exp(yy^))

Bildbeschreibung hier eingeben

yy^y^βTx

Haitao Du
quelle
Ich verstehe, was du mit einfachem Vergleich
meinst