Warum gibt es zwei verschiedene Formulierungen / Notationen für logistische Verluste?

Ich habe zwei Arten von Formulierungen für logistische Verluste gesehen. Wir können leicht zeigen, dass sie identisch sind, der einzige Unterschied ist die Definition der Bezeichnung . $y$

Formulierung / Notation 1, : $y \in \{0, +1\}$

L (y, β^{T} x) = - y \log (p) - (1 - y) \log (1 - p)

$L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p)$

Dabei ist $p=\frac 1 {1+\exp(-\beta^Tx)}$ , wobei die logistische Funktion eine reelle Zahl $\beta^T x$ auf ein 0,1-Intervall abbildet .

Formulierung / Notation 2, $y \in \{-1, +1\}$ :

L (y, β^{T} x) = \log (1 + \exp (- y \cdot β^{T} x))

$L(y,\beta^Tx)=\log(1+\exp{(-y\cdot \beta^Tx}))$

Die Auswahl einer Notation ist wie die Auswahl einer Sprache. Es gibt Vor- und Nachteile, die eine oder andere Sprache zu verwenden. Was sind die Vor- und Nachteile dieser beiden Notationen?

Meine Versuche, diese Frage zu beantworten, scheinen, dass die Statistik-Community die erste und die Informatik-Community die zweite Schreibweise mag.

Die erste Notation kann mit dem Begriff "Wahrscheinlichkeit" erklärt werden, da die logistische Funktion eine reelle Zahl $\beta^Tx$ in ein 0,1-Intervall umwandelt .
Die zweite Notation ist prägnanter und lässt sich leichter mit Scharnierverlust oder 0-1-Verlust vergleichen.

Habe ich recht? Irgendwelche anderen Einsichten?

logistic generalized-linear-model notation loss-functions Haitao Du
quelle

Ich bin mir sicher, dass dies schon mehrmals gefragt wurde. ZB stats.stackexchange.com/q/145147/5739

StasK

Warum ist die zweite Notation Ihrer Meinung nach leichter mit dem Verlust von Scharnieren zu vergleichen? Nur weil es auf anstatt auf oder auf etwas anderem definiert ist?

{- 1, 1}

$\{-1, 1\}$

{0, 1}

$\{0, 1\}$

Shadowtalker

Ich mag die Symmetrie der ersten Form ein bisschen, aber der lineare Teil ist ziemlich tief vergraben, so dass es schwierig sein kann, damit zu arbeiten.

Matthew Drury

@ssdecontrol Bitte überprüfen Sie diese Zahl, cs.cmu.edu/~yandongl/loss.html wobei die x-Achse

ist und die y-Achse der Verlustwert ist. Eine solche Definition ist bequem zu vergleichen mit 01 Verlust, Scharnierverlust, etc.

- y \cdot β^{T} x

$-y\cdot \beta^Tx$

Haitao Du

Antworten:

Die kurze Version

Die lange Version

Das Schöne an der mathematischen Modellierung ist, dass sie flexibel ist. Dies sind zwar äquivalente Verlustfunktionen, sie leiten sich jedoch aus sehr unterschiedlichen zugrunde liegenden Modellen der Daten ab.

Formel 1

Die erste Notation leitet sich von einem Bernoulli-Wahrscheinlichkeitsmodell für , das herkömmlicherweise auf . In diesem Modell, das Ergebnis / label / class / Vorhersage wird durch eine Zufallsvariable repräsentiert , das eine folgt Verteilung. Daher ist seine Wahrscheinlichkeit: $y$ $\{0, 1\}$ $Y$ $\mathrm{Bernoulli}(p)$

P (Y = y | p) = L (p; y) = p^{y} (1 - p)^{1 - y} = {\begin{cases} 1 - p & y = 0 \\ p & y = 1 \end{cases}

$P(Y = y\ |\ p) = \mathcal L(p; y) = p^y\ (1-p)^{1-y} = \begin{cases}1-p &y=0 \\ p &y=1 \end{cases}$

für . Indem wir 0 und 1 als Indikatorwerte verwenden, können wir die stückweise Funktion ganz rechts auf einen präzisen Ausdruck reduzieren. $p\in[0, 1]$

Wie Sie bereits ausgeführt haben, können Sie mit einer Matrix von Eingabedaten verknüpfen , indem Sie . Von hier aus ergibt eine einfache algebraische Manipulation, dass dasselbe ist wie das erste in Ihrer Frage (Hinweis: ). So minimieren Sie den Protokollverlust über $Y$ $x$ $\operatorname{logit} p = \beta^T x$ $\log \mathcal L(p;y)$ $L(y, \beta^Tx)$ $(y - 1) = - (1 - y)$ entspricht der Maximum-Likelihood-Schätzung eines Bernoulli-Modells. $\{0, 1\}$

Diese Formulierung ist auch ein Sonderfall des verallgemeinerten linearen Modells , das als für eine invertierbare, differenzierbare Funktion und eine Verteilung in der Exponentialfamilie formuliert ist . $Y \sim D(\theta),\ g(Y) = \beta^T x$ $g$ $D$

Formel 2

Eigentlich bin ich mit der Formel 2 nicht vertraut. Die Definition von auf ist jedoch Standard bei der Formulierung einer Support-Vektor-Maschine . Das Anpassen einer SVM entspricht dem Maximieren von $y$ $\{-1, 1\}$

max ({0, 1 - y β^{T} x}) + λ ‖ β ‖^{2} .

$\max \left(\{0, 1 - y \beta^T x \}\right) + \lambda \|\beta\|^2.$

Dies ist die Lagrange-Form eines eingeschränkten Optimierungsproblems. Es ist auch ein Beispiel für ein reguliertes Optimierungsproblem mit der Zielfunktion für eine Verlustfunktion und einem skalaren Hyperparameter , der den Grad der Regularisierung (auch "Schrumpfung" genannt) steuert . Der Scharnierverlust ist nur eine von mehreren Drop-In-Möglichkeiten für , zu denen auch das zweite

ℓ (y, β) + λ ‖ β ‖^{2}

$\ell(y, \beta) + \lambda \|\beta\|^2$

ℓ

$\ell$

λ

$\lambda$

β

$\beta$

ℓ

$\ell$

in Ihrer Frage.

L (y, β^{T} x)

$L(y, \beta^Tx)$

Shadowtalker
quelle

Sollte es in der Formel 1 nicht sein:

p^{y} (1 - p)^{1 - y 1 - y}

$p^y(1 - p)^{\pmb{1 - y}}$

glebm

Ich denke, @ssdecontrol hatte eine sehr gute Antwort. Ich möchte nur einige Kommentare für die Formel 2 für meine eigene Frage hinzufügen.

L (y, \hat{y}) = \log (1 + \exp (- y \cdot \hat{y}))

$L(y,\hat y)=\log(1+\exp{(-y\cdot \hat y}))$

Der Grund, warum die Leute diese Formulierung mögen, ist, dass sie sehr präzise ist und die "Wahrscheinlichkeitsinterpretationsdetails" entfernt.

$\hat y$ $y$ $\hat y$

L_{01} (y, \hat{y}) = I [y \cdot \hat{y} > 0] L_{hinge} (y, \hat{y}) = (1 - y \cdot \hat{y})_{+} L_{logistic} (y, \hat{y}) = \log (1 + \exp (- y \cdot \hat{y}))

$L_{01}(y,\hat y)=I[y \cdot \hat y >0]\\ L_{\text{hinge}}(y,\hat y)=(1-y \cdot \hat y)_+\\ L_{\text{logistic}}(y,\hat y)=\log(1+\exp(-y \cdot \hat y))$

$y \cdot \hat y$ $\hat y$ $\beta^Tx$

Haitao Du
quelle

Ich verstehe, was du mit einfachem Vergleich

meinst