Logistische Regression und Wahrscheinlichkeit verstehen

Wie funktioniert die Parameterschätzung / Training der logistischen Regression wirklich? Ich werde versuchen, das, was ich habe, so weit zu bringen.

Die Ausgabe ist y die Ausgabe der logistischen Funktion in Form einer Wahrscheinlichkeit in Abhängigkeit vom Wert von x: $P (y = 1 | x) = \frac{1}{1 + e^{- ω^{T} x}} \equiv σ (ω^{T} x)$ $P(y=1|x)={1\over1+e^{-\omega^Tx}}\equiv\sigma(\omega^Tx)$ $P (y = 0 | x) = 1 - P (y = 1 | x) = 1 - \frac{1}{1 + e^{- ω^{T} x}}$ $P(y=0|x)=1-P(y=1|x)=1-{1\over1+e^{-\omega^Tx}}$
Für eine Dimension ist die sogenannte Quote wie folgt definiert: $\frac{p (y = 1 | x)}{1 - p (y = 1 | x)} = \frac{p (y = 1 | x)}{p (y = 0 | x)} = e^{ω_{0} + ω_{1} x}$ ${{p(y=1|x)}\over{1-p(y=1|x)}}={{p(y=1|x)}\over{p(y=0|x)}}=e^{\omega_0+\omega_1x}$
logFügen Sie nun die Funktion hinzu, um W_0 und W_1 in linearer Form zu erhalten: $L o g i t (y) = l o g (\frac{p (y = 1 | x)}{1 - p (y = 1 | x)}) = ω_{0} + ω_{1} x$ $Logit(y)=log({{p(y=1|x)}\over{1-p(y=1|x)}})=\omega_0+\omega_1x$
Nun zum Problemteil Verwenden der Wahrscheinlichkeit (Big X ist y) Kann jemand sagen, warum wir die Wahrscheinlichkeit von y = 1 zweimal überlegen? da: $L (X | P) = \prod_{i = 1, y_{i} = 1}^{N} P (x_{i}) \prod_{i = 1, y_{i} = 0}^{N} (1 - P (x_{i}))$ $L(X|P)=\prod^N_{i=1,y_i=1}P(x_i)\prod^N_{i=1,y_i=0}(1-P(x_i))$ $P (y = 0 | x) = 1 - P (y = 1 | x)$ $P(y=0|x)=1-P(y=1|x)$

und wie bekommt man die werte von ω daraus?

regression logistic likelihood Motor
quelle

Antworten:

Nehmen Sie im Allgemeinen an, dass Sie sich für ein Modell des Formulars entschieden haben

P (y = 1 | X = x) = h (x; Θ)

$P(y=1|X=x) = h(x;\Theta)$

für einige Parameter . Dann schreiben Sie einfach die Wahrscheinlichkeit dafür auf, dh $\Theta$

L (Θ) = \prod_{i \in {1, . . ., N}, y_{i} = 1} P (y = 1 | x = x; Θ) \cdot \prod_{i \in {1, . . ., N}, y_{i} = 0} P (y = 0 | x = x; Θ)

$L(\Theta) = \prod_{i \in \{1, ..., N\}, y_i = 1} P(y=1|x=x;\Theta) \cdot \prod_{i \in \{1, ..., N\}, y_i = 0} P(y=0|x=x;\Theta)$

das ist das gleiche wie

L (Θ) = \prod_{i \in {1, . . ., N}, y_{i} = 1} P (y = 1 | x = x; Θ) \cdot \prod_{i \in {1, . . ., N}, y_{i} = 0} (1 - P (y = 1 | x = x; Θ))

$L(\Theta) = \prod_{i \in \{1, ..., N\}, y_i = 1} P(y=1|x=x;\Theta) \cdot \prod_{i \in \{1, ..., N\}, y_i = 0} (1-P(y=1|x=x;\Theta))$

Jetzt haben Sie beschlossen, "anzunehmen" (Modell)

P (y = 1 | X = x) = σ (Θ_{0} + Θ_{1} x)

$P(y=1|X=x) = \sigma(\Theta_0 + \Theta_1 x)$

wobei

σ (z) = 1 / (1 + e^{- z})

$\sigma(z) = 1/(1+e^{-z})$

so berechnen Sie nur die Formel für die Wahrscheinlichkeit und tun irgendeine Art von Optimierungsalgorithmus, um die zu finden , beispielsweise Newtons Verfahren oder einem anderen Gradienten basierenden Verfahren. $\text{argmax}_\Theta L(\Theta)$

Beachten Sie, dass die Leute manchmal sagen, dass sie bei der Durchführung einer logistischen Regression nicht die Wahrscheinlichkeit maximieren (wie wir / Sie es oben getan haben), sondern vielmehr die Verlustfunktion minimieren

l (Θ) = - \sum_{i = 1}^{N} y_{i} \log (P (Y_{i} = 1 | X = x; Θ)) + (1 - y_{i}) \log (P (Y_{i} = 0 | X = x; Θ))

$l(\Theta) = -\sum_{i=1}^N{y_i\log(P(Y_i=1|X=x;\Theta)) + (1-y_i)\log(P(Y_i=0|X=x;\Theta))}$

aber beachte, dass . $-\log(L(\Theta)) = l(\Theta)$

Dies ist ein allgemeines Muster im maschinellen Lernen: Die praktische Seite (Minimierung von Verlustfunktionen, die messen, wie 'falsch' ein heuristisches Modell ist) ist in der Tat gleich der 'theoretischen Seite' (Modellierung explizit mit dem Symbol, Maximierung statistischer Größen wie Wahrscheinlichkeiten) und in der Tat können viele Modelle, die nicht wie probabilistische aussehen (z. B. SVMs), in einem probabilistischen Kontext neu verstanden werden und sind tatsächlich Maximierungen von Wahrscheinlichkeiten. $P$

Fabian Werner
quelle

@Werner danke für deine antwort. Aber ich brauche noch ein bisschen clarification.1st können Sie bitte erklären , was auf der Erde den 2

Aufenthalt in der Definition von

, da so weit ich es verstand ich im Fall von interessted

. und wie kann man die werte von

und

? vielen dank für ihre hilfe!

\prod

$\prod$

L (θ)

$L(\theta)$

y_{i} = 1

$y_i =1$

ω_{1}

$\omega_1$

ω_{0}

$\omega_0$

Motor

@Engine: Das große "Pi" ist ein Produkt ... wie ein großes Sigma ist

eine Summe ... verstehst du oder brauchst du auch mehr Klarheit darüber? Zur zweiten Frage: Nehmen wir an, wir wollen eine Funktion

minimieren und beginnen bei

, gehen aber davon aus, dass wir

nicht kennen / ausdrücken / nicht visualisieren können, da es zu kompliziert ist . Nun ist die Ableitung von

ist

. Interessanterweise, wenn wir vom Minimum

richtig liegen

Σ

$\Sigma$

f (x) = x^{2}

$f(x) = x^2$

x = 3

$x=3$

f

$f$

f

$f$

f^{'} = 2 x

$f' = 2x$

x = 0

$x=0$ es zeigt nach rechts und wenn wir links davon sind, zeigt es nach links. Mathematisch zeigt die Ableitung in Richtung des 'stärksten Aufstiegs'

Fabian Werner

@Engine: In mehr Dimensionen Sie die Ableitung durch den Gradienten ersetzen, dh Sie an einer beliebigen Stelle beginnen

und berechnen die Steigung

bei

, und wenn Sie dann Ihren nächsten Punkt maximieren wollen

ist

. Dann berechnen Sie

und Sie nächstes

ist

x_{0}

$x_0$

\partial f

$\partial f$

x

$x$

x_{1}

$x_1$

x_{1} = x_{0} + \partial f (x_{0})

$x_1 = x_0 + \partial f(x_0)$

\partial f (x_{1})

$\partial f(x_1)$

x

$x$

und so weiter. Dies wird als Steigungsanstieg / -abstieg bezeichnet und ist die häufigste Technik zum Maximieren einer Funktion. Jetzt machst du das mit

oder in deiner Notation

, um das

zu finden, das

x_{2} = x_{1} + \partial f (x_{1})

$x_2 = x_1 + \partial f(x_1)$

L (Θ)

$L(\Theta)$

L (ω)

$L(\omega)$

ω

$\omega$

L

$L$

Fabian Werner

@Engine: Sie interessieren sich überhaupt nicht für den Fall

! Sie interessieren sich für das

, das Ihre Daten am besten erklärt. Von Thet

aou läßt das Modell ‚spricht für sich‘ und auf den Fall wieder von

, aber vor allem braucht ein Modell zur Einrichtung! Hier bedeutet "am besten erklären" "die höchste Wahrscheinlichkeit haben", weil die Leute es sich ausgedacht haben (und ich denke, es ist sehr natürlich) ... es gibt jedoch andere Metriken (verschiedene Verlustfunktionen usw.), die man könnte verwenden! Es gibt zwei Produkte, weil wir wollen, dass das Modell das

und das

"gut" erklärt.

y = 1

$y=1$

ω

$\omega$

ω

$\omega$

y = 1

$y=1$

y = 1

$y=1$

y = 0

$y=0$

Fabian Werner

Ihre Wahrscheinlichkeitsfunktion (4) besteht aus zwei Teilen: dem Produkt der Erfolgswahrscheinlichkeit für nur die Personen in Ihrer Stichprobe, die einen Erfolg erlebt haben, und dem Produkt der Ausfallswahrscheinlichkeit für nur die Personen in Ihrer Stichprobe, die einen Fehler erlebt haben. Vorausgesetzt, dass jede Person entweder einen Erfolg oder einen Misserfolg erlebt, aber nicht beide, wird die Wahrscheinlichkeit für jede Person nur einmal erscheinen. Das ist , was die und am Ende der Produkt Zeichen bedeuten. $, y_i=1$ $,y_i=0$

Die Koeffizienten werden durch Einsetzen von (1) in (4) in die Wahrscheinlichkeitsfunktion einbezogen. Auf diese Weise wird die Wahrscheinlichkeitsfunktion eine Funktion von . Der Punkt der maximalen Wahrscheinlichkeit besteht darin, das zu finden , das die Wahrscheinlichkeit maximiert. $\omega$ $\omega$

Maarten Buis
quelle

Vielen Dank für Ihre Antwort, sorry, aber ich verstehe es immer noch nicht. ist nicht

bedeutet die Wahrscheinlichkeit, dass y = 0 für alle y des Produkts ist. und umgekehrt für y_i = 1. Und noch nach der Untertitelung von, wie kann ich

Werte finden, die die 2. Ableitung berechnen? oder Gefälle? Vielen dank für Deine Hilfe !

y_{i} = 0

$y_i = 0$

ω

$\omega$

Motor

sollte als "Produkt für Personen

bis

" gelesen werden, jedoch nur, wenn

Der erste Teil gilt also nur für die Personen in Ihren Daten, die das Ereignis erlebt haben Der zweite Teil bezieht sich nur auf Personen, die das Ereignis nicht erlebt haben

\prod_{i = 1, y = 1}^{N}

$\prod_{i=1, y=1}^N$

i = 1

$i=1$

N

$N$

y = 1

$y=1$

Maarten Buis

Es gibt viele mögliche Algorithmen zur Maximierung der Wahrscheinlichkeitsfunktion. Die gängigste Methode , die Newton-Raphson-Methode , beinhaltet in der Tat die Berechnung der ersten und zweiten Ableitung.

Maarten Buis