Logistische Regression und Wahrscheinlichkeit verstehen

12

Wie funktioniert die Parameterschätzung / Training der logistischen Regression wirklich? Ich werde versuchen, das, was ich habe, so weit zu bringen.

  1. Die Ausgabe ist y die Ausgabe der logistischen Funktion in Form einer Wahrscheinlichkeit in Abhängigkeit vom Wert von x:
    P(y=1|x)=11+eωTxσ(ωTx)
    P(y=0|x)=1P(y=1|x)=111+eωTx
  2. Für eine Dimension ist die sogenannte Quote wie folgt definiert:
    p(y=1|x)1p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x
  3. logFügen Sie nun die Funktion hinzu, um W_0 und W_1 in linearer Form zu erhalten:
    Logit(y)=log(p(y=1|x)1p(y=1|x))=ω0+ω1x
  4. Nun zum Problemteil Verwenden der Wahrscheinlichkeit (Big X ist y) Kann jemand sagen, warum wir die Wahrscheinlichkeit von y = 1 zweimal überlegen? da:
    L(X|P)=i=1,yi=1NP(xi)i=1,yi=0N(1P(xi))
    P(y=0|x)=1P(y=1|x)

und wie bekommt man die werte von ω daraus?

Motor
quelle

Antworten:

10

Nehmen Sie im Allgemeinen an, dass Sie sich für ein Modell des Formulars entschieden haben

P(y=1|X=x)=h(x;Θ)

für einige Parameter . Dann schreiben Sie einfach die Wahrscheinlichkeit dafür auf, dhΘ

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0P(y=0|x=x;Θ)

das ist das gleiche wie

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0(1P(y=1|x=x;Θ))

Jetzt haben Sie beschlossen, "anzunehmen" (Modell)

P(y=1|X=x)=σ(Θ0+Θ1x)

wobei

σ(z)=1/(1+ez)

so berechnen Sie nur die Formel für die Wahrscheinlichkeit und tun irgendeine Art von Optimierungsalgorithmus, um die zu finden , beispielsweise Newtons Verfahren oder einem anderen Gradienten basierenden Verfahren.argmaxΘL(Θ)

Beachten Sie, dass die Leute manchmal sagen, dass sie bei der Durchführung einer logistischen Regression nicht die Wahrscheinlichkeit maximieren (wie wir / Sie es oben getan haben), sondern vielmehr die Verlustfunktion minimieren

l(Θ)=i=1Nyilog(P(Yi=1|X=x;Θ))+(1yi)log(P(Yi=0|X=x;Θ))

aber beachte, dass .log(L(Θ))=l(Θ)

Dies ist ein allgemeines Muster im maschinellen Lernen: Die praktische Seite (Minimierung von Verlustfunktionen, die messen, wie 'falsch' ein heuristisches Modell ist) ist in der Tat gleich der 'theoretischen Seite' (Modellierung explizit mit dem Symbol, Maximierung statistischer Größen wie Wahrscheinlichkeiten) und in der Tat können viele Modelle, die nicht wie probabilistische aussehen (z. B. SVMs), in einem probabilistischen Kontext neu verstanden werden und sind tatsächlich Maximierungen von Wahrscheinlichkeiten.P

Fabian Werner
quelle
@Werner danke für deine antwort. Aber ich brauche noch ein bisschen clarification.1st können Sie bitte erklären , was auf der Erde den 2 Aufenthalt in der Definition von L ( θ ) , da so weit ich es verstand ich im Fall von interessted y i = 1 . und wie kann man die werte von ω 1 und ω 0 bekommen ? vielen dank für ihre hilfe! L(θ)yi=1ω1ω0
Motor
@Engine: Das große "Pi" ist ein Produkt ... wie ein großes Sigma ist eine Summe ... verstehst du oder brauchst du auch mehr Klarheit darüber? Zur zweiten Frage: Nehmen wir an, wir wollen eine Funktion f ( x ) = x 2 minimieren und beginnen bei x = 3 , gehen aber davon aus, dass wir f nicht kennen / ausdrücken / nicht visualisieren können, da es zu kompliziert ist . Nun ist die Ableitung von f ist f ' = 2 x . Interessanterweise, wenn wir vom Minimum x = 0 richtig liegenΣf(x)=x2x=3fff=2xx=0es zeigt nach rechts und wenn wir links davon sind, zeigt es nach links. Mathematisch zeigt die Ableitung in Richtung des 'stärksten Aufstiegs'
Fabian Werner
@Engine: In mehr Dimensionen Sie die Ableitung durch den Gradienten ersetzen, dh Sie an einer beliebigen Stelle beginnen und berechnen die Steigung f bei x , und wenn Sie dann Ihren nächsten Punkt maximieren wollen x 1 ist x 1 = x 0 + f ( x 0 ) . Dann berechnen Sie f ( x 1 ) und Sie nächstes x ist x 2 = x 1 + f ( x 1x0fxx1x1=x0+f(x0)f(x1)x und so weiter. Dies wird als Steigungsanstieg / -abstieg bezeichnet und ist die häufigste Technik zum Maximieren einer Funktion. Jetzt machst du das mit L ( Θ ) oder in deiner Notation L ( ω ) , um das ω zu finden, das Lx2=x1+f(x1)L(Θ)L(ω)ωL
Fabian Werner
@Engine: Sie interessieren sich überhaupt nicht für den Fall ! Sie interessieren sich für das ω , das Ihre Daten am besten erklärt. Von Thet ω aou läßt das Modell ‚spricht für sich‘ und auf den Fall wieder von y = 1 , aber vor allem braucht ein Modell zur Einrichtung! Hier bedeutet "am besten erklären" "die höchste Wahrscheinlichkeit haben", weil die Leute es sich ausgedacht haben (und ich denke, es ist sehr natürlich) ... es gibt jedoch andere Metriken (verschiedene Verlustfunktionen usw.), die man könnte verwenden! Es gibt zwei Produkte, weil wir wollen, dass das Modell das y = 1 und das y = 0 "gut" erklärt.y=1ωωy=1y=1 y=0
Fabian Werner
8

Ihre Wahrscheinlichkeitsfunktion (4) besteht aus zwei Teilen: dem Produkt der Erfolgswahrscheinlichkeit für nur die Personen in Ihrer Stichprobe, die einen Erfolg erlebt haben, und dem Produkt der Ausfallswahrscheinlichkeit für nur die Personen in Ihrer Stichprobe, die einen Fehler erlebt haben. Vorausgesetzt, dass jede Person entweder einen Erfolg oder einen Misserfolg erlebt, aber nicht beide, wird die Wahrscheinlichkeit für jede Person nur einmal erscheinen. Das ist , was die und , y i = 0 am Ende der Produkt Zeichen bedeuten.,yi=1,yi=0

Die Koeffizienten werden durch Einsetzen von (1) in (4) in die Wahrscheinlichkeitsfunktion einbezogen. Auf diese Weise wird die Wahrscheinlichkeitsfunktion eine Funktion von . Der Punkt der maximalen Wahrscheinlichkeit besteht darin, das ω zu finden , das die Wahrscheinlichkeit maximiert.ωω

Maarten Buis
quelle
Vielen Dank für Ihre Antwort, sorry, aber ich verstehe es immer noch nicht. ist nicht bedeutet die Wahrscheinlichkeit, dass y = 0 für alle y des Produkts ist. und umgekehrt für y_i = 1. Und noch nach der Untertitelung von, wie kann ich ω- Werte finden, die die 2. Ableitung berechnen? oder Gefälle? Vielen dank für Deine Hilfe ! yi=0ω
Motor
sollte als "Produkt für Personen i = 1 bis N " gelesen werden, jedoch nur, wenn y = 1. Der erste Teil gilt also nur für die Personen in Ihren Daten, die das Ereignis erlebt haben Der zweite Teil bezieht sich nur auf Personen, die das Ereignis nicht erlebt habeni=1,y=1Ni=1Ny=1
Maarten Buis
Es gibt viele mögliche Algorithmen zur Maximierung der Wahrscheinlichkeitsfunktion. Die gängigste Methode , die Newton-Raphson-Methode , beinhaltet in der Tat die Berechnung der ersten und zweiten Ableitung.
Maarten Buis