Nehmen Sie im Allgemeinen an, dass Sie sich für ein Modell des Formulars entschieden haben
P(y=1|X=x)=h(x;Θ)
für einige Parameter . Dann schreiben Sie einfach die Wahrscheinlichkeit dafür auf, dhΘ
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0P(y=0|x=x;Θ)
das ist das gleiche wie
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0(1−P(y=1|x=x;Θ))
Jetzt haben Sie beschlossen, "anzunehmen" (Modell)
P(y=1|X=x)=σ(Θ0+Θ1x)
wobei
σ(z)=1/(1+e−z)
so berechnen Sie nur die Formel für die Wahrscheinlichkeit und tun irgendeine Art von Optimierungsalgorithmus, um die zu finden , beispielsweise Newtons Verfahren oder einem anderen Gradienten basierenden Verfahren.argmaxΘL(Θ)
Beachten Sie, dass die Leute manchmal sagen, dass sie bei der Durchführung einer logistischen Regression nicht die Wahrscheinlichkeit maximieren (wie wir / Sie es oben getan haben), sondern vielmehr die Verlustfunktion minimieren
l(Θ)=−∑i=1Nyilog(P(Yi=1|X=x;Θ))+(1−yi)log(P(Yi=0|X=x;Θ))
aber beachte, dass .−log(L(Θ))=l(Θ)
Dies ist ein allgemeines Muster im maschinellen Lernen: Die praktische Seite (Minimierung von Verlustfunktionen, die messen, wie 'falsch' ein heuristisches Modell ist) ist in der Tat gleich der 'theoretischen Seite' (Modellierung explizit mit dem Symbol, Maximierung statistischer Größen wie Wahrscheinlichkeiten) und in der Tat können viele Modelle, die nicht wie probabilistische aussehen (z. B. SVMs), in einem probabilistischen Kontext neu verstanden werden und sind tatsächlich Maximierungen von Wahrscheinlichkeiten.P
Ihre Wahrscheinlichkeitsfunktion (4) besteht aus zwei Teilen: dem Produkt der Erfolgswahrscheinlichkeit für nur die Personen in Ihrer Stichprobe, die einen Erfolg erlebt haben, und dem Produkt der Ausfallswahrscheinlichkeit für nur die Personen in Ihrer Stichprobe, die einen Fehler erlebt haben. Vorausgesetzt, dass jede Person entweder einen Erfolg oder einen Misserfolg erlebt, aber nicht beide, wird die Wahrscheinlichkeit für jede Person nur einmal erscheinen. Das ist , was die und , y i = 0 am Ende der Produkt Zeichen bedeuten.,yi=1 ,yi=0
Die Koeffizienten werden durch Einsetzen von (1) in (4) in die Wahrscheinlichkeitsfunktion einbezogen. Auf diese Weise wird die Wahrscheinlichkeitsfunktion eine Funktion von . Der Punkt der maximalen Wahrscheinlichkeit besteht darin, das ω zu finden , das die Wahrscheinlichkeit maximiert.ω ω
quelle