Warum ist die logistische Regression ein linearer Klassifikator?

49

Wie kann die logistische Regression als linearer Klassifikator betrachtet werden, da wir die logistische Funktion verwenden, um eine lineare Kombination der Eingabe in eine nicht lineare Ausgabe umzuwandeln?

Lineare Regression ist wie ein neuronales Netzwerk ohne verborgene Schicht. Warum werden neuronale Netzwerke als nichtlineare Klassifikatoren betrachtet und logistische Regression ist linear?

Jack Twain
quelle
7
Die Umwandlung "einer linearen Kombination der Eingabe in eine nichtlineare Ausgabe" ist ein grundlegender Teil der Definition eines linearen Klassifikators . Das reduziert diese Frage auf den zweiten Teil, der zeigt, dass neuronale Netze im Allgemeinen nicht als lineare Klassifikatoren ausgedrückt werden können.
Whuber
1
@whuber: Wie erklären Sie die Tatsache, dass ein logistisches Regressionsmodell polynomielle Prädiktorvariablen (z. B. ) verwenden kann, um eine nichtlineare Entscheidungsgrenze zu erzeugen? Ist das noch ein linearer Klassifikator? w1x12+w2x23
Stackoverflowuser2010
4
@Stack Das Konzept des "linearen Klassifikators" scheint aus dem Konzept eines linearen Modells zu stammen. "Linearität" in einem Modell kann verschiedene Formen annehmen, wie unter stats.stackexchange.com/a/148713 beschrieben . Wenn wir die Wikipedia-Charakterisierung von linearen Klassifikatoren akzeptieren , würde Ihr Polynombeispiel im Hinblick auf die angegebenen "Merkmale" und x 2 als nichtlinear angesehen, im Hinblick auf die Merkmale x 2 1 und x 3 2 jedoch als linear . Diese Unterscheidung bietet eine nützliche Möglichkeit, die Eigenschaften der Linearität auszunutzen.x1x2x12x23
Whuber
1
Ich bin immer noch ein bisschen verwirrt über die Frage, ob die Entscheidungsgrenze eines logistischen Klassifikators linear ist. Ich habe die Andrew Ng Maschine folgte natürlich auf Coursera Lernen und er erwähnt die folgende: ! [Image Beschreibung hier eingeben (] i.stack.imgur.com/gHxfr.png ) Also eigentlich ist es mir scheint niemand da ist es Antwort hängt von der Linearität oder Nichtlinearität der Entscheidungsgrenze ab, die von der Hypothesenfunktion abhängt, die als Htheta (X) definiert ist, wobei X die Eingabe und Theta die Variablen unseres Problems sind. Macht es für dich Sinn?
Brokensword

Antworten:

42

p^=11+eμ^, where μ^=θ^x.
μ^xx

x

{x:p^=0.5}θ^x=0

Stefan Wager
quelle
2
xθ
1
dann auch durch deine erklärung. Können wir sagen, dass die Vorhersage des neuronalen Netzwerks eine lineare Funktion der Aktivierungen der letzten verborgenen Schicht ist?
Jack Twain
2
θ^xθ^xxx
3
xx
3
@ Pegah Ich weiß, das ist alt, aber: Logistische Regression hat eine lineare Entscheidungsgrenze. Das Ergebnis selbst ist natürlich nicht linear, sondern logistisch. Abhängig davon, auf welche Seite der Linie ein Punkt fällt, nähert sich die Gesamtleistung 0 oder 1 (erreicht diese jedoch nie). Und um Stefan Wagners Antwort hinzuzufügen: Der letzte Satz ist nicht ganz richtig, ein neuronales Netzwerk ist nicht linear, wenn es nicht lineare Aktivierungen oder Ausgabefunktionen enthält. Es kann aber auch linear sein (falls keine Nichtlinearitäten hinzugefügt wurden).
Chris
20

Wie Stefan Wagner feststellt, ist die Entscheidungsgrenze für einen logistischen Klassifikator linear. (Für den Klassifikator müssen die Eingaben linear trennbar sein.) Ich wollte die Mathematik hierfür erweitern, falls dies nicht offensichtlich ist.

11+eθx=0.5

1=eθx

und, das natürliche Protokoll von beiden Seiten nehmend,

0=θx=i=0nθixi

Die Entscheidungsgrenze ist also linear.

Der Grund, warum die Entscheidungsgrenze für ein neuronales Netzwerk nicht linear ist, liegt darin, dass es zwei Schichten von Sigmoidfunktionen im neuronalen Netzwerk gibt: eine in jedem der Ausgangsknoten plus eine zusätzliche Sigmoidfunktion zum Kombinieren und Schwellwerten der Ergebnisse jedes Ausgangsknotens.

Phil Bogle
quelle
2
Tatsächlich können Sie eine nichtlineare Entscheidungsgrenze erhalten, wenn nur eine Ebene aktiviert ist. Sehen Sie sich das Standardbeispiel eines XOR mit einem 2-Layer-Feed-Forward-Netzwerk an.
James Hirschorn
5

C0C1

P(C0|x)=P(x|C0)P(C0)P(x)
P(C0|x)=P(x|C0)P(C0)P(x|C0)P(C0)+P(x|C1)P(C1)=11+exp(logP(x|C0)P(x|C1)logP(C0)P(C1))
1+eωx

P(x|Ci)=exp(θixb(θi)a(ϕ)+c(x,ϕ))
logP(x|C0)P(x|C1)=[(θ0θ1)xb(θ0)+b(θ1)]/a(ϕ)

Beachten Sie, dass wir davon ausgehen, dass beide Verteilungen zur gleichen Familie gehören und die gleichen Dispersionsparameter haben. Unter dieser Annahme kann die logistische Regression die Wahrscheinlichkeiten für die gesamte Familie der Exponentialverteilungen modellieren.

jpmuc
quelle