Wie kann die logistische Regression Kurven erzeugen, die keine herkömmlichen Funktionen sind?

15

Ich glaube, ich habe einige grundsätzliche Verwirrung darüber, wie die Funktionen in der logistischen Regression funktionieren (oder vielleicht nur als Ganzes funktionieren).

Wie kommt es, dass die Funktion h (x) die Kurve links im Bild erzeugt?

Ich sehe, dass dies eine Darstellung von zwei Variablen ist, aber dann sind diese beiden Variablen (x1 & x2) auch Argumente der Funktion selbst. Ich kenne Standardfunktionen einer variablen Zuordnung zu einem Ausgang, aber diese Funktion macht das eindeutig nicht - und ich bin mir nicht ganz sicher, warum.

Bildbeschreibung hier eingeben

Meiner Intuition nach ist die blau / rosa Kurve in diesem Diagramm nicht wirklich eingezeichnet, sondern eine Darstellung (Kreise und X), die auf Werte in der nächsten Dimension (3.) des Diagramms abgebildet wird. Ist diese Argumentation fehlerhaft und fehle ich nur etwas? Vielen Dank für jede Einsicht / Intuition.

Sam
quelle
8
Achten Sie auf die Achsenbeschriftungen. Beachten Sie, dass keine der beiden mit . y
Matthew Drury
3
Was wäre eine "traditionelle Funktion"?
Whuber
@matthewDrury Ich verstehe das und das erklärt die 2D X / Os. Ich frage, woher dann die geplottete Kurve kommt
Sam

Antworten:

19

Dies ist ein Beispiel für eine Überanpassung des Coursera-Kurses zu ML von Andrew Ng im Fall eines Klassifizierungsmodells mit zwei Merkmalen , bei dem die wahren Werte durch symbolisiert werden. und und die Entscheidungsgrenze ist durch die Verwendung von Polynomtermen höherer Ordnung genau auf die Trainingsmenge zugeschnitten.× ,(x1,x2)×,

Das Problem, das es zu veranschaulichen versucht, hängt damit zusammen, dass die Grenzentscheidungslinie (krummlinige Linie in Blau) zwar keine Beispiele falsch klassifiziert, ihre Fähigkeit, aus dem Trainingssatz heraus zu generalisieren, jedoch beeinträchtigt wird. Andrew Ng erklärt weiter, dass Regularisierung diesen Effekt abschwächen kann, und zeichnet die Magentakurve als Entscheidungsgrenze, die weniger eng mit dem Trainingssatz verbunden ist und mit größerer Wahrscheinlichkeit verallgemeinert wird.


In Bezug auf Ihre spezifische Frage:

Meiner Intuition nach ist die blau / rosa Kurve in diesem Diagramm nicht wirklich eingezeichnet, sondern eine Darstellung (Kreise und X), die auf Werte in der nächsten Dimension (3.) des Diagramms abgebildet wird.

Es gibt keine Höhe (dritte Dimension): Es gibt zwei Kategorien und und die Entscheidungslinie zeigt, wie das Modell sie trennt. Im einfacheren Modell) ,(×),

hθ(x)=g(θ0+θ1x1+θ2x2)

Die Entscheidungsgrenze ist linear.


Vielleicht haben Sie so etwas im Sinn, zum Beispiel:

5+2x-1.3x2-1.2x2y+1x2y2+3x2y3

Bildbeschreibung hier eingeben

Beachten Sie jedoch, dass die Hypothese eine -Funktion enthält - die logistische Aktivierung in Ihrer Ausgangsfrage. Für jeden Wert von und die Polynomfunktion aktiviert (häufig nichtlinear, z. B. in einer Sigmoidfunktion wie im OP, jedoch nicht unbedingt (z. B. RELU)). Als begrenzte Ausgabe bietet sich die Sigmoidaktivierung für eine probabilistische Interpretation an: Die Idee in einem Klassifizierungsmodell ist, dass die Ausgabe bei einem gegebenen Schwellenwert als oderTatsächlich wird eine kontinuierliche Ausgabe in eine binäre Ausgabe zerquetscht .G()x1x2× ().(1,0)

Abhängig von den Gewichten (oder Parametern) und der Aktivierungsfunktion wird jeder Punkt in der Feature-Ebene entweder der Kategorie oder . Diese Beschriftung kann korrekt sein oder auch nicht: Sie ist korrekt, wenn die Punkte in der Stichprobe von und auf der Ebene im Bild gezeichnet werden auf dem OP entsprechen den vorhergesagten Etiketten. Die Grenzen zwischen den Regionen der Ebene, die als " und den angrenzenden Regionen, die als " . Sie können eine Linie oder mehrere Linien sein, die "Inseln" isolieren (sehen Sie selbst, wie Sie mit dieser App von Tony Fischetti spielen)(x1,x2)×××Teil dieses Blogeintrags bei R-Bloggern ).

Beachten Sie den Eintrag in Wikipedia zur Entscheidungsgrenze :

In einem statistischen Klassifizierungsproblem mit zwei Klassen ist eine Entscheidungsgrenze oder Entscheidungsfläche eine Hyperfläche, die den zugrunde liegenden Vektorraum in zwei Mengen unterteilt, eine für jede Klasse. Der Klassifikator klassifiziert alle Punkte auf einer Seite der Entscheidungsgrenze als zu einer Klasse gehörig und alle Punkte auf der anderen Seite als zu der anderen Klasse gehörig. Eine Entscheidungsgrenze ist der Bereich eines Problemraums, in dem das Ausgabe-Label eines Klassifikators nicht eindeutig ist.

Es ist keine Höhenkomponente erforderlich, um die tatsächliche Grenze grafisch darzustellen. Wenn Sie andererseits den Sigma-Aktivierungswert (stetig mit dem Bereich zeichnen, benötigen Sie eine dritte ("Höhen") Komponente, um das Diagramm zu visualisieren:[0,1]),

Bildbeschreibung hier eingeben


Wenn Sie einen einführen wollen D Visualisierung für die Entscheidungsfläche, überprüfen Sie diese Folie auf einem Online - Kurs über NN von Hugo Larochelle , die die Aktivierung eines Neurons:3

Bildbeschreibung hier eingeben

Dabei ist und der Gewichtsvektor im Beispiel im OP. Am interessantesten ist die Tatsache, dass orthogonal zum trennenden "Grat" im Klassifikator ist: Wenn der Grat eine (Hyper-) Ebene ist, ist der Vektor der Gewichte oder Parameter der normale Vektor.y1=hθ(x)W(Θ)Θ

Diese trennenden Hyperebenen verbinden mehrere Neuronen und können addiert und subtrahiert werden, um launische Formen zu erhalten:

Bildbeschreibung hier eingeben

Dies ist mit dem universellen Approximationssatz verknüpft .

Antoni Parellada
quelle
1
+1 immer viel Spaß beim Lesen Ihrer Antwort. Es ist möglicherweise sogar noch besser, wenn Sie eine Entscheidungsebene mit Ihrer Zeichnung schneiden lassen können. einige oben und einige unten zeigen.
Haitao Du
Vielen Dank dafür. Ich habe immer noch das Gefühl, dass ich etwas Kleines an der Kurve selbst vermisse - das heißt, dass die Entscheidungsgrenze nicht wirklich "gezeichnet" wird, sondern nur Andrew Ngs Art, die Werteschwellen von x1 & x2 anzuzeigen verursachen, dass die Hypothese entweder × oder ∘ ist? Ich glaube, ein Teil meiner Verwirrung ist darauf zurückzuführen, dass diese Kurve überhaupt eine Funktion sein könnte, aber mir ist jetzt klar, dass dies nicht der Fall ist.
Sam
1
@AntoniParellada Das ist toll, ich sehe den Unterschied jetzt. Vielen Dank für die Hilfe.
Sam
0

Wir haben einige leistungsstarke Mathematiker, die diese Frage beantworten. Ich habe noch nie ein Diagramm wie das von Ihnen gesehen, bei dem die Werte für die Prädiktoren X1 und X2 und die Entscheidungsgrenze die vorhergesagten Positiven von den vorhergesagten Negativen trennen. (Oder handelt es sich um eine Karte mit vorhergesagten und tatsächlichen Ergebnissen?) Aber es ist nützlich - solange Sie nur zwei interessante Prädiktoren haben, die Sie abbilden möchten.
Es scheint, dass die Magenta-Linie die vorhergesagten Positiven von den vorhergesagten Negativen trennt, während die dunkelblaue Linie alle Positiven enthält. Dies ist normalerweise bei der logistischen Regression der Fall: Das Modell sagt das Ergebnis für weniger als 100% der Fälle korrekt voraus (und sagt einige falsch-positive und / oder falsch-negative Ergebnisse voraus).
Es ist möglich, eine logistische Regression durchzuführen und die Prozedur die Funktion h (x) für jeden einzelnen Fall im Datensatz erstellen zu lassen. Dadurch wird für jedes Subjekt ein Neigungswert von 0 bis 1 erstellt, der die vorhergesagte Wahrscheinlichkeit oder Wahrscheinlichkeit des positiven Ergebnisses für jedes Subjekt basierend auf den Prädiktorvariablen dieses Subjekts auf der Grundlage des logistischen Regressionsmodells unter Verwendung aller Subjekte angibt. Es wird vorausgesagt, dass diejenigen mit einem Neigungs-Score-Cutoff von 0,5 oder höher das Ergebnis haben, und dass diejenigen unter 0,5 das Ergebnis nicht haben. Sie können diesen Grenzwert jedoch nach Belieben anpassen, um beispielsweise ein diagnostisches Vorhersagemodell für ein bestimmtes Ergebnis zu erstellen, das auf allen Eingabevariablen basiert, die in Ihre logistische Regressionsanalyse eingegeben wurden. Sie können den Grenzwert beispielsweise auf 0,3 einstellen. Sie können dann eine 2X2-Tabelle mit prognostizierten und tatsächlichen Ergebnissen erstellen und Ihre Sensitivität, Spezifität, falsch-positive Rate und falsch-negative Rate des Modells basierend auf dieser Cutoff-Stufe bestimmen. Dies liefert mehr Informationen und befreit Sie auch von der Beschränkung von 2 Variablen, die in Ihrem Diagramm verwendet werden. Sie können so viele Prädiktoren verwenden, wie Sie angemessen in das Modell passen, und dennoch eine 2X2-Tabelle des tatsächlichen vs. des vorhergesagten Ergebnisses erstellen. Da die logistische Regression kategoriale (Ja-Nein) Ergebnisse verwendet, ist jede Zelle in der 2X2-Tabelle lediglich eine Zählung der Subjekte, die die Zeilen- und Spaltenkriterien erfüllen. Sie können so viele Prädiktoren verwenden, wie Sie angemessen in das Modell passen, und dennoch eine 2X2-Tabelle des tatsächlichen vs. des vorhergesagten Ergebnisses erstellen. Da die logistische Regression kategoriale (Ja-Nein) Ergebnisse verwendet, ist jede Zelle in der 2X2-Tabelle lediglich eine Zählung der Subjekte, die die Zeilen- und Spaltenkriterien erfüllen. Sie können so viele Prädiktoren verwenden, wie Sie angemessen in das Modell passen, und dennoch eine 2X2-Tabelle des tatsächlichen vs. des vorhergesagten Ergebnisses erstellen. Da die logistische Regression kategoriale (Ja-Nein) Ergebnisse verwendet, ist jede Zelle in der 2X2-Tabelle lediglich eine Zählung der Subjekte, die die Zeilen- und Spaltenkriterien erfüllen.
In der von Ihnen bereitgestellten Grafik wird wahrscheinlich ein Cutoff von 0,5 angenommen. Dies ist die Standardeinstellung für Software. Wenn Sie ihn höher einstellen (zum Beispiel auf 0,65), enthält er möglicherweise alle O-Werte in der Zeile, aber Sie haben auch einige falsche Positive (X, von denen er annimmt, dass es sich um O-Werte handelt), deren Ergebnis das Modell vorhersagen würde Interesse. (oder stellen Sie den Cutoff-Score niedriger ein und haben Sie mehr falsche Negative).
Ich hoffe das hilft.

Jerry
quelle