Ich glaube, ich habe einige grundsätzliche Verwirrung darüber, wie die Funktionen in der logistischen Regression funktionieren (oder vielleicht nur als Ganzes funktionieren).
Wie kommt es, dass die Funktion h (x) die Kurve links im Bild erzeugt?
Ich sehe, dass dies eine Darstellung von zwei Variablen ist, aber dann sind diese beiden Variablen (x1 & x2) auch Argumente der Funktion selbst. Ich kenne Standardfunktionen einer variablen Zuordnung zu einem Ausgang, aber diese Funktion macht das eindeutig nicht - und ich bin mir nicht ganz sicher, warum.
Meiner Intuition nach ist die blau / rosa Kurve in diesem Diagramm nicht wirklich eingezeichnet, sondern eine Darstellung (Kreise und X), die auf Werte in der nächsten Dimension (3.) des Diagramms abgebildet wird. Ist diese Argumentation fehlerhaft und fehle ich nur etwas? Vielen Dank für jede Einsicht / Intuition.
Antworten:
Dies ist ein Beispiel für eine Überanpassung des Coursera-Kurses zu ML von Andrew Ng im Fall eines Klassifizierungsmodells mit zwei Merkmalen , bei dem die wahren Werte durch symbolisiert werden. und und die Entscheidungsgrenze ist durch die Verwendung von Polynomtermen höherer Ordnung genau auf die Trainingsmenge zugeschnitten.× ∘ ,( x1, x2) × ∘ ,
Das Problem, das es zu veranschaulichen versucht, hängt damit zusammen, dass die Grenzentscheidungslinie (krummlinige Linie in Blau) zwar keine Beispiele falsch klassifiziert, ihre Fähigkeit, aus dem Trainingssatz heraus zu generalisieren, jedoch beeinträchtigt wird. Andrew Ng erklärt weiter, dass Regularisierung diesen Effekt abschwächen kann, und zeichnet die Magentakurve als Entscheidungsgrenze, die weniger eng mit dem Trainingssatz verbunden ist und mit größerer Wahrscheinlichkeit verallgemeinert wird.
In Bezug auf Ihre spezifische Frage:
Es gibt keine Höhe (dritte Dimension): Es gibt zwei Kategorien und und die Entscheidungslinie zeigt, wie das Modell sie trennt. Im einfacheren Modell∘ ) ,( × ∘ ) ,
Die Entscheidungsgrenze ist linear.
Vielleicht haben Sie so etwas im Sinn, zum Beispiel:
Beachten Sie jedoch, dass die Hypothese eine -Funktion enthält - die logistische Aktivierung in Ihrer Ausgangsfrage. Für jeden Wert von und die Polynomfunktion aktiviert (häufig nichtlinear, z. B. in einer Sigmoidfunktion wie im OP, jedoch nicht unbedingt (z. B. RELU)). Als begrenzte Ausgabe bietet sich die Sigmoidaktivierung für eine probabilistische Interpretation an: Die Idee in einem Klassifizierungsmodell ist, dass die Ausgabe bei einem gegebenen Schwellenwert als oderTatsächlich wird eine kontinuierliche Ausgabe in eine binäre Ausgabe zerquetscht .G( ⋅ ) x1 x2 × ( ∘ ) . ( 1 , 0 )
Abhängig von den Gewichten (oder Parametern) und der Aktivierungsfunktion wird jeder Punkt in der Feature-Ebene entweder der Kategorie oder . Diese Beschriftung kann korrekt sein oder auch nicht: Sie ist korrekt, wenn die Punkte in der Stichprobe von und auf der Ebene im Bild gezeichnet werden auf dem OP entsprechen den vorhergesagten Etiketten. Die Grenzen zwischen den Regionen der Ebene, die als " und den angrenzenden Regionen, die als " . Sie können eine Linie oder mehrere Linien sein, die "Inseln" isolieren (sehen Sie selbst, wie Sie mit dieser App von Tony Fischetti spielen)( x1, x2) × ∘ × ∘ × ∘ Teil dieses Blogeintrags bei R-Bloggern ).
Beachten Sie den Eintrag in Wikipedia zur Entscheidungsgrenze :
Es ist keine Höhenkomponente erforderlich, um die tatsächliche Grenze grafisch darzustellen. Wenn Sie andererseits den Sigma-Aktivierungswert (stetig mit dem Bereich zeichnen, benötigen Sie eine dritte ("Höhen") Komponente, um das Diagramm zu visualisieren:∈ [ 0 , 1 ] ) ,
Wenn Sie einen einführen wollen D Visualisierung für die Entscheidungsfläche, überprüfen Sie diese Folie auf einem Online - Kurs über NN von Hugo Larochelle , die die Aktivierung eines Neurons:3
Dabei ist und der Gewichtsvektor im Beispiel im OP. Am interessantesten ist die Tatsache, dass orthogonal zum trennenden "Grat" im Klassifikator ist: Wenn der Grat eine (Hyper-) Ebene ist, ist der Vektor der Gewichte oder Parameter der normale Vektor.y1= hθ( x ) W ( Θ ) Θ
Diese trennenden Hyperebenen verbinden mehrere Neuronen und können addiert und subtrahiert werden, um launische Formen zu erhalten:
Dies ist mit dem universellen Approximationssatz verknüpft .
quelle
Wir haben einige leistungsstarke Mathematiker, die diese Frage beantworten. Ich habe noch nie ein Diagramm wie das von Ihnen gesehen, bei dem die Werte für die Prädiktoren X1 und X2 und die Entscheidungsgrenze die vorhergesagten Positiven von den vorhergesagten Negativen trennen. (Oder handelt es sich um eine Karte mit vorhergesagten und tatsächlichen Ergebnissen?) Aber es ist nützlich - solange Sie nur zwei interessante Prädiktoren haben, die Sie abbilden möchten.
Es scheint, dass die Magenta-Linie die vorhergesagten Positiven von den vorhergesagten Negativen trennt, während die dunkelblaue Linie alle Positiven enthält. Dies ist normalerweise bei der logistischen Regression der Fall: Das Modell sagt das Ergebnis für weniger als 100% der Fälle korrekt voraus (und sagt einige falsch-positive und / oder falsch-negative Ergebnisse voraus).
Es ist möglich, eine logistische Regression durchzuführen und die Prozedur die Funktion h (x) für jeden einzelnen Fall im Datensatz erstellen zu lassen. Dadurch wird für jedes Subjekt ein Neigungswert von 0 bis 1 erstellt, der die vorhergesagte Wahrscheinlichkeit oder Wahrscheinlichkeit des positiven Ergebnisses für jedes Subjekt basierend auf den Prädiktorvariablen dieses Subjekts auf der Grundlage des logistischen Regressionsmodells unter Verwendung aller Subjekte angibt. Es wird vorausgesagt, dass diejenigen mit einem Neigungs-Score-Cutoff von 0,5 oder höher das Ergebnis haben, und dass diejenigen unter 0,5 das Ergebnis nicht haben. Sie können diesen Grenzwert jedoch nach Belieben anpassen, um beispielsweise ein diagnostisches Vorhersagemodell für ein bestimmtes Ergebnis zu erstellen, das auf allen Eingabevariablen basiert, die in Ihre logistische Regressionsanalyse eingegeben wurden. Sie können den Grenzwert beispielsweise auf 0,3 einstellen. Sie können dann eine 2X2-Tabelle mit prognostizierten und tatsächlichen Ergebnissen erstellen und Ihre Sensitivität, Spezifität, falsch-positive Rate und falsch-negative Rate des Modells basierend auf dieser Cutoff-Stufe bestimmen. Dies liefert mehr Informationen und befreit Sie auch von der Beschränkung von 2 Variablen, die in Ihrem Diagramm verwendet werden. Sie können so viele Prädiktoren verwenden, wie Sie angemessen in das Modell passen, und dennoch eine 2X2-Tabelle des tatsächlichen vs. des vorhergesagten Ergebnisses erstellen. Da die logistische Regression kategoriale (Ja-Nein) Ergebnisse verwendet, ist jede Zelle in der 2X2-Tabelle lediglich eine Zählung der Subjekte, die die Zeilen- und Spaltenkriterien erfüllen. Sie können so viele Prädiktoren verwenden, wie Sie angemessen in das Modell passen, und dennoch eine 2X2-Tabelle des tatsächlichen vs. des vorhergesagten Ergebnisses erstellen. Da die logistische Regression kategoriale (Ja-Nein) Ergebnisse verwendet, ist jede Zelle in der 2X2-Tabelle lediglich eine Zählung der Subjekte, die die Zeilen- und Spaltenkriterien erfüllen. Sie können so viele Prädiktoren verwenden, wie Sie angemessen in das Modell passen, und dennoch eine 2X2-Tabelle des tatsächlichen vs. des vorhergesagten Ergebnisses erstellen. Da die logistische Regression kategoriale (Ja-Nein) Ergebnisse verwendet, ist jede Zelle in der 2X2-Tabelle lediglich eine Zählung der Subjekte, die die Zeilen- und Spaltenkriterien erfüllen.
In der von Ihnen bereitgestellten Grafik wird wahrscheinlich ein Cutoff von 0,5 angenommen. Dies ist die Standardeinstellung für Software. Wenn Sie ihn höher einstellen (zum Beispiel auf 0,65), enthält er möglicherweise alle O-Werte in der Zeile, aber Sie haben auch einige falsche Positive (X, von denen er annimmt, dass es sich um O-Werte handelt), deren Ergebnis das Modell vorhersagen würde Interesse. (oder stellen Sie den Cutoff-Score niedriger ein und haben Sie mehr falsche Negative).
Ich hoffe das hilft.
quelle