Können die linear nicht trennbaren Daten mithilfe von Polynommerkmalen mit logistischer Regression gelernt werden?

Ich weiß, dass Polynomial Logistic Regressionman damit leicht typische Daten wie das folgende Bild lernen kann: Ich habe mich gefragt, ob die folgenden beiden Daten auch mit gelernt werden können oder nicht.

Polynomial Logistic Regression

Ich muss wohl noch mehr Erklärungen hinzufügen. Nehmen Sie die erste Form an. Wenn wir zusätzliche Polynommerkmale für diesen 2D-Eingang hinzufügen (wie x1 ^ 2 ...), können wir eine Entscheidungsgrenze festlegen, die die Daten trennen kann. Angenommen, ich wähle X1 ^ 2 + X2 ^ 2 = b. Dies kann die Daten trennen. Wenn ich zusätzliche Funktionen hinzufüge, erhalte ich eine Wellenform (möglicherweise einen Wellenkreis oder eine Wellenellipse), aber die Daten des zweiten Diagramms können trotzdem nicht getrennt werden, oder?

machine-learning classification Medien
quelle

Vielleicht ist es ein Ausrutscher, aber Sie fragen implizit nach Klassifizierung, nicht nach Regression ...

Emre

@ Emre eigentlich frage ich nach polynomialer logistischer Regression, Sie haben Recht :)

Medien

Wo hast du darüber gelesen? Meinten Sie multinomiale logistische Regression?

Emre

Ich weiß nichts über Statik , aber ich habe noch nie von polynomialer logistischer Regression in der Statistik gehört . Ich denke, Sie sollten sich mit der logistischen Regression des Kernels befassen, wenn Sie an nichtlinearen Klassengrenzen interessiert sind.

Emre

Es gibt dort keinen Hinweis auf eine polynomielle logistische Regression. Oder irgendeine andere Art von logistischer Regression.

Emre

Ja, theoretisch kann die polynomielle Erweiterung der logistischen Regression jede beliebige Klassifizierungsgrenze annähern. Dies liegt daran, dass ein Polynom jede Funktion approximieren kann (zumindest die Typen, die für Klassifizierungsprobleme nützlich sind), und dies wird durch das Stone-Weierstrass-Theorem bewiesen .

Ob diese Annäherung für alle Grenzformen praktikabel ist, ist eine andere Frage. Möglicherweise suchen Sie besser nach anderen Basisfunktionen (z. B. Fourier-Reihen oder radialer Abstand von Beispielpunkten) oder nach anderen Ansätzen (z. B. SVM), wenn Sie eine komplexe Grenzform im Merkmalsraum vermuten. Das Problem bei der Verwendung von Polynomen höherer Ordnung besteht darin, dass die Anzahl der zu verwendenden Polynommerkmale exponentiell mit dem Grad des Polynoms und der Anzahl der ursprünglichen Merkmale zunimmt.

$5 - 10 xy$ $-1$ $1$ $(x,y)$

(- 1, - 1) : - 5 (- 1, 1) : 5 (1, - 1) : 5 (1, 1) : - 5

$(-1,-1): -5 \qquad (-1,1): 5 \qquad (1,-1): 5 \qquad(1, 1): -5$

Wenn Sie dies an die Logistikfunktion übergeben, erhalten Sie Werte nahe genug an 0 und 1.

Ähnlich wie bei Ihren beiden kreisförmigen Flächen ist eine einfache Achterkurve:

a (x^{2} - y^{2} - b x^{4} + c)

$a(x^2 - y^2 - bx^4 + c)$

$a, b$ $c$ $y$ $a, b$ $c$ $a=1,b=0.05,c=-1$ $x=-3$ $x=3$

$x^2 - y^2 - 0.05x^4 -1>0$ $\frac{1}{1+e^{-z}} > 0.5$ $z>0$

$1, x^2, y^2, x^4$ $y$

Tatsächlich können Sie jedes Problem, das Sie mit einem tiefen neuronalen Netzwerk - beliebiger Tiefe - lösen können, mit einer flachen Struktur unter Verwendung der linearen Regression (für Regressionsprobleme) oder der logistischen Regression (für Klassifizierungsprobleme) lösen. Es geht "nur" darum, die richtige Funktionserweiterung zu finden. Der Unterschied besteht darin, dass neuronale Netze versuchen, eine funktionierende Feature-Erweiterung direkt zu ermitteln, während das Feature-Engineering unter Verwendung von Polynomen oder anderen Schemata harte Arbeit ist und nicht immer offensichtlich ist, wie man überhaupt anfängt: Überlegen Sie beispielsweise, wie Sie polynomielle Annäherungen an das Faltungs-Neuronale erstellen können Netzwerke tun für Bilder? Es scheint unmöglich. Es ist wahrscheinlich auch äußerst unpraktisch. Aber es existiert.

Neil Slater
quelle

Bist du dir über den ersten Absatz sicher? Nicht konvexe Formen können wirklich mit Polynomen gelernt werden?

Medien

@NeilSlater Ich habe den Kreis oben gelöst. XOR ist auch einfach: Fügen Sie einfach einen Begriff für "xy" hinzu.

Emre

@ Emmre: Danke. Ich denke, puristisch zu sein, |x|ist nicht erlaubt, da es sich um eine andere Nichtlinearität handelt.

Neil Slater

Warum bei Polynomen anhalten? Es ist nicht so, als würden wir die Ableitungen der Eingaben übernehmen. Verwenden Sie also eine beliebige Funktion.

Emre

@Emre Ja, ich schlage bereits in der Frage vor, dass andere Funktionen nützlich sein könnten. Ich denke jedoch, dass der Sinn des OP, der den Begriff "Polynom Logistic Regression" verwendet, darin besteht, nur Polynome zu verwenden. Ich denke, es gibt einige Bibliotheken, die eine automatische polynomielle Erweiterung von Features für die Verwendung mit ansonsten linearen Optimierern durchführen.

Neil Slater

Können die linear nicht trennbaren Daten mithilfe von Polynommerkmalen mit logistischer Regression gelernt werden?

Antworten: