Regularisierungsmethoden für die logistische Regression

Regularisierung mit Methoden wie Ridge, Lasso und ElasticNet ist für die lineare Regression weit verbreitet. Ich wollte Folgendes wissen: Sind diese Methoden für die logistische Regression anwendbar? Wenn ja, gibt es Unterschiede in der Art und Weise, wie sie für die logistische Regression verwendet werden müssen? Wie kann man eine logistische Regression regulieren, wenn diese Methoden nicht anwendbar sind?

regression logistic regularization TAK
quelle

Betrachten Sie einen bestimmten Datensatz und müssen daher in Betracht ziehen, die Daten für die Berechnung verfolgbar zu machen, z. B. Auswählen, Skalieren und Versetzen der Daten, damit die anfängliche Berechnung zum Erfolg führt. Oder ist dies ein allgemeinerer Blick auf das Wie und Warum (ohne einen bestimmten Datensatz für die Berechnung gegen 0?

Philip Oakley

Dies ist ein allgemeinerer Blick auf das Wie und Warum der Regularisierung. Einführungstexte für Regularisierungsmethoden (Ridge, Lasso, Elasticnet usw.), die ich speziell angesprochenen linearen Regressionsbeispielen begegnet bin. Kein einziger erwähnte die Logistik spezifisch, daher die Frage.

TAK

Die logistische Regression ist eine Form von GLM, bei der eine Nichtidentitätsverknüpfungsfunktion verwendet wird. Fast alles gilt.

Firebug

Sind Sie auf Andrew Ngs Video zum Thema gestoßen ?

Antoni Parellada

Grat, Lasso und elastische Netzregression sind beliebte Optionen, aber sie sind nicht die einzigen Regularisierungsoptionen. Beispiel: Durch das Glätten von Matrizen werden Funktionen mit großen Sekundenableitungen benachteiligt, sodass Sie mit dem Regularisierungsparameter eine Regression "einwählen" können, die einen guten Kompromiss zwischen Über- und Unteranpassung der Daten darstellt. Wie bei der Ridge / Lasso / Elastic Net-Regression können diese auch bei der logistischen Regression verwendet werden.

Setzen Sie Monica am

Antworten:

Ja, Regularisierung kann in allen linearen Methoden verwendet werden, einschließlich Regression und Klassifikation. Ich möchte Ihnen zeigen, dass es keinen zu großen Unterschied zwischen Regression und Klassifikation gibt: Der einzige Unterschied ist die Verlustfunktion.

Insbesondere gibt es drei Hauptkomponenten der linearen Methode: Verlustfunktion, Regularisierung, Algorithmen . Wobei Verlustfunktion plus Regularisierung die Zielfunktion des Problems in Optimierungsform ist und der Algorithmus der Weg zu seiner Lösung ist (die Zielfunktion ist konvex, wir werden in diesem Beitrag nicht darauf eingehen).

$L(\hat y,y)=(\hat y -y)^2$ $L(\hat y,y)=|\hat y -y|$ $L( \cdot )$ $y$ $\hat y$

$L(\hat y, y)=\log (1+ \exp(-\hat y y))$ $L(\hat y, y)= (1- \hat y y)_+$ $y$ $\{-1,1\}$ $\hat y$ $\hat y$

In der Regularisierungseinstellung, die Sie über die L1- und L2-Regularisierung erwähnt haben, gibt es auch andere Formen, auf die in diesem Beitrag nicht eingegangen wird.

Daher ist auf hohem Niveau eine lineare Methode

\underset{w}{minimize} \sum_{x, y} L (w^{⊤} x, y) + λ h (w)

$\underset{w}{\text{minimize}}~~~ \sum_{x,y} L(w^{\top} x,y)+\lambda h(w)$

Wenn Sie die Verlustfunktion von der Regressionseinstellung zum logistischen Verlust ersetzen, erhalten Sie die logistische Regression mit der Regularisierung.

Bei der Gratregression ist das Optimierungsproblem beispielsweise

\underset{w}{minimize} \sum_{x, y} (w^{⊤} x - y)^{2} + λ w^{⊤} w

$\underset{w}{\text{minimize}}~~~ \sum_{x,y} (w^{\top} x-y)^2+\lambda w^\top w$

Wenn Sie die Verlustfunktion durch logistischen Verlust ersetzen, tritt das Problem auf

\underset{w}{minimize} \sum_{x, y} \log (1 + \exp (- w^{⊤} x \cdot y)) + λ w^{⊤} w

$\underset{w}{\text{minimize}}~~~ \sum_{x,y} \log(1+\exp{(-w^{\top}x \cdot y)})+\lambda w^\top w$

Hier haben Sie die logistische Regression mit L2-Regularisierung.

So sieht es in einem spielzeugsynthetisierten Binärdatensatz aus. Die linke Abbildung zeigt die Daten mit dem linearen Modell (Entscheidungsgrenze). Die rechte Abbildung zeigt die Zielfunktionskontur (x- und y-Achse repräsentieren die Werte für 2 Parameter.). Der Datensatz wurde aus zwei Gaußschen Werten generiert, und wir passen das logistische Regressionsmodell ohne Unterbrechung an, sodass wir in der rechten Unterabbildung nur zwei Parameter visualisieren können.

Die blauen Linien sind die logistische Regression ohne Regularisierung und die schwarzen Linien sind die logistische Regression mit L2-Regularisierung. Die blauen und schwarzen Punkte in der rechten Abbildung sind optimale Parameter für die Zielfunktion.

$\lambda$ $0$

Hier ist ein weiteres Beispiel mit L1-Regularisierung.

Beachten Sie, dass der Zweck dieses Experiments darin besteht, zu zeigen, wie die Regularisierung in der logistischen Regression funktioniert, aber nicht, dass ein regularisiertes Modell besser ist.

$\lambda$ $\lambda$ $0$

$w$ $x$ $y$ $\hat y = f(x)=w^\top x$ $1$

$y$ $y \in \{-1,1\}$

$\hat y=w^{\top} x$ $\hat y$ $y$ $\hat y = w^{\top} x$ $\{-1,1\}$ $\hat y$

$y \in \{0,1\}$

Den Code findest du in meiner anderen Antwort hier.

Gibt es eine intuitive Erklärung dafür, warum logistische Regression für einen perfekten Trennungsfall nicht funktioniert? Und warum behebt das Hinzufügen von Regularisierung das Problem?

Haitao Du
quelle

w^{T} x

$w^Tx$

f (x)

$f(x)$

Danke für die Antwort @ hxd1011, können Sie bitte erklären, was die durchgezogenen schwarzen Linien im Konturdiagramm darstellen? Um genauer zu sein, ich weiß, dass (wie Sie erklärt haben) die x- und y-Achse die 2 Parameter zeigen, die wir verwenden. Aber was ist mit den durchgezogenen Linien und ihren Zahlen wie 8000, 10000, 12000. Danke!

Jespar

@Jespar en.m.wikipedia.org/wiki/Contour_line

Haitao Du

l^{*} (β) = l (β) + \frac{1}{2} \ln | i (β) |

$l^*(\beta) = l(\beta) + \frac12 \ln |i(\beta)|$

i (β) = \frac{1}{n} \sum_{i} p_{i} (1 - p_{i}) x_{i} x_{i}^{'}

$i(\beta) = \frac1n \sum_i p_i (1-p_i) x_i x_i'$

{(y_{i}, x_{i}) ‖ = {(1, 1), (0, 0)}

$\{(y_i,x_i)\| = \{(1,1),(0,0)\}$ nominell unendlich ML - Schätzungen erzeugen würde, und glmin Rist immer noch anfällig für das Problem, glaube ich.

StasK
quelle

Ja, Sie können dafür R-Pakete logistf oder brglm verwenden! Vielleicht erwähnenswert ...

Tom Wenseleers

Es ist sehr elegant, aber es ist ziemlich langsam für die Optimierung, nicht wahr? Im Gradienten erhalten Sie die Inverse von die in jeder Iteration neu berechnet werden muss ...

i (β)

$i(\beta)$

Appletree

Es ist schmerzlich langsam, in der Tat, @appletree

StasK

(+1) Ich hatte noch nie von Firths Korrektur gehört. Ich würde nicht erwarten, dass der implizite Ansatz in der zitierten Veröffentlichung der GLM-Lösung viel Zeit einbringt. (Sie müssen keine Matrix invertieren, sondern nur Hebel berechnen. Wenn Sie den GLM über iterativ gewichtete kleinste Quadrate lösen, sind dies nur die Zeilennormen des Q-Faktors . Die Hebel addieren sich dann einfach zu den Daten und der Belichtung mit statt in der Jeffreys-Anpassung .)

h / 2

$h/2$

1 / 2

$1/2$

GeoMatt22

Ja, es gilt für die logistische Regression. In R geben Sie mit glmnet einfach die entsprechende Familie an, die für die logistische Regression "binomial" ist. Es gibt einige andere (Gift, Multinomial usw.), die Sie abhängig von Ihren Daten und dem angesprochenen Problem angeben können.

Glückwunsch
quelle

Der Nachteil der Verwendung von glmnet ist, dass Sie mit diesem Ansatz keine Signifikanzstufen erhalten. Wenn Sie sich für diese interessieren, dann R-Pakete logistf oder brglm wäre ein besserer Weg zu gehen ...

Tom Wenseleers

@TomWenseleers Es gibt auch Methoden zum Booten von glmnet, um p-Werte zu erhalten. Es ist jedoch etwas kompliziert, da "

normales

Vielen Dank für mich wissen zu lassen über das, ich habe andere gesehen erwähnen auch diese, zB hier: stats.stackexchange.com/questions/34859/... , kann aber offenbar nichts Standard in einigem R - Paket implementiert zu finden. Hättest du zufällig irgendwelche Hinweise? Oder gute Primärliteratur dazu? Der Nachteil von Bootstrapping ist auch, dass es für große

Datenmengen

Verweisen Sie auf Methoden, wie sie im R-Paket hdi, cran.r-project.org/web/packages/hdi/index.html implementiert sind ?

Tom Wenseleers