Matrixnotation für logistische Regression

15

In der linearen Regression (quadratischer Verlust) haben wir mithilfe der Matrix eine sehr präzise Notation für das Ziel

minimize  Axb2

Dabei ist A die Datenmatrix, x die Koeffizienten und b die Antwort.

Gibt es eine ähnliche Matrixnotation für das logistische Regressionsziel? Alle die Bezeichnungen ich gesehen habe , kann nicht von der Summe über alle Datenpunkte loszuwerden (so etwas wie dataLlogistic(y,βTx) ).


EDIT: danke für joceratops und die tolle antwort von AdamO. Ihre Antwort half mir zu erkennen, dass ein weiterer Grund für eine präzisere Schreibweise der linearen Regression die Definition der Norm ist, die das Quadrat und die Summe oder einschließt . Bei logistischen Verlusten gibt es jedoch keine solche Definition, was die Notation etwas komplizierter macht.ee

Haitao Du
quelle

Antworten:

18

In der linearen Regression hat die MLE-Lösung (Maximize Likelihood Estimation) zur Schätzung von x die folgende geschlossene Lösung (unter der Annahme, dass A eine Matrix mit vollem Spaltenrang ist):

x^lin=argminxAxb22=(ATA)1ATb

Dies wird als "Finde das x , das die Zielfunktion minimiert, Axb22 " gelesen . Die nette Sache über die lineare Regression Zielfunktion auf diese Weise darstellt, dass wir alles in Matrizenschreibweise halten können und für lösen x lin von Hand. Wie Alex R. erwähnt, wird ( A T A ) - 1 in der Praxis häufig nicht direkt berücksichtigt, da es rechnerisch ineffizient ist und A häufig nicht die vollständigen Rangkriterien erfüllt. Stattdessen wenden wir uns der Moore-Penrose-Pseudoinverse zux^lin(ATA)1A. Die Details der rechnerischen Lösung für das Pseudo-Inverse können die Cholesky-Dekomposition oder die Singular-Wert-Dekomposition beinhalten.

Alternativ lautet die MLE-Lösung zur Schätzung der Koeffizienten in der logistischen Regression:

x^log=argminxi=1Ny(i)log(1+exTa(i))+(1y(i))log(1+exTa(i))

wobei (unter der Annahme, dass jede Datenprobe zeilenweise gespeichert wird):

x ist ein Vektor, der Regressionskoeffizienten darstellt

a(i) ist ein Vektor stellt dieith sample / Zeile inDatenmatrixA

y(i) ist ein Skalar in{0,1} und dieBezeichnungith entspricht der Bezeichnungith Probe

N ist die Anzahl von Datenabtastwerten / Anzahl der Zeilen in der Datenmatrix A .

Dies wird wiederum als "Finde das x , das die Zielfunktion minimiert " gelesen .

Wenn Sie wollten, könnten Sie es einen Schritt weiter und stellen x logx^log in Matrix - Schreibweise wie folgt:

x^log=argminx[1(1y(1))1(1y(N))][log(1+exTa(1))...log(1+exTa(N))log(1+exTa(1))...log(1+exTa(N))]

aber du bekommst nichts davon. Die logistische Regression hat keine geschlossene Lösung und bietet nicht die gleichen Vorteile wie die lineare Regression, wenn sie in Matrixnotation dargestellt wird. Um zu lösen x log Schätzungstechniken wie Gradientenabstiegs und dem Newton-Raphson - Verfahren verwendet. Durch einige dieser Techniken (dh Newton-Raphson) x logx^logx^log approximiert wird und in Matrixschreibweise dargestellt ( siehe Link von Alex R. vorgesehen ).

Joceratops
quelle
Groß. Vielen Dank. Ich denke, der Grund, warum wir nicht so etwas wie lösen, ist der Grund, warum wir diesen Schritt nicht weiter ausführen , um die Matrixnotation zu erstellen und das Summensymbol zu vermeiden. AAx=Ab
Haitao Du
Wir haben den Vorteil, dass wir einen Schritt weiter gehen und die Matrixmultiplikation den Code einfacher macht. Auf vielen Plattformen wie matlab ist die Schleife mit der Summe aller Daten viel langsamer als Matrixoperationen.
Haitao Du
5
@ hxd1011: Nur ein kleiner Kommentar: Das Reduzieren auf Matrixgleichungen ist nicht immer sinnvoll. Im Fall von sollten Sie nicht versuchen, nach der inversen Matrix A T A zu suchen , sondern eine Art Cholesky-Zerlegung durchführen, die viel schneller und numerisch stabiler ist. Für die logistische Regression gibt es eine Reihe verschiedener Iterationsschemata, die in der Tat Matrixberechnungen verwenden. Eine großartige Rezension finden Sie hier: research.microsoft.com/en-us/um/people/minka/papers/logreg/…ATAx=ATbATA
Alex R.
1
@AlexR. vielen Dank. Ich habe gelernt, dass bei Verwendung einer normalen Gleichung die Matrixbedingungszahl zum Quadrat wird. Und QR oder Cholesky wären viel besser. Ihr Link ist großartig, eine solche Überprüfung mit numerischen Methoden ist immer das, was ich wollte.
Haitao Du
15

@joceratops answer konzentriert sich auf das Optimierungsproblem der maximalen Wahrscheinlichkeit für eine Schätzung. Dies ist in der Tat ein flexibler Ansatz, der für viele Arten von Problemen geeignet ist. Für die Schätzung der meisten Modelle, einschließlich linearer und logistischer Regressionsmodelle, gibt es einen anderen allgemeinen Ansatz, der auf der Methode der Momentschätzung basiert.

Der lineare Regressionsschätzer kann auch als Wurzel der Schätzgleichung formuliert werden:

0=XT(YXβ)

β

0=i=1nSi(α,β)=βlogL(β,α,X,Y)=XT(Yg(Xβ))

Where Yi has expected value g(Xiβ). In GLM estimation, g is said to be the inverse of a link function. In normal likelihood equations, g1 is the identity function, and in logistic regression g1 is the logit function. A more general approach would be to require 0=i=1nYg(Xiβ) which allows for model misspecification.

Additionally, it is interesting to note that for regular exponential families, g(Xβ)β=V(g(Xβ)) which is called a mean-variance relationship. Indeed for logistic regression, the mean variance relationship is such that the mean p=g(Xβ) is related to the variance by var(Yi)=pi(1pi). This suggests an interpretation of a model misspecified GLM as being one which gives a 0 average Pearson residual. This further suggests a generalization to allow non-proportional functional mean derivatives and mean-variance relationships.

A generalized estimating equation approach would specify linear models in the following way:

0=g(Xβ)βV1(Yg(Xβ))

With V a matrix of variances based on the fitted value (mean) given by g(Xβ). This approach to estimation allows one to pick a link function and mean variance relationship as with GLMs.

In logistic regression g would be the inverse logit, and Vii would be given by g(Xiβ)(1g(Xβ)). The solutions to this estimating equation, obtained by Newton-Raphson, will yield the β obtained from logistic regression. However a somewhat broader class of models is estimable under a similar framework. For instance, the link function can be taken to be the log of the linear predictor so that the regression coefficients are relative risks and not odds ratios. Which--given the well documented pitfalls of interpreting ORs as RRs--behooves me to ask why anyone fits logistic regression models at all anymore.

AdamO
quelle
1
+1 great answer. formulate it as a root finding on derivative is really new for me. and the second equation is really concise.
Haitao Du