In der linearen Regression hat die MLE-Lösung (Maximize Likelihood Estimation) zur Schätzung von x die folgende geschlossene Lösung (unter der Annahme, dass A eine Matrix mit vollem Spaltenrang ist):
x^lin=argminx∥Ax−b∥22=(ATA)−1ATb
Dies wird als "Finde das x , das die Zielfunktion minimiert, ∥Ax−b∥22 " gelesen . Die nette Sache über die lineare Regression Zielfunktion auf diese Weise darstellt, dass wir alles in Matrizenschreibweise halten können und für lösen x lin von Hand. Wie Alex R. erwähnt, wird ( A T A ) - 1 in der Praxis häufig nicht direkt berücksichtigt, da es rechnerisch ineffizient ist und A häufig nicht die vollständigen Rangkriterien erfüllt. Stattdessen wenden wir uns der Moore-Penrose-Pseudoinverse zux^lin(ATA)−1A. Die Details der rechnerischen Lösung für das Pseudo-Inverse können die Cholesky-Dekomposition oder die Singular-Wert-Dekomposition beinhalten.
Alternativ lautet die MLE-Lösung zur Schätzung der Koeffizienten in der logistischen Regression:
x^log=argminx∑i=1Ny(i)log(1+e−xTa(i))+(1−y(i))log(1+exTa(i))
wobei (unter der Annahme, dass jede Datenprobe zeilenweise gespeichert wird):
x ist ein Vektor, der Regressionskoeffizienten darstellt
a(i) ist ein Vektor stellt dieith sample / Zeile inDatenmatrixA
y(i) ist ein Skalar in{0,1} und dieBezeichnungith entspricht der Bezeichnungith Probe
N ist die Anzahl von Datenabtastwerten / Anzahl der Zeilen in der Datenmatrix A .
Dies wird wiederum als "Finde das x , das die Zielfunktion minimiert " gelesen .
Wenn Sie wollten, könnten Sie es einen Schritt weiter und stellen x logx^log in Matrix - Schreibweise wie folgt:
x^log=argminx⎡⎣⎢⎢1⋮1(1−y(1))⋮(1−y(N))⎤⎦⎥⎥[log(1+e−xTa(1))log(1+exTa(1))......log(1+e−xTa(N))log(1+exTa(N))]
aber du bekommst nichts davon. Die logistische Regression hat keine geschlossene Lösung und bietet nicht die gleichen Vorteile wie die lineare Regression, wenn sie in Matrixnotation dargestellt wird. Um zu lösen x log Schätzungstechniken wie Gradientenabstiegs und dem Newton-Raphson - Verfahren verwendet. Durch einige dieser Techniken (dh Newton-Raphson) x logx^logx^log approximiert wird und in Matrixschreibweise dargestellt ( siehe Link von Alex R. vorgesehen ).
@joceratops answer konzentriert sich auf das Optimierungsproblem der maximalen Wahrscheinlichkeit für eine Schätzung. Dies ist in der Tat ein flexibler Ansatz, der für viele Arten von Problemen geeignet ist. Für die Schätzung der meisten Modelle, einschließlich linearer und logistischer Regressionsmodelle, gibt es einen anderen allgemeinen Ansatz, der auf der Methode der Momentschätzung basiert.
Der lineare Regressionsschätzer kann auch als Wurzel der Schätzgleichung formuliert werden:
WhereYi has expected value g(Xiβ) . In GLM estimation, g is said to be the inverse of a link function. In normal likelihood equations, g−1 is the identity function, and in logistic regression g−1 is the logit function. A more general approach would be to require 0=∑ni=1Y−g(Xiβ) which allows for model misspecification.
Additionally, it is interesting to note that for regular exponential families,∂g(Xβ)∂β=V(g(Xβ)) which is called a mean-variance relationship. Indeed for logistic regression, the mean variance relationship is such that the mean p=g(Xβ) is related to the variance by var(Yi)=pi(1−pi) . This suggests an interpretation of a model misspecified GLM as being one which gives a 0 average Pearson residual. This further suggests a generalization to allow non-proportional functional mean derivatives and mean-variance relationships.
A generalized estimating equation approach would specify linear models in the following way:
WithV a matrix of variances based on the fitted value (mean) given by g(Xβ) . This approach to estimation allows one to pick a link function and mean variance relationship as with GLMs.
In logistic regressiong would be the inverse logit, and Vii would be given by g(Xiβ)(1−g(Xβ)) . The solutions to this estimating equation, obtained by Newton-Raphson, will yield the β obtained from logistic regression. However a somewhat broader class of models is estimable under a similar framework. For instance, the link function can be taken to be the log of the linear predictor so that the regression coefficients are relative risks and not odds ratios. Which--given the well documented pitfalls of interpreting ORs as RRs--behooves me to ask why anyone fits logistic regression models at all anymore.
quelle