Was sind die Vor- und Nachteile beider Methoden?
maximum-likelihood
predictive-models
optimization
gradient-descent
GeorgeOfTheRF
quelle
quelle
Antworten:
Die Maximum-Likelihood-Schätzung ist ein allgemeiner Ansatz zur Schätzung von Parametern in statistischen Modellen durch Maximierung der Likelihood- Funktion, definiert als
das heißt, die Wahrscheinlichkeit, Daten wenn ein Wert des Parameters . Wenn Sie die Wahrscheinlichkeitsfunktion für ein gegebenes Problem kennen, können Sie nach einem solchen suchen , das die Wahrscheinlichkeit maximiert, die Daten zu erhalten, die Sie haben. Manchmal sind Schätzer bekannt, z. B. ist das arithmetische Mittel ein MLE-Schätzer für den Parameter für die Normalverteilung. In anderen Fällen können Sie jedoch auch andere Methoden verwenden , z. B. Optimierungsalgorithmen. Der ML-Ansatz sagt Ihnen nicht, wie Sie den optimalen Wert von - Sie können einfach Vermutungen anstellen und die Wahrscheinlichkeit verwenden, um zu vergleichen, welche Vermutung besser war - er sagt Ihnen nur, wie Sie vergleichen könnenX θ θ μ θ wenn ein Wert von "wahrscheinlicher" ist als der andere.θ
Gradient Descent ist ein Optimierungsalgorithmus . Sie können diesen Algorithmus verwenden, um das Minimum (oder Maximum, dann Gradientenanstieg ) vieler verschiedener Funktionen zu ermitteln. Dem Algorithmus ist es egal, welche Funktion er minimiert, er tut nur das, wonach er gefragt wurde. Mit dem Optimierungsalgorithmus muss man also irgendwie wissen, wie man erkennen kann, ob ein Wert des interessierenden Parameters "besser" ist als der andere. Sie müssen Ihrem Algorithmus einige Funktionen zum Minimieren bereitstellen, und der Algorithmus wird sich mit dem Auffinden seines Minimums befassen.
Sie können Maximum-Likelihood-Schätzungen mit verschiedenen Methoden erhalten, und die Verwendung eines Optimierungsalgorithmus ist eine davon. Andererseits kann der Gradientenabstieg auch verwendet werden, um andere Funktionen als die Wahrscheinlichkeitsfunktion zu maximieren.
quelle
f
Aber die Wahrscheinlichkeit einer logistischen Regression funktioniert auf diese Weise nicht als geschlossene Lösung . Wir müssen also eine andere Methode anwenden, wie z
gradient descent
.quelle
likelihood function
+gradient descent
(um die Lösung der Wahrscheinlichkeitsfunktion zu erhalten) ist also immer noch eine Möglichkeit, MLE durchzuführen.Unlike linear regression, we can no longer write down the MLE in closed form. Instead, we need to use an optimization algorithm to compute it. For this, we need to derive the gradient and Hessian.
aus Machine Learning: a Probabilistic Perspective, Kevin Murphy, sehen.