Ich frage mich, ob die Maximum-Likelihood-Schätzung jemals in der Statistik verwendet wurde. Wir lernen das Konzept, aber ich frage mich, wann es tatsächlich verwendet wird. Wenn wir die Verteilung der Daten annehmen, finden wir zwei Parameter, einen für den Mittelwert und einen für die Varianz, aber verwenden Sie sie tatsächlich in realen Situationen?
Kann mir jemand einen einfachen Fall nennen, in dem er verwendet wird?
estimation
maximum-likelihood
user122358
quelle
quelle
Antworten:
Bestimmt! Eigentlich ziemlich viel - aber nicht immer.
Wenn Menschen ein parametrisches Verteilungsmodell haben, entscheiden sie sich ziemlich oft für die Maximalwahrscheinlichkeitsschätzung. Wenn das Modell korrekt ist, gibt es eine Reihe praktischer Eigenschaften von Maximum-Likelihood-Schätzern.
Zum Beispiel ist die Verwendung von verallgemeinerten linearen Modellen ziemlich weit verbreitet, und in diesem Fall werden die Parameter, die den Mittelwert beschreiben, durch die maximale Wahrscheinlichkeit geschätzt.
Es kann vorkommen, dass einige Parameter nach der maximalen Wahrscheinlichkeit geschätzt werden und andere nicht. Betrachten Sie beispielsweise einen überdispersen Poisson-GLM - der Dispersionsparameter wird nicht mit maximaler Wahrscheinlichkeit geschätzt, da der MLE in diesem Fall nicht nützlich ist.
Nun, manchmal haben Sie vielleicht zwei, aber manchmal haben Sie einen Parameter, manchmal drei oder vier oder mehr.
Denken Sie vielleicht an ein bestimmtes Modell? Dies ist nicht immer der Fall. Betrachten Sie die Schätzung des Parameters einer Exponentialverteilung oder einer Poisson-Verteilung oder einer Binomialverteilung. In jedem dieser Fälle gibt es einen Parameter und die Varianz ist eine Funktion des Parameters, der den Mittelwert beschreibt.
Oder betrachten Sie eine verallgemeinerte Gammaverteilung , die drei Parameter hat. Oder eine Beta-Distribution mit vier Parametern , die (vielleicht nicht überraschend) vier Parameter enthält. Beachten Sie auch, dass (abhängig von der jeweiligen Parametrisierung) der Mittelwert oder die Varianz oder beide möglicherweise nicht durch einen einzelnen Parameter, sondern durch Funktionen mehrerer von ihnen dargestellt werden.
Zum Beispiel die Gammaverteilung, für die es drei Parametrisierungen gibt, die ziemlich häufig verwendet werden - die beiden häufigsten haben sowohl den Mittelwert als auch die Varianz als Funktionen von zwei Parametern.
Typischerweise kann in einem Regressionsmodell oder einem GLM oder einem Überlebensmodell (unter vielen anderen Modelltypen) das Modell von mehreren Prädiktoren abhängen, wobei in diesem Fall die mit jeder Beobachtung unter dem Modell verbundene Verteilung einen eigenen Parameter haben kann (oder) sogar mehrere Parameter), die sich auf viele Prädiktorvariablen beziehen ("unabhängige Variablen").
quelle
Während Schätzer für die maximale Wahrscheinlichkeit angesichts der Annahmen zur Datenverteilung verdächtig aussehen können, werden häufig Quasi-Schätzer für die maximale Wahrscheinlichkeit verwendet. Die Idee ist, zunächst eine Verteilung anzunehmen und für die MLE zu lösen, dann die explizite Verteilungsannahme zu entfernen und stattdessen zu untersuchen, wie sich Ihr Schätzer unter allgemeineren Bedingungen verhält. Das Quasi MLE wird also zu einer intelligenten Methode, um einen Schätzer zu erhalten, und der Großteil der Arbeit leitet dann die Eigenschaften des Schätzers ab. Da die Verteilungsannahmen fallengelassen werden, weist der Quasi-MLE jedoch normalerweise nicht die guten Effizienzmerkmale auf.
quelle
Die Maximum-Likelihood-Schätzung wird häufig beim maschinellen Lernen zum Trainieren verwendet:
Es ist zu beachten, dass in einigen Fällen eine gewisse Regularisierung bevorzugt wird, die manchmal einer Maximum-a-posteriori-Schätzung entspricht , z . .
quelle
Ein sehr typischer Fall ist die logistische Regression. Die logistische Regression ist eine Technik, die beim maschinellen Lernen häufig zum Klassifizieren von Datenpunkten verwendet wird. Beispielsweise kann mithilfe der logistischen Regression klassifiziert werden, ob eine E-Mail Spam ist oder nicht, oder ob eine Person eine Krankheit hat oder nicht.
The parameter vectorθ is typically estimated using MLE.
Specifically, using optimization methods, we find the estimatorθ^ such that the expression −∑ni=1yilog(hθ^(xi))+(1−yi)log(1−hθ^(xi)) is minimized. This expression is the negative log likelihood, so minimizing this is equivalent to maximizing the likelihood.
quelle
We are using MLE all the time, but we may not feel it. I will give two simple examples to show.
Example 1
If we observe coin flip result, with8 head out of 10 flips (assuming iid. from Bernoulli), how to guess the parameter θ (prob of head) of the coin? We may say θ=0.8 , using "counting".
Why use counting? this is actually implicitly using MLE! Where the problem is
To solve the equation, we will need some calculus, but the conclusion is counting.
Example 2
How would we estimate a Gaussian distribution parameters from data? We use empirical mean as estimated mean and empirical variance as estimated variance, which is also coming from MLE!.
quelle
Some maximum likelihood uses in wireless communication:
quelle