Verwenden wir jemals die Maximum-Likelihood-Schätzung?

14

Ich frage mich, ob die Maximum-Likelihood-Schätzung jemals in der Statistik verwendet wurde. Wir lernen das Konzept, aber ich frage mich, wann es tatsächlich verwendet wird. Wenn wir die Verteilung der Daten annehmen, finden wir zwei Parameter, einen für den Mittelwert und einen für die Varianz, aber verwenden Sie sie tatsächlich in realen Situationen?

Kann mir jemand einen einfachen Fall nennen, in dem er verwendet wird?

user122358
quelle
33
Es ist the am weitesten verbreitete Schätzmethode.
JohnK
3
Ich habe versucht zu fragen, wann wir MLE
Haitao Du
4
logistische Regression. Poisson-Regression. OLS ist das MLE, wenn die Fehler als normal angenommen werden. Gamma-Regression. Jeder klassische GLM wirklich. Schätzung des Mittelwerts aus einer normalen Bevölkerung. Schätzung der Erfolgswahrscheinlichkeit aus einer Reihe von Binomialversuchen. Schätzung der Poisson-Ereignisrate. Ich könnte weitermachen ...
GoF_Logistic
4
Diese sehr enge Suche auf unserer Website führt zu Hunderten von Beispielen für die tatsächliche Verwendung.
Whuber
6
@ hxd1011 Sie verwenden MLE nicht , wenn Sie seine Methoden nicht zum Abrufen von Schätzungsabweichungen oder zum Berechnen von Konfidenz-, Vorhersage- oder Toleranzintervallen verwenden, auch wenn der von Ihnen verwendete Schätzer möglicherweise mit dem MLE-Schätzer übereinstimmt. Beispielsweise verwenden Sie MLE nicht, wenn Sie einen T-Test ausführen. Sie verwenden es häufig nicht, wenn Sie unvoreingenommene Schätzer anwenden. Philosophisch gesehen würden Sie MLE nicht verwenden, wenn Sie sich für eine Verlustfunktion interessieren oder eine vorherige Verteilung haben.
Whuber

Antworten:

25

Ich frage mich, ob die Maximum-Likelihood-Schätzung jemals in der Statistik verwendet wurde.

Bestimmt! Eigentlich ziemlich viel - aber nicht immer.

Wir lernen das Konzept, aber ich frage mich, wann es tatsächlich verwendet wird.

Wenn Menschen ein parametrisches Verteilungsmodell haben, entscheiden sie sich ziemlich oft für die Maximalwahrscheinlichkeitsschätzung. Wenn das Modell korrekt ist, gibt es eine Reihe praktischer Eigenschaften von Maximum-Likelihood-Schätzern.

Zum Beispiel ist die Verwendung von verallgemeinerten linearen Modellen ziemlich weit verbreitet, und in diesem Fall werden die Parameter, die den Mittelwert beschreiben, durch die maximale Wahrscheinlichkeit geschätzt.

Es kann vorkommen, dass einige Parameter nach der maximalen Wahrscheinlichkeit geschätzt werden und andere nicht. Betrachten Sie beispielsweise einen überdispersen Poisson-GLM - der Dispersionsparameter wird nicht mit maximaler Wahrscheinlichkeit geschätzt, da der MLE in diesem Fall nicht nützlich ist.

Wenn wir die Verteilung der Daten annehmen, finden wir zwei Parameter

Nun, manchmal haben Sie vielleicht zwei, aber manchmal haben Sie einen Parameter, manchmal drei oder vier oder mehr.

eine für den Mittelwert und eine für die Varianz,

Denken Sie vielleicht an ein bestimmtes Modell? Dies ist nicht immer der Fall. Betrachten Sie die Schätzung des Parameters einer Exponentialverteilung oder einer Poisson-Verteilung oder einer Binomialverteilung. In jedem dieser Fälle gibt es einen Parameter und die Varianz ist eine Funktion des Parameters, der den Mittelwert beschreibt.

Oder betrachten Sie eine verallgemeinerte Gammaverteilung , die drei Parameter hat. Oder eine Beta-Distribution mit vier Parametern , die (vielleicht nicht überraschend) vier Parameter enthält. Beachten Sie auch, dass (abhängig von der jeweiligen Parametrisierung) der Mittelwert oder die Varianz oder beide möglicherweise nicht durch einen einzelnen Parameter, sondern durch Funktionen mehrerer von ihnen dargestellt werden.

Zum Beispiel die Gammaverteilung, für die es drei Parametrisierungen gibt, die ziemlich häufig verwendet werden - die beiden häufigsten haben sowohl den Mittelwert als auch die Varianz als Funktionen von zwei Parametern.

Typischerweise kann in einem Regressionsmodell oder einem GLM oder einem Überlebensmodell (unter vielen anderen Modelltypen) das Modell von mehreren Prädiktoren abhängen, wobei in diesem Fall die mit jeder Beobachtung unter dem Modell verbundene Verteilung einen eigenen Parameter haben kann (oder) sogar mehrere Parameter), die sich auf viele Prädiktorvariablen beziehen ("unabhängige Variablen").

Glen_b - Setzen Sie Monica wieder ein
quelle
5
"Wenn Menschen ein parametrisches Verteilungsmodell haben." Vergessen Sie nicht die nicht-parametrische Maximum-Likelihood-Schätzung, um die empirische Likelihood einzubeziehen.
Mark L. Stone
3
@Mark Relativ seltener. Ich werde meiner Antwort ein Wort hinzufügen.
Glen_b -Reinstate Monica
Können wir die Maximum-Likelihood-Schätzung verwenden, obwohl wir beispielsweise annehmen, dass die Verteilung normal ist? Ich denke, wir brauchen es nicht, aber wir können es trotzdem benutzen, oder?
user122358
@ user122358 Glen und Mark haben dir bereits geantwortet. Sie können entweder eine Verteilung annehmen oder nicht. Meist übernehmen Sie eine Verteilungs- und damit Wahrscheinlichkeitsfunktion.
SmallChess
3
"Wenn Menschen ein parametrisches Verteilungsmodell haben." Vergessen Sie nicht die semi-parametrische Maximum-Likelihood-Schätzung, einschließlich der partiellen Likelihood. ;)
Scortchi
8

Während Schätzer für die maximale Wahrscheinlichkeit angesichts der Annahmen zur Datenverteilung verdächtig aussehen können, werden häufig Quasi-Schätzer für die maximale Wahrscheinlichkeit verwendet. Die Idee ist, zunächst eine Verteilung anzunehmen und für die MLE zu lösen, dann die explizite Verteilungsannahme zu entfernen und stattdessen zu untersuchen, wie sich Ihr Schätzer unter allgemeineren Bedingungen verhält. Das Quasi MLE wird also zu einer intelligenten Methode, um einen Schätzer zu erhalten, und der Großteil der Arbeit leitet dann die Eigenschaften des Schätzers ab. Da die Verteilungsannahmen fallengelassen werden, weist der Quasi-MLE jedoch normalerweise nicht die guten Effizienzmerkmale auf.

x1,x2,...,xnXXN(μ,σ2)σ^2=n1(xix¯)2σ^2

Igor
quelle
Sie können diesen Thread auch auf der Intuition hinter dem Quasi MLE überprüfen .
Richard Hardy
5

Die Maximum-Likelihood-Schätzung wird häufig beim maschinellen Lernen zum Trainieren verwendet:

Es ist zu beachten, dass in einigen Fällen eine gewisse Regularisierung bevorzugt wird, die manchmal einer Maximum-a-posteriori-Schätzung entspricht , z . .

Franck Dernoncourt
quelle
3

Kann mir jemand einen einfachen Fall nennen, in dem er verwendet wird?

Ein sehr typischer Fall ist die logistische Regression. Die logistische Regression ist eine Technik, die beim maschinellen Lernen häufig zum Klassifizieren von Datenpunkten verwendet wird. Beispielsweise kann mithilfe der logistischen Regression klassifiziert werden, ob eine E-Mail Spam ist oder nicht, oder ob eine Person eine Krankheit hat oder nicht.

xihθ(xi)=P[yi=1]=11+eθTxi

The parameter vector θ is typically estimated using MLE.

Specifically, using optimization methods, we find the estimator θ^ such that the expression i=1nyilog(hθ^(xi))+(1yi)log(1hθ^(xi)) is minimized. This expression is the negative log likelihood, so minimizing this is equivalent to maximizing the likelihood.

user35734
quelle
1

We are using MLE all the time, but we may not feel it. I will give two simple examples to show.

Example 1

If we observe coin flip result, with 8 head out of 10 flips (assuming iid. from Bernoulli), how to guess the parameter θ (prob of head) of the coin? We may say θ=0.8, using "counting".

Why use counting? this is actually implicitly using MLE! Where the problem is

Maximizeθ   θ8(1θ)2

To solve the equation, we will need some calculus, but the conclusion is counting.

Example 2

How would we estimate a Gaussian distribution parameters from data? We use empirical mean as estimated mean and empirical variance as estimated variance, which is also coming from MLE!.

Haitao Du
quelle
6
Example 1 is also a Bayes solution and a method of moments (MM) solution (and probably it's the solution using other procedures as well). Example 2 is the MM solution. It would be much more convincing to exhibit procedures that are exclusively MLE--for otherwise one wouldn't ever need MLE.
whuber
Why example 1 becomes a Bayes solution and Example 2 becomes the MM solution? What is MM, by the way?
user122358
@user122358 MM is the method of moments. See here, for instance: en.wikipedia.org/wiki/Method_of_moments_(statistics)
jld
0

Some maximum likelihood uses in wireless communication:

  • Decoding of digital data from noisy received signals, with or without redundant codes.
  • Estimation of time-, phase-, and frequency-offsets in receivers.
  • Estimation of the (parameters of the) propagation channel.
  • Estimation of delay, angle of arrival, and Doppler shift (e.g., radar).
  • Estimation of a mobile position (e.g., GPS).
  • Estimation of clock offsets for synchronization of all kinds of distributed settings.
  • A multitude of calibration procedures.
GDumphart
quelle