Wie viel Kalkül ist erforderlich, um die Schätzung der maximalen Wahrscheinlichkeit zu verstehen?

11

Ich versuche einen Studienplan für das Erlernen von MLE zu planen. Um dies zu tun, versuche ich herauszufinden, was das Mindestmaß an Kalkül ist, das zum Verständnis von MLE erforderlich ist.

Ist es ausreichend, die Grundlagen der Analysis zu verstehen (dh das Minimum und Maximum der Funktionen zu finden), um MLE zu verstehen?

Histelheim
quelle
2
Wie immer kommt es darauf an . Wenn Sie nur versuchen, die Grundlagen zu verstehen, erhalten Sie einen fairen Weg, wenn Sie in der Lage sind, Extrema von Funktionen zu finden (obwohl in vielen praktischen Fällen von MLE das L numerisch M ist, in welchem ​​Fall Sie auch einige andere Fähigkeiten benötigen als Grundrechnung).
Glen_b -State Monica
Vielen Dank. Können Sie den von Ihnen erwähnten Fall genauer erläutern? Das klingt interessant.
Histelheim
Okay, aber jetzt muss ich eine Antwort geben. Abwarten.
Glen_b -Reinstate Monica

Antworten:

20

Um meinen Kommentar zu erweitern - es kommt darauf an. Wenn Sie nur versuchen, die Grundlagen zu verstehen, erhalten Sie einen fairen Weg, um Extrema von Funktionen zu finden (obwohl in vielen praktischen Fällen von MLE die Wahrscheinlichkeit numerisch maximiert ist. In diesem Fall benötigen Sie einige andere Fähigkeiten sowie einige Grundrechnung).

Ich werde die schönen einfachen Fälle beiseite lassen, in denen Sie explizite algebraische Lösungen erhalten. Trotzdem ist Kalkül oft sehr nützlich.

Ich werde durchweg Unabhängigkeit annehmen. Nehmen wir den einfachsten Fall der 1-Parameter-Optimierung. Zuerst betrachten wir einen Fall, in dem wir Ableitungen nehmen und eine Funktion des Parameters und eine Statistik trennen können.

Betrachten Sie die DichteGamma(α,1)

fX(x;α)=1Γ(α)xα1exp(x);x>0;α>0

Dann ist für eine Stichprobe der Größe die Wahrscheinlichkeitn

L(α;x)=i=1nfX(xi;α)

und so ist die Log-Wahrscheinlichkeit wobei . Derivate nehmen,

l(α;x)=i=1nlnfX(xi;α)=i=1nln(1Γ(α)xiα1exp(xi))
=i=1nlnΓ(α)+(α1)lnxixi
=nlnΓ(α)+(α1)Sxnx¯
Sx=i=1nlnxi

ddαl(α;x)=ddα(nlnΓ(α)+(α1)Sxnx¯)
=nΓ(α)Γ(α)+Sx
=nψ(α)+Sx

Wenn wir das also auf Null setzen und versuchen, nach zu lösen , können wir Folgendes erhalten: α^

ψ(α^)=lnG(x)

Dabei ist die Digammafunktion und das geometrische Mittel . Wir dürfen nicht vergessen, dass Sie die Ableitung im Allgemeinen nicht einfach auf Null setzen können und sicher sein können, dass Sie den Argmax finden . Sie müssen immer noch in gewisser Weise zeigen, dass die Lösung ein Maximum ist (in diesem Fall ist es). Im Allgemeinen erhalten Sie möglicherweise Minima oder horizontale Wendepunkte, und selbst wenn Sie ein lokales Maximum haben, haben Sie möglicherweise kein globales Maximum (das ich gegen Ende anspreche).ψ()G()

Unsere Aufgabe ist es nun, den Wert von für denα^

ψ(α^)=g

Dabei ist .g=lnG(x)

Dies hat keine Lösung in Bezug auf Elementarfunktionen, es muss numerisch berechnet werden; Zumindest konnten wir auf der einen Seite eine Funktion des Parameters und auf der anderen Seite eine Funktion der Daten erhalten. Es gibt verschiedene Nullfindungsalgorithmen, die verwendet werden können, wenn Sie keine explizite Methode zum Lösen der Gleichung haben (selbst wenn Sie keine Ableitungen haben, gibt es beispielsweise einen Binärabschnitt).

Oft ist es nicht so schön. Betrachten Sie die logistische Dichte mit Einheitenskala: Weder der Argmax der Wahrscheinlichkeit noch der Log-Likelihood-Funktion kann leicht algebraisch ermittelt werden - Sie müssen numerische Optimierungsmethoden verwenden. In diesem Fall verhält sich die Funktion ziemlich gut und die Newton-Raphson-Methode sollte normalerweise ausreichen, um die ML-Schätzung von zu lokalisieren . Wenn die Ableitung nicht verfügbar war oder Newton-Raphson nicht konvergiert, sind möglicherweise andere numerische Optimierungsmethoden erforderlich, z. B. der Goldene Schnitt (dies ist kein Überblick über die besten verfügbaren Methoden, sondern nur einige Methoden, die Sie besser kennen wahrscheinlich auf einer grundlegenden Ebene zu begegnen).

f(x;μ)=14sech2(xμ2).
μμ

Im Allgemeinen können Sie möglicherweise nicht einmal so viel tun. Betrachten Sie einen Cauchy mit Median und Einheitenskala:θ

fX(x;θ)=1π(1+(xθ)2).

Im Allgemeinen hat die Wahrscheinlichkeit hier kein eindeutiges lokales Maximum, sondern mehrere lokale Maxima. Wenn Sie ein lokales Maximum finden, gibt es möglicherweise ein anderes, größeres an anderer Stelle. (Manchmal konzentrieren sich die Leute darauf, das lokale Maximum zu identifizieren, das dem Median am nächsten liegt, oder so etwas.)

Anfänger können leicht davon ausgehen, dass sie, wenn sie einen konkaven Wendepunkt finden, den Argmax der Funktion haben, aber neben mehreren Modi (bereits besprochen) möglicherweise Maxima gibt, die überhaupt nicht mit Wendepunkten verbunden sind. Derivate zu nehmen und auf Null zu setzen, reicht nicht aus; Betrachten Sie beispielsweise die Schätzung des Parameters für eine Uniform auf .(0,θ)

In anderen Fällen kann der Parameterraum diskret sein.

Manchmal kann es durchaus schwierig sein, das Maximum zu finden.

Und das ist nur eine Auswahl der Probleme mit einem einzigen Parameter. Wenn Sie mehrere Parameter haben, werden die Dinge wieder intensiver.

Glen_b - Monica neu starten
quelle
4

Ja. Natürlich sprechen wir nicht von eindimensionalen Funktionen, sondern von Funktionen , die maximiert werden sollen (dh der Wahrscheinlichkeit), so dass dies etwas weiter fortgeschritten ist als die eindimensionale. dimensionale Fall.RpR

Einige Einrichtungen mit Logarithmen sind auf jeden Fall hilfreich, da das Maximieren des Logarithmus der Wahrscheinlichkeit normalerweise viel einfacher ist als das Maximieren der Wahrscheinlichkeit selbst.

Viel mehr als nur einfaches MLE kann verstanden werden (Informationsmatrizen usw.), wenn Sie sich mit zweiten Ableitungen von -Funktionen befassen können , dh mit der hessischen Matrix.RpR

Stephan Kolassa
quelle