Bedeutet MLE immer, dass wir das zugrunde liegende PDF unserer Daten kennen, und bedeutet EM, dass wir es nicht kennen?

12

Ich habe einige einfache konzeptionelle Fragen, die ich in Bezug auf MLE (Maximum Likelihood Estimation) klären möchte, und welchen Zusammenhang es gegebenenfalls mit EM (Expectation Maximization) hat.

Wenn jemand sagt, "Wir haben die MLE verwendet", bedeutet dies nach meinem Verständnis dann automatisch, dass er ein explizites Modell der PDF-Datei seiner Daten hat? Es scheint mir, dass die Antwort darauf ja ist. Anders ausgedrückt, wenn jemand zu irgendeinem Zeitpunkt "MLE" sagt, ist es fair, ihn zu fragen, welches PDF er annimmt. Wäre das richtig?

In Bezug auf EM verstehe ich schließlich, dass wir in EM das zugrunde liegende PDF unserer Daten nicht wirklich kennen - oder kennen müssen. Das ist mein Verständnis.

Vielen Dank.

Creatron
quelle
1
Das "M" in EM steht für Maximierung ... der Wahrscheinlichkeit. Um eine Wahrscheinlichkeit aufzuschreiben, benötigen wir ein PDF. EM ist ein Weg, um MLEs in Gegenwart von 'nicht beobachtbaren' zu finden (die im E-Schritt ausgefüllt werden). Das heißt, um EM zu verwenden, benötigen Sie ein explizites Modell.
Glen_b
@ Glen_b Danke Gleb_b. Also, 1) wäre es richtig zu sagen, dass wir in EM, wie in MLE, immer ein Modell des PDFs der Daten annehmen ? Das heißt, wenn jemand sagt "Wir haben MLE / EM verwendet", können wir ziemlich fragen: "Was PDFs haben Sie angenommen ". Wäre dies eine korrekte Einschätzung? 2) In Bezug auf EM glaube ich, dass die Unobservables, auf die Sie sich beziehen, die Wahrscheinlichkeiten für bestimmte PDFs sind, aus denen die Mischung besteht, richtig? Vielen Dank im Voraus.
Creatron
Beachten Sie, dass es nicht parametrische Maximum-Likelihood-Methoden gibt. Schauen Sie nach Kaplan-Meier.
Soakley
Creatron - on (1) Beachten Sie, dass EM ein Algorithmus zur Berechnung von MLEs ist , mit denen sonst nur schwer umzugehen wäre. In beiden Fällen würde ich die etwas allgemeinere Frage stellen: "Was war Ihr Modell?", Da es durchaus möglich ist, dass das Modell komplexer ist als ein einzelnes PDF. Ein (2) Der EM-Algorithmus gilt nicht nur für Gemische. es ist allgemeiner als das.
Glen_b

Antworten:

13

Die MLE - Methode kann in Fällen angewendet werden , wo jemand die grundlegenden Funktions kennt Form des pdf (zB es die Gaußsche oder log-normal, oder exponentiell, oder was auch immer), aber nicht die zugrundeliegenden Parameter; zB kennen sie die Werte von und σ im pdf nicht: f ( x | μ , σ ) = 1μσ oder eine andere Art von PDF, die sie annehmen. Die Aufgabe der MLEMethode istdie besten (dh plausibelste) Werte für den unbekannten Parameter zu wählen, da die Daten der jeweiligen Messungenx1,x2,x3,. . . die tatsächlich beobachtet wurden. Um Ihre erste Frage zu beantworten: Ja, Sie haben immer das Recht, jemanden zu fragen, welcheFormvon PDF er für seine maximale Wahrscheinlichkeitsschätzung annimmt. In der Tat sind die geschätzten Parameterwerte, die sie Ihnen mitteilen, nicht einmal aussagekräftig, es sei denn, sie kommunizieren zuerst diesen Kontext.

f(x|μ,σ)=12πσ2exp[(xμ)22σ2]
x1,x2,x3,...

Der EM-Algorithmus ist, wie ich in der Vergangenheit gesehen habe, eher eine Art Meta-Algorithmus, bei dem einige der Metadaten fehlen, und das muss man auch schätzen. So zum Beispiel, vielleicht habe ich ein pdf , das eine Mischung aus mehreren Gaussians ist, zum Beispiel: Oberflächlich gesehensieht dies, abgesehen von der Addition des AmplitudenparametersAk, dem vorherigen Problem sehr ähnlich, aber was ist, wenn ich Ihnen sage, dass wir auch den Wert vonN(dh die Zahl)nicht einmal kennenvon Moden in der Gauß'schen Mischung) und wollen wirdass aus den Datenmessungen abzuschätzenx1,x2,x3,. . . auch?

f(x|A1,...,AN,μ1,...,μN,σ1,...σN)=k=1NAk2πσk2exp[(xμk)22σk2]
AkNx1,x2,x3,...

In diesem Fall haben Sie ein Problem, weil jeder mögliche Wert von (dies ist der "Meta" -Teil, auf den ich oben anspielte) in gewisser Weise ein anderes Modell erzeugt. Wenn N = 1 , dann haben Sie ein Modell mit drei Parametern ( A 1 , μ 1 , σ 1 ), während wenn N = 2 , dann haben Sie ein Modell mit sechs Parametern ( A 1 , A 2 , μ 1 , μ 2 , σ 1 , σ 2 ). Die besten Anpassungswerte, für die Sie erhalten (NN=1A1μ1σ1N=2A1A2μ1μ2σ1σ2 , μ 1 , σ 1 ) im N = 1- Modell kann nicht direkt mit den besten Anpassungswerten verglichen werden, die Sie für dieselben Parameter im N = 2- Modell erhalten, da es sich um verschiedene Modelle mit einer unterschiedlichen Anzahl von handeltFreiheitsgrade.A1μ1σ1N=1N=2

Die Rolle des EM-Algorithmus besteht darin, einen Mechanismus für solche Vergleiche bereitzustellen (in der Regel durch Auferlegung einer "Komplexitätsstrafe" , die kleinere Werte von bevorzugt ), damit wir den besten Gesamtwert für N auswählen können .NN

N=1N=2N=3

Stachyra
quelle
Ak=1N
N
Ak=1NNN=4N=5
Stachyra
Danke Stachyra. Letzte Frage: Das PDF unserer Datenmischung (angegeben in Ihrer zweiten Gleichung, die sich aus einer gewichteten Summe von PDFs zusammensetzt) ​​ist NICHT dasselbe wie das gemeinsame PDF aller Beispiele unserer Daten, die ein Produkt ihrer PDFs sind. Richtig ? (Angenommen, die Datenproben sind IID).
Creatron
Nein, überhaupt nicht - es sind zwei völlig verschiedene Dinge. Das gemeinsame PDF, das Sie beschreiben, ähnelt viel eher der Form der Wahrscheinlichkeitsfunktion, die in MLE verwendet wird. Ein Lehrbuch könnte Ihnen hier hilfreich sein. Für MLE gefällt mir Kapitel 10 von "Datenreduktion und Fehleranalyse für die Physik" von Philip R. Bevington und D. Keith Robinson oder Abschnitt 6.1 von "Statistical Data Analysis" von Glen Cowan. Für ein konkretes Beispiel, wie man eine bestimmte Art der EM-Implementierung durchführt, mag ich diese Erklärung, Abschnitte 2 bis 5.
Stachyra
2

MLE erfordert mindestens die Kenntnis der Randverteilungen. Bei der Verwendung von MLE schätzen wir die Parameter einer gemeinsamen Verteilung normalerweise, indem wir eine iid-Annahme treffen und dann die gemeinsame Verteilung als Produkt der uns bekannten Ränder berücksichtigen. Es gibt Variationen, aber das ist in den meisten Fällen die Idee. MLE ist also eine parametrische Methode.

Der EM-Algorithmus ist ein Verfahren zum Maximieren der Wahrscheinlichkeitsfunktionen, die als Teil eines MLE-Algorithmus auftreten. Es wird oft (normalerweise?) Für numerische Lösungen verwendet.

Wann immer wir MLE verwenden, benötigen wir mindestens die Randverteilungen und einige Annahmen darüber, wie die Verbindung mit den Randbedingungen zusammenhängt (Unabhängigkeit usw.). Beide Methoden beruhen daher auf Verteilungskenntnissen.

Charles Pehlivanian
quelle
Danke @Charles, das macht Sinn. Was bedeutet es dann, wenn von "nicht parametrischem MLE" die Rede ist? Dieser Satz ergibt auf den ersten Blick keinen Sinn. MLE schätzen immer einen Parameter der Verteilung, oder?
Creatron
Sie sprechen möglicherweise von ELE (Empirical Likelihood Estimation). Ich habe es nie benutzt. Ich versuche es zu erklären, wenn nötig. Ansonsten bin ich mir nicht sicher.
Charles Pehlivanian