Ich habe einige einfache konzeptionelle Fragen, die ich in Bezug auf MLE (Maximum Likelihood Estimation) klären möchte, und welchen Zusammenhang es gegebenenfalls mit EM (Expectation Maximization) hat.
Wenn jemand sagt, "Wir haben die MLE verwendet", bedeutet dies nach meinem Verständnis dann automatisch, dass er ein explizites Modell der PDF-Datei seiner Daten hat? Es scheint mir, dass die Antwort darauf ja ist. Anders ausgedrückt, wenn jemand zu irgendeinem Zeitpunkt "MLE" sagt, ist es fair, ihn zu fragen, welches PDF er annimmt. Wäre das richtig?
In Bezug auf EM verstehe ich schließlich, dass wir in EM das zugrunde liegende PDF unserer Daten nicht wirklich kennen - oder kennen müssen. Das ist mein Verständnis.
Vielen Dank.
Antworten:
Die MLE - Methode kann in Fällen angewendet werden , wo jemand die grundlegenden Funktions kennt Form des pdf (zB es die Gaußsche oder log-normal, oder exponentiell, oder was auch immer), aber nicht die zugrundeliegenden Parameter; zB kennen sie die Werte von und σ im pdf nicht: f ( x | μ , σ ) = 1μ σ oder eine andere Art von PDF, die sie annehmen. Die Aufgabe der MLEMethode istdie besten (dh plausibelste) Werte für den unbekannten Parameter zu wählen, da die Daten der jeweiligen Messungenx1,x2,x3,. . . die tatsächlich beobachtet wurden. Um Ihre erste Frage zu beantworten: Ja, Sie haben immer das Recht, jemanden zu fragen, welcheFormvon PDF er für seine maximale Wahrscheinlichkeitsschätzung annimmt. In der Tat sind die geschätzten Parameterwerte, die sie Ihnen mitteilen, nicht einmal aussagekräftig, es sei denn, sie kommunizieren zuerst diesen Kontext.
Der EM-Algorithmus ist, wie ich in der Vergangenheit gesehen habe, eher eine Art Meta-Algorithmus, bei dem einige der Metadaten fehlen, und das muss man auch schätzen. So zum Beispiel, vielleicht habe ich ein pdf , das eine Mischung aus mehreren Gaussians ist, zum Beispiel: Oberflächlich gesehensieht dies, abgesehen von der Addition des AmplitudenparametersAk, dem vorherigen Problem sehr ähnlich, aber was ist, wenn ich Ihnen sage, dass wir auch den Wert vonN(dh die Zahl)nicht einmal kennenvon Moden in der Gauß'schen Mischung) und wollen wirdass aus den Datenmessungen abzuschätzenx1,x2,x3,. . . auch?
In diesem Fall haben Sie ein Problem, weil jeder mögliche Wert von (dies ist der "Meta" -Teil, auf den ich oben anspielte) in gewisser Weise ein anderes Modell erzeugt. Wenn N = 1 , dann haben Sie ein Modell mit drei Parametern ( A 1 , μ 1 , σ 1 ), während wenn N = 2 , dann haben Sie ein Modell mit sechs Parametern ( A 1 , A 2 , μ 1 , μ 2 , σ 1 , σ 2 ). Die besten Anpassungswerte, für die Sie erhalten (N N=1 A1 μ1 σ1 N=2 A1 A2 μ1 μ2 σ1 σ2 , μ 1 , σ 1 ) im N = 1- Modell kann nicht direkt mit den besten Anpassungswerten verglichen werden, die Sie für dieselben Parameter im N = 2- Modell erhalten, da es sich um verschiedene Modelle mit einer unterschiedlichen Anzahl von handeltFreiheitsgrade.A1 μ1 σ1 N=1 N=2
Die Rolle des EM-Algorithmus besteht darin, einen Mechanismus für solche Vergleiche bereitzustellen (in der Regel durch Auferlegung einer "Komplexitätsstrafe" , die kleinere Werte von bevorzugt ), damit wir den besten Gesamtwert für N auswählen können .N N
quelle
MLE erfordert mindestens die Kenntnis der Randverteilungen. Bei der Verwendung von MLE schätzen wir die Parameter einer gemeinsamen Verteilung normalerweise, indem wir eine iid-Annahme treffen und dann die gemeinsame Verteilung als Produkt der uns bekannten Ränder berücksichtigen. Es gibt Variationen, aber das ist in den meisten Fällen die Idee. MLE ist also eine parametrische Methode.
Der EM-Algorithmus ist ein Verfahren zum Maximieren der Wahrscheinlichkeitsfunktionen, die als Teil eines MLE-Algorithmus auftreten. Es wird oft (normalerweise?) Für numerische Lösungen verwendet.
Wann immer wir MLE verwenden, benötigen wir mindestens die Randverteilungen und einige Annahmen darüber, wie die Verbindung mit den Randbedingungen zusammenhängt (Unabhängigkeit usw.). Beide Methoden beruhen daher auf Verteilungskenntnissen.
quelle