Warum ist es so üblich, Schätzungen der maximalen Wahrscheinlichkeit von Parametern zu erhalten, aber Sie hören so gut wie nie von Schätzungen der erwarteten Wahrscheinlichkeitsparameter (dh basierend auf dem erwarteten Wert und nicht auf dem Modus einer Wahrscheinlichkeitsfunktion)? Ist dies in erster Linie aus historischen Gründen oder aus sachlicheren technischen oder theoretischen Gründen?
Gibt es signifikante Vor- und / oder Nachteile bei der Verwendung von Schätzungen der erwarteten Wahrscheinlichkeit anstelle von Schätzungen der maximalen Wahrscheinlichkeit?
Gibt es einige Bereiche , in denen erwartete Wahrscheinlichkeit Schätzungen werden routinemäßig verwendet?
probability
mathematical-statistics
maximum-likelihood
optimization
expected-value
Jake Westfall
quelle
quelle
Antworten:
Die vorgeschlagene Methode (nach Normierung der Wahrscheinlichkeit einer Dichte) entspricht der Schätzung der Parameter unter Verwendung einer flachen Priorität für alle Parameter im Modell und unter Verwendung des Mittelwerts der posterioren Verteilung als Schätzer. Es gibt Fälle, in denen Sie durch die Verwendung eines Flat-Priors in Schwierigkeiten geraten können, weil Sie am Ende keine ordnungsgemäße posteriore Verteilung haben. Daher weiß ich nicht, wie Sie diese Situation hier korrigieren können.
In einem häufig auftretenden Kontext zu bleiben, macht die Methode jedoch wenig Sinn, da die Wahrscheinlichkeit in den meisten Kontexten keine Wahrscheinlichkeitsdichte darstellt und es nichts Zufälliges mehr gibt, sodass es wenig Sinn macht, eine Erwartung zu treffen. Jetzt können wir dies einfach als eine Operation formalisieren, die wir auf die Wahrscheinlichkeit anwenden, dass nachträglich eine Schätzung erstellt wird. Ich bin mir jedoch nicht sicher, wie die frequentistischen Eigenschaften dieses Schätzers aussehen würden (in den Fällen, in denen die Schätzung tatsächlich vorliegt).
Vorteile:
Nachteile:
quelle
Ein Grund dafür ist, dass die Schätzung der maximalen Wahrscheinlichkeit einfacher ist: Sie setzen die Ableitung der Wahrscheinlichkeit für die Parameter auf Null und lösen nach den Parametern auf. Eine Erwartung zu nehmen bedeutet, die Wahrscheinlichkeit mal jeden Parameter zu integrieren.
In einigen Fällen stimmt der Parameter für die maximale Wahrscheinlichkeit mit dem Parameter für die erwartete Wahrscheinlichkeit überein. Beispielsweise ist das erwartete Wahrscheinlichkeitsmittel der obigen Normalverteilung das gleiche wie das maximale Wahrscheinlichkeitsmittel, da das Prioritätsmaß des Mittels normal ist und die Art und das Mittel einer Normalverteilung zusammenfallen. Dies gilt natürlich nicht für den anderen Parameter (wie auch immer Sie ihn parametrisieren).
Ich denke, der wichtigste Grund ist wahrscheinlich, warum Sie eine Erwartung der Parameter wünschen? Normalerweise lernen Sie ein Modell und die Parameterwerte sind alles, was Sie wollen. Wenn Sie einen einzelnen Wert zurückgeben, ist die maximale Wahrscheinlichkeit dann nicht die beste, die Sie zurückgeben können?
quelle
Dieser Ansatz existiert und wird als Minimum Contrast Estimator bezeichnet. Das Beispiel eines verwandten Papiers (und weitere Referenzen von innen) https://arxiv.org/abs/0901.0655
quelle