In einer kürzlich gehaltenen Vorlesung wurde mir gesagt, dass die Log-Wahrscheinlichkeit auf minus unendlich gehen muss, damit die maximale Wahrscheinlichkeitsschätzung gültig ist, wenn der Parameter an die Grenze des Parameterraums geht. Aber ich verstehe nicht, warum das wichtig ist. Angenommen, die Log-Wahrscheinlichkeit geht auf eine Art Asymptote über. Dann ist der Parameter, der die Wahrscheinlichkeit maximiert, immer noch die maximale Wahrscheinlichkeitsschätzung, oder?
8
Antworten:
Dies ist gleichbedeutend damit, dass die Wahrscheinlichkeit eines Parameters an der Grenze des Parameterraums 0 werden muss, damit das Ergebnis gültig ist.
Zunächst einmal können Sie den Parameterraum auf Werte beschränken, die alle eine positive Wahrscheinlichkeit haben und dennoch eine gültige Schätzung erhalten.
Zweitens, selbst wenn Sie beispielsweise , kommen Sie der Grenze nicht nahe, da jedes Standardoptimierungspaket eine Art zufällige Initialisierung durchführt und sich dann mit einer Methode wie dem Gradienten dem Minimum nähert Abstieg, konjugierter Gradient oder ein anderer. In beiden Fällen nähern Sie sich fast nie der Grenze des Parameterraums, daher verstehe ich nicht ganz, warum die Grenzen überhaupt wichtig sind.(−∞,∞)
Und selbst wenn Sie dies absichtlich tun, werden Sie an einem Punkt die Gleitkommapräzision Ihres Betriebssystems erreichen. Ich kann Ihnen garantieren , dass an diesem Punkt, Sie haben nicht wirklich die Grenze genähert viel. :) :)−∞
Persönlich finde ich das Unterlaufproblem, das bei der Berechnung von Summen und Produkten mit sehr geringen Wahrscheinlichkeiten auftritt, und den Log-Summen-Exp-Trick viel interessanter und bemerkenswerter, was in der Praxis tatsächlich sehr wichtig ist, im Gegensatz zum Erreichen der Grenzen des Parameterraums.
quelle