In Bishops PRML-Buch sagt er, dass Überanpassung ein Problem bei der Maximum Likelihood Estimation (MLE) ist und Bayesian dies vermeiden kann.
Aber ich denke, Überanpassung ist eher ein Problem bei der Modellauswahl als bei der Methode zur Parameterschätzung. Angenommen, ich habe einen Datensatz , der über f ( x ) = s i n ( x ) erzeugt wird. , jetzt könnte ich verschiedene Modelle H i auswählen, um die Daten anzupassen und herauszufinden, welches das beste ist. Und die betrachteten Modelle sind Polynome mit unterschiedlichen Ordnungen, H 1 ist Ordnung 1, H 2 ist Ordnung 2,
Jetzt versuche ich, die Daten mit jedem der 3 Modelle zu kombinieren. Jedes Modell hat seine Parameter, die als w i für H i bezeichnet werden .
Mit ML habe ich eine Punktschätzung der Modellparameter , und H 1 ist zu einfach und passt immer zu wenig zu den Daten, während H 3 zu komplex ist und zu viel zu den Daten passt , nur H 2 passt gut zu den Daten.
Meine Fragen sind:
1) Modell passt die Daten über, aber ich denke nicht, dass es das Problem von ML ist, sondern das Problem des Modells an sich. Da unter Verwendung von ML für H 1 , H 2 führt nicht in Überanpassung. Habe ich recht?
2) Verglichen mit Bayesian hat ML einige Nachteile, da es nur die Punktschätzung der Modellparameter liefert und übermäßig sicher ist. Während Bayesian sich nicht nur auf den wahrscheinlichsten Wert des Parameters stützt, sondern auf alle möglichen Werte der Parameter unter Berücksichtigung der beobachteten Daten D , oder?
3) Warum kann Bayesian eine Überanpassung vermeiden oder verringern? Soweit ich weiß, können wir Bayesian für den Modellvergleich verwenden. Wenn wir also Daten , können wir die Grenzwahrscheinlichkeit (oder Modellbeweise) für jedes betrachtete Modell herausfinden und dann das Modell mit der höchsten Grenzwahrscheinlichkeit auswählen, richtig ? Wenn ja, warum ist das so?
quelle
Wenn Sie Regressionsmodelle vom Typ "Least Squares" verwenden, gibt es im Allgemeinen keinen großen Unterschied zwischen Bayes und ML, es sei denn, Sie verwenden ein informatives Vorzeichen für die Regressionsparameter. Als Antwort auf Besonderheiten:
3) Mit dem Bayes'schen Ansatz kann eine Überanpassung nur bei geeigneten Priors vermieden werden. Dies funktioniert auf ähnliche Weise wie die Strafbegriffe, die Sie in einigen Anpassungsalgorithmen sehen. Zum Beispiel ist L2-Strafe = normal vor, L1-Strafe = Laplace vor.
quelle
quelle