Unter der Annahme eines hierarchischen Modells möchte ich, dass ein zweistufiger Prozess zum Modell passt. Korrigieren Sie zuerst eine Handvoll Hyperparameter und führen Sie dann die Bayes'sche Inferenz für die restlichen Parameter . Zur Fixierung der Hyperparameter überlege ich mir zwei Möglichkeiten.θ ϕ
- Verwenden Sie Empirical Bayes (EB) und maximieren Sie die Grenzwahrscheinlichkeit (Integrieren Sie den Rest des Modells, das hochdimensionale Parameter enthält).
- Verwenden Sie Cross Validation (CV) -Techniken wie die fache Kreuzvalidierung, um auszuwählen , mit der die Wahrscheinlichkeit maximiert wird .θ p ( Testdaten | Trainingsdaten , θ )
Der Vorteil von EB ist, dass ich alle Daten auf einmal verwenden kann, während ich für den Lebenslauf die Modellwahrscheinlichkeit (möglicherweise) mehrmals berechnen und nach suchen muss . Die Leistung von EB und CV ist in vielen Fällen vergleichbar (*), und EB lässt sich häufig schneller abschätzen.
Frage: Gibt es eine theoretische Grundlage, die beide miteinander verbindet (z. B. EB und CV sind bei großen Datenmengen identisch)? Oder verknüpft EB mit einem Verallgemeinerungskriterium wie dem empirischen Risiko? Kann jemand auf ein gutes Referenzmaterial verweisen?
(*) Zur Veranschaulichung hier eine Abbildung aus Murphys Maschinellem Lernen , Abschnitt 7.6.4, in der er sagt, dass beide Verfahren für die Gratregression sehr ähnliche Ergebnisse liefern:
Murphy sagt auch, dass der prinzipielle praktische Vorteil der empirischen Bayes (er nennt es "Evidence Procedure") gegenüber CV darin besteht, dass aus vielen besteht (z. B. separate Strafe für jedes Merkmal, wie bei der automatischen Relevanzbestimmung oder ARD). Dort kann der Lebenslauf überhaupt nicht verwendet werden.
Antworten:
Ich bezweifle, dass es einen theoretischen Zusammenhang gibt, der besagt, dass Lebenslauf und Evidenzmaximierung asymptotisch äquivalent sind, da die Evidenz die Wahrscheinlichkeit der Daten unter den Annahmen des Modells angibt . Wenn das Modell falsch spezifiziert ist, können die Beweise daher unzuverlässig sein. Die Kreuzvalidierung gibt andererseits eine Schätzung der Wahrscheinlichkeit der Daten, ob die Modellierungsannahmen korrekt sind oder nicht. Dies bedeutet, dass die Evidenz möglicherweise ein besserer Anhaltspunkt ist, wenn die Modellannahmen mit weniger Daten korrekt sind, die Kreuzvalidierung jedoch gegen Modellfehlspezifikationen zuverlässig ist. Der Lebenslauf ist assymptotisch unbefangen, aber ich würde annehmen, dass die Beweise nur dann zutreffen, wenn die Modellannahmen genau zutreffen.
Dies ist im Wesentlichen meine Intuition / Erfahrung; Es würde mich auch interessieren, etwas über die Forschung zu diesem Thema zu erfahren.
Beachten Sie, dass für viele Modelle (z. B. Ridge-Regression, Gauß-Prozesse, Kernel-Ridge-Regression / LS-SVM usw.) eine eindeutige Kreuzvalidierung mindestens so effizient durchgeführt werden kann wie die Schätzung der Evidenz Vorteil da.
Nachtrag: Sowohl die Grenzwahrscheinlichkeits- als auch die Kreuzvalidierungsleistungsschätzung werden anhand einer endlichen Stichprobe von Daten bewertet. Daher besteht immer die Möglichkeit einer Überanpassung, wenn ein Modell durch Optimieren eines der beiden Kriterien optimiert wird. Bei kleinen Stichproben kann der Unterschied in der Varianz der beiden Kriterien entscheiden, welche am besten funktioniert. Siehe meine Zeitung
Gavin C. Cawley, Nicola LC Talbot, "Überanpassung bei der Modellauswahl und anschließende Auswahlverzerrung bei der Leistungsbewertung", Journal of Machine Learning Research, 11 (Jul): 2079–2107, 2010. ( pdf )
quelle
quelle