Kreuzvalidierung gegen empirische Bayes zur Schätzung von Hyperparametern

20

Unter der Annahme eines hierarchischen Modells möchte ich, dass ein zweistufiger Prozess zum Modell passt. Korrigieren Sie zuerst eine Handvoll Hyperparameter und führen Sie dann die Bayes'sche Inferenz für die restlichen Parameter . Zur Fixierung der Hyperparameter überlege ich mir zwei Möglichkeiten.θ ϕp(x|ϕ,θ)θϕ

  1. Verwenden Sie Empirical Bayes (EB) und maximieren Sie die Grenzwahrscheinlichkeit (Integrieren Sie den Rest des Modells, das hochdimensionale Parameter enthält).p(alle Daten|θ)
  2. Verwenden Sie Cross Validation (CV) -Techniken wie die fache Kreuzvalidierung, um auszuwählen , mit der die Wahrscheinlichkeit maximiert wird .θ p ( Testdaten | Trainingsdaten , θ )kθp(Testdaten|Trainingsdaten,θ)

Der Vorteil von EB ist, dass ich alle Daten auf einmal verwenden kann, während ich für den Lebenslauf die Modellwahrscheinlichkeit (möglicherweise) mehrmals berechnen und nach suchen muss . Die Leistung von EB und CV ist in vielen Fällen vergleichbar (*), und EB lässt sich häufig schneller abschätzen.θ

Frage: Gibt es eine theoretische Grundlage, die beide miteinander verbindet (z. B. EB und CV sind bei großen Datenmengen identisch)? Oder verknüpft EB mit einem Verallgemeinerungskriterium wie dem empirischen Risiko? Kann jemand auf ein gutes Referenzmaterial verweisen?


(*) Zur Veranschaulichung hier eine Abbildung aus Murphys Maschinellem Lernen , Abschnitt 7.6.4, in der er sagt, dass beide Verfahren für die Gratregression sehr ähnliche Ergebnisse liefern:

Murphy - empirische Bayes vs CV

Murphy sagt auch, dass der prinzipielle praktische Vorteil der empirischen Bayes (er nennt es "Evidence Procedure") gegenüber CV darin besteht, dass aus vielen besteht (z. B. separate Strafe für jedes Merkmal, wie bei der automatischen Relevanzbestimmung oder ARD). Dort kann der Lebenslauf überhaupt nicht verwendet werden.θ

Memming
quelle
Können Sie genauer beschreiben, was Sie für die Kreuzvalidierungsmethode tun? Beheben Sie und verwenden Sie dann die Trainingsdaten, um die anderen Parameter vor der Validierung abzuschätzen? θ
Neil G
@NeilG Maximierung der Summe der Log-Marginal-Vorhersagedatenwahrscheinlichkeit für Kreuzvalidierungssätze (k ist heraus integriert).
Memming
1
Wenn beide Male integriert ist, was ist dann der Unterschied zwischen CV und EB? k
Neil G
2
Gute Frage. Ich habe es mir erlaubt, Ihrer Frage eine Zahl aus Murphys Lehrbuch hinzuzufügen, um zu veranschaulichen, warum zwei Vorgehensweisen häufig vergleichbar sind. Ich hoffe, Ihnen wird dieser Zusatz nichts ausmachen.
Amöbe sagt Reinstate Monica

Antworten:

15

Ich bezweifle, dass es einen theoretischen Zusammenhang gibt, der besagt, dass Lebenslauf und Evidenzmaximierung asymptotisch äquivalent sind, da die Evidenz die Wahrscheinlichkeit der Daten unter den Annahmen des Modells angibt . Wenn das Modell falsch spezifiziert ist, können die Beweise daher unzuverlässig sein. Die Kreuzvalidierung gibt andererseits eine Schätzung der Wahrscheinlichkeit der Daten, ob die Modellierungsannahmen korrekt sind oder nicht. Dies bedeutet, dass die Evidenz möglicherweise ein besserer Anhaltspunkt ist, wenn die Modellannahmen mit weniger Daten korrekt sind, die Kreuzvalidierung jedoch gegen Modellfehlspezifikationen zuverlässig ist. Der Lebenslauf ist assymptotisch unbefangen, aber ich würde annehmen, dass die Beweise nur dann zutreffen, wenn die Modellannahmen genau zutreffen.

Dies ist im Wesentlichen meine Intuition / Erfahrung; Es würde mich auch interessieren, etwas über die Forschung zu diesem Thema zu erfahren.

Beachten Sie, dass für viele Modelle (z. B. Ridge-Regression, Gauß-Prozesse, Kernel-Ridge-Regression / LS-SVM usw.) eine eindeutige Kreuzvalidierung mindestens so effizient durchgeführt werden kann wie die Schätzung der Evidenz Vorteil da.

Nachtrag: Sowohl die Grenzwahrscheinlichkeits- als auch die Kreuzvalidierungsleistungsschätzung werden anhand einer endlichen Stichprobe von Daten bewertet. Daher besteht immer die Möglichkeit einer Überanpassung, wenn ein Modell durch Optimieren eines der beiden Kriterien optimiert wird. Bei kleinen Stichproben kann der Unterschied in der Varianz der beiden Kriterien entscheiden, welche am besten funktioniert. Siehe meine Zeitung

Gavin C. Cawley, Nicola LC Talbot, "Überanpassung bei der Modellauswahl und anschließende Auswahlverzerrung bei der Leistungsbewertung", Journal of Machine Learning Research, 11 (Jul): 2079–2107, 2010. ( pdf )

Dikran Beuteltier
quelle
Warum ist der Lebenslauf Ihrer Meinung nach robust gegenüber einem falsch spezifizierten Modell? In seinem Fall gibt es keinen solchen Schutz, da die Kreuzvalidierung in demselben Bereich sucht, in dem EB eine Wahrscheinlichkeit berechnet. Wenn seine Modellannahmen falsch sind, wird ihn eine Kreuzvalidierung nicht retten.
Neil G
1
ϕϕθ
ps Ich habe eine Analyse durchgeführt, um eine Überanpassung in neuronalen Netzen mit Bayes'scher Regularisierung zu vermeiden, wobei die Regularisierungsparameter über eine marginale Wahrscheinlichkeitsmaximierung abgestimmt werden. Es gibt Situationen, in denen dies sehr schlecht funktioniert (schlimmer als überhaupt keine Regularisierung zu haben). Dies scheint ein Problem der Modellfehlspezifikation zu sein.
Dikran Marsupial
Er kann denselben "Indikator für die Generalisierungsleistung" erhalten, indem er die gesamte Log-Wahrscheinlichkeit der Daten bei der geschätzten Verteilung überprüft, die von EB zurückgegeben wird (was der Entropie dieser Verteilung entspricht). In diesem Fall ist dies nicht zu übertreffen, da es die analytische Lösung für dieses Problem darstellt. Ich verstehe nicht, warum eine Kreuzvalidierung sinnvoll ist, wenn Sie eine Wahrscheinlichkeit für EB berechnen können.
Neil G
2
@probabilityislogic, ich bin nicht ganz sicher, worauf du hinaus willst (Problem zweifellos an meinem Ende!; o). Ich kann Ihnen jedoch aus praktischer Erfahrung sagen, dass das Problem sehr real ist. Ich arbeite seit mehreren Jahren an Problemen bei der Modellauswahl und bin auf viele Probleme gestoßen, bei denen sich die Maximierung der Grenzwahrscheinlichkeit als sehr schlechte Idee herausstellt. Die Kreuzvalidierung ist für die meisten Datasets ungefähr gleich gut, aber wenn sie schlecht ist, ist sie selten katastrophal, wie dies manchmal bei der Evidenzmaximierung der Fall ist.
Dikran Marsupial
-1

kk

Neil G
quelle