Verhindern, dass Pareto Smoothed Important Sampling (PSIS-LOO) fehlschlägt

10

Ich habe vor kurzem damit begonnen, die pareto-geglättete Stichprobenauswahl (PSIS-LOO) zu verwenden, die in den folgenden Abhandlungen beschrieben wird:

  • Vehtari, A. & Gelman, A. (2015). Pareto glättete wichtige Stichproben. arXiv Preprint ( Link ).
  • A. Vehtari, A. Gelman & J. Gabry (2016). Praktische Bayes'sche Modellbewertung mit einmaliger Kreuzvalidierung und WAIC. arXiv Preprint ( Link )

Dies ist ein sehr verlockender Ansatz für die Bewertung von Modellen außerhalb der Stichprobe, da er die Durchführung eines LOO-CV mit einem einzigen MCMC-Lauf ermöglicht und angeblich besser ist als vorhandene Informationskriterien wie WAIC.

SIPS-LOO hat eine Diagnose , Ihnen zu sagen , ob die Annäherung zuverlässig ist, und zwar durch die geschätzten Exponenten gegeben k i der Pareto - Verteilungen an den Schwänzen der empirischen Verteilungen von Bedeutung weigths (ein Gewicht pro Datenpunkt) ausgestattet. Kurz gesagt, wenn ein geschätztes Gewicht k i0,7 , können schlimme Dinge passieren.k^ik^i0.7

Leider fand ich , dass ich in meiner Anwendung dieser Methode auf mein Problem, für die Mehrheit der Modelle von Interesse , dass ein großer Teil des k i » 0,7 . Es ist nicht überraschend, dass einige der gemeldeten LOO-Log-Wahrscheinlichkeiten offensichtlich unsinnig waren (im Vergleich zu anderen Datensätzen). Zur Überprüfung führte ich eine herkömmliche (und zeitaufwändige) 10-fache Kreuzvalidierung durch und stellte fest, dass PSIS-LOO im obigen Fall tatsächlich furchtbar falsche Ergebnisse lieferte (auf der anderen Seite stimmten die Ergebnisse sehr gut mit 10 überein -fach CV für die Modelle , in denen alle k i « 0,7 ). Für die Aufzeichnung verwende ich die MATLAB-Implementierung von PSIS-LOO von Aki Vehtari.k^i0.7k^i0.7

Vielleicht habe ich nur großes Pech, dass mein aktuelles und erstes Problem, bei dem ich diese Methode anwende, für PSIS-LOO "schwierig" ist, aber ich vermute, dass dieser Fall relativ häufig ist. Für Fälle wie meinen heißt es in der Zeitung Vehtary, Gelman & Gabry einfach:

k^>0.7p(θs|yi)ik

Dies sind offensichtliche, aber nicht wirklich ideale Lösungen, da sie alle zeitaufwändig sind oder zusätzliches Fummeln erfordern (ich schätze, dass es bei MCMC und Modellbewertung nur um Fummeln geht, aber je weniger , desto besser).

Gibt es eine allgemeine Methode, die wir im Voraus anwenden können, um zu verhindern, dass PSIS-LOO fehlschlägt? Ich habe ein paar vorläufige Ideen, aber ich frage mich, ob es bereits eine empirische Lösung gibt, die die Leute übernommen haben.

Lacerbi
quelle

Antworten:

8

Für die Aufzeichnung habe ich eine ähnliche Frage an die Mailingliste der Stan- Benutzer gesendet, die Sie hier finden . Ich wurde von einem der Autoren des ursprünglichen PSIS-LOO-Papiers und von anderen Mitwirkenden von Stan beantwortet. Was folgt, ist meine persönliche Zusammenfassung.

Die kurze Antwort lautet, dass keine allgemeinen Methoden bekannt sind, um zu verhindern, dass PSIS-LOO fehlschlägt. Wenn PSIS-LOO fehlschlägt, liegt dies normalerweise daran, dass das Modell Probleme aufweist und die Behebung notwendigerweise dem Benutzer überlassen bleibt.

Insbesondere ist der Grund, warum PSIS-LOO fehlschlagen kann, normalerweise, dass eine oder mehrere LOO-Verteilungen verschoben und / oder breiter als der gesamte hintere Teil sind, wahrscheinlich aufgrund einflussreicher Beobachtungen, und die Wichtigkeit der Stichprobenverteilung auf einen oder mehrere Punkte zusammenbricht.

Ich dachte, Sie könnten versuchen, eine Form des parallelen posterioren Temperierungsansatzes zu wählen, um dieses Problem zu lösen. Die Idee ist nicht unbedingt falsch, aber es wurde mir darauf hingewiesen, dass:

  • Das hintere Tempern im Lehrbuch würde immer noch viel Fall-zu-Fall-Fummeln erfordern, um die richtigen Temperaturniveaus zu finden, da es keinen offensichtlichen oder bekannten Weg gibt, dies zu tun (im Übrigen schließt Stan aus diesem Grund kein paralleles Tempern ein).
  • Wenn Sie mehr als zwei Temperaturniveaus verwenden (da möglicherweise ein robuster Ansatz erforderlich ist), nähern sich die endgültigen Berechnungskosten denen der K-fachen Kreuzvalidierung oder der Ausführung von MCMC für die problematischen LOO-Verteilungen an.

Kurz gesagt, wenn PSIS-LOO fehlschlägt, scheint es schwierig zu sein, eine Methode zu finden, die so robust und allgemein ist wie andere einfache Patches. Aus diesem Grund haben Vehtari, Gelman & Gabry diese Methoden gemäß dem Zitat vorgeschlagen, das ich in meiner ursprünglichen Frage veröffentlicht habe.

Lacerbi
quelle