Bayesianische Überanpassung

20

Ich habe viel Zeit in die Entwicklung von Methoden und Software für die Validierung von Vorhersagemodellen im Bereich der traditionellen Statistik investiert. Wenn ich mehr Bayes'sche Ideen in die Praxis umsetze und unterrichte, sehe ich einige wesentliche Unterschiede, die ich berücksichtigen muss. Erstens fordert die Bayes'sche Vorhersagemodellierung den Analysten auf, über frühere Verteilungen nachzudenken, die an die Kandidatenmerkmale angepasst werden können, und diese Prioritäten ziehen das Modell in ihre Richtung (dh Schrumpfung / Bestrafung / Regularisierung mit unterschiedlichem Ausmaß der Bestrafung für unterschiedliche Vorhersagemerkmale) ). Zweitens führt der "echte" Bayes'sche Weg nicht zu einem einzigen Modell, sondern man erhält eine gesamte hintere Verteilung für eine Vorhersage.

Was bedeutet Überanpassung angesichts dieser Bayes'schen Merkmale? Sollen wir es beurteilen? Wenn das so ist, wie? Woher wissen wir, wann ein Bayes'sches Modell für den Feldeinsatz zuverlässig ist? Oder ist das ein strittiger Punkt, da der Posterior alle vorsichtigen Unsicherheiten mit sich bringt, wenn wir das Modell verwenden, das wir für die Vorhersage entwickelt haben?

Wie würde sich das Denken ändern, wenn wir das Bayes'sche Modell zwingen würden, auf eine einzige Zahl zu destillieren, z. B. posteriores Mittel / Modus / mittleres Risiko?

Ich sehe einige relevante Gedanken hier . Eine parallele Diskussion finden Sie hier .

Folgefrage : Wenn wir vollständig bayesianisch sind und einige Zeit über die Prioritäten nachdenken, bevor wir die Daten sehen, und wenn wir ein Modell anpassen, in dem die Datenwahrscheinlichkeit angemessen spezifiziert wurde, sind wir gezwungen, mit unserem Modell in Bezug auf Überanpassung zufrieden zu sein ? Oder müssen wir das tun, was wir in der frequentistischen Welt tun, wo ein zufällig ausgewähltes Thema im Durchschnitt gut vorhergesagt werden kann, aber wenn wir ein Thema mit einer sehr niedrigen Vorhersage oder einem mit einem sehr hohen vorhergesagten Wert auswählen, kommt es zu einer Regression zum Mittelwert?

Frank Harrell
quelle
1
Siehe mdpi.com/1099-4300/19/10/555/htm 5.1, 5.2
Tim
1
Andrew Gelman hat einen sehr relevanten Blog-Artikel unter andrewgelman.com/2017/04/12/bayesian-posteriors-calibrated
Frank Harrell

Antworten:

6

Zunächst möchte ich sagen, dass ein Bayes'sches Modell keine systematischen Über- oder Unteranpassungen von Daten vornehmen kann, die aus der vorherigen Vorhersageverteilung stammen. Dies ist die Grundlage für ein Verfahren zur Validierung der ordnungsgemäßen Funktionsweise der Bayes'schen Software, bevor sie auf Daten angewendet wird, die aus der Datenbank erfasst werden Welt.

Es kann jedoch ein einzelnes Dataset aus der vorherigen Vorhersageverteilung oder ein einzelnes Dataset aus der Welt in dem Sinne überschneiden, dass die verschiedenen Vorhersagemaßnahmen, die auf die von Ihnen konditionierten Daten angewendet werden, besser aussehen als dieselben Vorhersagemaßnahmen, die auf zukünftige Daten angewendet werden erzeugt durch den gleichen Prozess. Kapitel 6 von Richard McElreaths Bayesianischem Buch widmet sich der Überanpassung.

Der Schweregrad und die Häufigkeit von Überanpassungen können durch gute Prioritäten verringert werden, insbesondere durch solche, die Aufschluss über das Ausmaß eines Effekts geben. Indem Sie unplausiblen Werten eine verschwindend hohe Wahrscheinlichkeit vorziehen, entmutigen Sie die posteriore Verteilung, übermäßig von einem eigenwilligen Aspekt der Daten erregt zu werden, die Sie als Bedingung für einen unplausiblen Effekt verwenden.

Die beste Methode zum Erkennen einer Überanpassung besteht in einer einmaligen Kreuzvalidierung, die sich an einer posterioren Verteilung orientiert, die tatsächlich keine Beobachtungen außerhalb des Konditionierungssatzes hinterlässt. Es wird davon ausgegangen, dass keine einzelne "Beobachtung" [*], an die Sie sich halten, einen übermäßig großen Einfluss auf die posteriore Verteilung hat. Diese Annahme kann jedoch überprüft werden, indem die Größe der Schätzung des Formparameters in einer verallgemeinerten Pareto-Verteilung ausgewertet wird Anpassung an die Wichtigkeit der Stichprobengewichte (abgeleitet aus der logarithmischen Wahrscheinlichkeit einer Beobachtung, die über jede Entnahme aus der posterioren Verteilung ausgewertet wird). Wenn diese Annahme erfüllt ist, können Sie Vorhersagemaßnahmen für jede Beobachtung erhalten, die so aussehen, als ob diese Beobachtung weggelassen worden wäre. Der hintere Teil war von den verbleibenden Beobachtungen abhängig gemacht worden, und die prädiktive Verteilung des hinteren Teils war für die ausgelassene Beobachtung konstruiert worden. Wenn Ihre Vorhersagen von ausgelassenen Beobachtungen darunter leiden, war Ihr Modell von Anfang an überpassend. Diese Ideen werden in die umgesetztloo- Paket für R, das Zitate wie hier und da enthält .

Was das Destillieren auf eine einzelne Zahl angeht, berechne ich gern den Anteil der Beobachtungen, die in 50% Vorhersageintervalle fallen. In dem Maße, in dem dieser Anteil größer als die Hälfte ist, ist das Modell überpassend, obwohl Sie mehr als eine Handvoll Beobachtungen benötigen, um das Rauschen in der Einschlussindikatorfunktion zu reduzieren. Für den Vergleich verschiedener Modelle (die möglicherweise überbewertet sind) wird die erwartete logarithmische Vorhersagedichte (die von der looFunktion im Klo berechnet wird) verwendetPaket) ist eine gute Maßnahme (von IJ Good vorgeschlagen), da sie die Möglichkeit berücksichtigt, dass ein flexibleres Modell möglicherweise besser zu den verfügbaren Daten passt als ein weniger flexibles Modell, aber voraussichtlich schlechtere Prognosen für zukünftige Daten liefert. Diese Ideen können jedoch auf die Erwartung von Vorhersagemaßnahmen angewendet werden (die für Praktiker möglicherweise intuitiver sind). siehe die E_loofunktion im loo paket.

[*] Du musst wählen, was eine Beobachtung in einem hierarchischen Modell ausmacht. Möchten Sie beispielsweise einen neuen Patienten oder einen neuen Zeitpunkt für einen vorhandenen Patienten vorhersagen? Sie können dies auf beide Arten tun, aber bei ersteren müssen Sie die Wahrscheinlichkeitsfunktion (neu) schreiben, um die patientenspezifischen Parameter zu integrieren.

Ben Goodrich
quelle
2
Sehr informativ Ben. Vielen Dank, dass Sie sich die Zeit genommen haben, ausführlich zu antworten. Um Ihre Frage zum Anwendungsbereich zu beantworten, beziehe ich mich auf neue Patienten. Ich habe eine allgemeine philosophische Frage, die ich am Ende der ursprünglichen Frage hinzugefügt habe.
Frank Harrell
2
Ich neige dazu, Schecks wie diese als Aspekte unserer früheren Überzeugungen zu betrachten, die wir nicht in die früheren Distributionen, die wir verwendeten, einbauen konnten oder wollten. Zum Beispiel im Prinzip sollten Sie einen gemeinsamen Stand der PDF über alle Parameter werden spezifiziert, aber fast immer gibt es viele davon aus, dass dies davon unabhängig ist, a priori , nicht , weil Sie wirklich glauben , dass sie unabhängig sind , sondern nur , weil Spezifizierungs Die multivariate Abhängigkeitsstruktur ist sehr schwierig. Multivariate Funktionen wie Vorhersagen können Ihnen nachträglich helfen, festzustellen, ob die Eingaben gemeinsam sinnvoll waren.
Ben Goodrich
Das macht großen Sinn und ist sehr aufschlussreich. Die Einschätzung der Vorhersagegenauigkeit für "extreme" Probanden, dh Probanden mit sehr niedrigen oder sehr hohen Vorhersagewerten, bereitet mir immer noch einige Probleme. [Und für Bayes, der Werte vorhersagte. Handelt es sich um Probanden mit verschobener posteriorer Verteilung oder um Probanden mit niedrigem / hohem posteriorem Mittelwert?]
Frank Harrell,
1
Ein anderer Gedanke dazu: Es scheint, dass die Praktizierenden in vielen Situationen ziemlich kohärente und unumstrittene Überzeugungen über den Nenner der Bayes-Regel haben. Wenn zum Beispiel jemand an diesem oder jenem Krebs leidet, wie verteilt sich seine Überlebenszeit, ohne von irgendetwas anderem abhängig zu sein? Es ist jedoch schwieriger und kontroverser, den Zähler der Bayes-Regel so festzulegen, dass Sie, wenn Sie alle Parameter herausrechnen, den erachteten Nenner behalten. Predictive Checking (sowohl vor als auch nach) ist eine Möglichkeit, den Zähler an den Nenner der Bayes-Regel anzupassen.
Ben Goodrich
1

Überanpassung bedeutet, dass das Modell auf dem Trainingssatz gut funktioniert, aber auf dem Testsatz schlecht abschneidet. IMHO, es kommt aus zwei Quellen: den Daten und dem Modell, das wir verwenden (oder unserer Subjektivität).

k

Wenn wir häufig sind, liegt die Ursache für die Überanpassung bei MLE. Wenn wir Bayesianer sind, ergibt sich dies aus der (subjektiven) Wahl der vorherigen Verteilung (und natürlich der Wahl der Wahrscheinlichkeit). Selbst wenn Sie also die posteriore Verteilung / Mittelwert / Median verwenden, haben Sie bereits von Anfang an eine Überanpassung vorgenommen, und diese Überanpassung wird mitgeführt. Die richtige Wahl der Vorabverteilung und der Wahrscheinlichkeit wird helfen, aber sie sind immer noch die Modelle, Sie können niemals vermeiden, dass eine Überanpassung erfolgt.

SiXUlm
quelle
Wenn man die Datenwahrscheinlichkeit ignoriert, die für häufig auftretende und bayesianische Ansätze üblich ist, ist die Idee, dass eine Überanpassung durch die Wahl des Prior erfolgt, aufschlussreich. Dies impliziert, dass es keine Möglichkeit gibt, auf Überanpassung zu prüfen, da es keine Möglichkeit gibt und keine Notwendigkeit besteht, die Voreinstellung zu prüfen, wenn wir alle Voreinstellungsdaten im Voraus über die Voreinstellung nachgedacht haben. Aber ich habe immer noch das Gefühl, dass extreme Vorhersagen zu einer Überanpassung führen (Regression zum Mittelwert). Beim Prior geht es um Parameter, nicht um Datenextreme.
Frank Harrell