Ich habe viel Zeit in die Entwicklung von Methoden und Software für die Validierung von Vorhersagemodellen im Bereich der traditionellen Statistik investiert. Wenn ich mehr Bayes'sche Ideen in die Praxis umsetze und unterrichte, sehe ich einige wesentliche Unterschiede, die ich berücksichtigen muss. Erstens fordert die Bayes'sche Vorhersagemodellierung den Analysten auf, über frühere Verteilungen nachzudenken, die an die Kandidatenmerkmale angepasst werden können, und diese Prioritäten ziehen das Modell in ihre Richtung (dh Schrumpfung / Bestrafung / Regularisierung mit unterschiedlichem Ausmaß der Bestrafung für unterschiedliche Vorhersagemerkmale) ). Zweitens führt der "echte" Bayes'sche Weg nicht zu einem einzigen Modell, sondern man erhält eine gesamte hintere Verteilung für eine Vorhersage.
Was bedeutet Überanpassung angesichts dieser Bayes'schen Merkmale? Sollen wir es beurteilen? Wenn das so ist, wie? Woher wissen wir, wann ein Bayes'sches Modell für den Feldeinsatz zuverlässig ist? Oder ist das ein strittiger Punkt, da der Posterior alle vorsichtigen Unsicherheiten mit sich bringt, wenn wir das Modell verwenden, das wir für die Vorhersage entwickelt haben?
Wie würde sich das Denken ändern, wenn wir das Bayes'sche Modell zwingen würden, auf eine einzige Zahl zu destillieren, z. B. posteriores Mittel / Modus / mittleres Risiko?
Ich sehe einige relevante Gedanken hier . Eine parallele Diskussion finden Sie hier .
Folgefrage : Wenn wir vollständig bayesianisch sind und einige Zeit über die Prioritäten nachdenken, bevor wir die Daten sehen, und wenn wir ein Modell anpassen, in dem die Datenwahrscheinlichkeit angemessen spezifiziert wurde, sind wir gezwungen, mit unserem Modell in Bezug auf Überanpassung zufrieden zu sein ? Oder müssen wir das tun, was wir in der frequentistischen Welt tun, wo ein zufällig ausgewähltes Thema im Durchschnitt gut vorhergesagt werden kann, aber wenn wir ein Thema mit einer sehr niedrigen Vorhersage oder einem mit einem sehr hohen vorhergesagten Wert auswählen, kommt es zu einer Regression zum Mittelwert?
Antworten:
Zunächst möchte ich sagen, dass ein Bayes'sches Modell keine systematischen Über- oder Unteranpassungen von Daten vornehmen kann, die aus der vorherigen Vorhersageverteilung stammen. Dies ist die Grundlage für ein Verfahren zur Validierung der ordnungsgemäßen Funktionsweise der Bayes'schen Software, bevor sie auf Daten angewendet wird, die aus der Datenbank erfasst werden Welt.
Es kann jedoch ein einzelnes Dataset aus der vorherigen Vorhersageverteilung oder ein einzelnes Dataset aus der Welt in dem Sinne überschneiden, dass die verschiedenen Vorhersagemaßnahmen, die auf die von Ihnen konditionierten Daten angewendet werden, besser aussehen als dieselben Vorhersagemaßnahmen, die auf zukünftige Daten angewendet werden erzeugt durch den gleichen Prozess. Kapitel 6 von Richard McElreaths Bayesianischem Buch widmet sich der Überanpassung.
Der Schweregrad und die Häufigkeit von Überanpassungen können durch gute Prioritäten verringert werden, insbesondere durch solche, die Aufschluss über das Ausmaß eines Effekts geben. Indem Sie unplausiblen Werten eine verschwindend hohe Wahrscheinlichkeit vorziehen, entmutigen Sie die posteriore Verteilung, übermäßig von einem eigenwilligen Aspekt der Daten erregt zu werden, die Sie als Bedingung für einen unplausiblen Effekt verwenden.
Die beste Methode zum Erkennen einer Überanpassung besteht in einer einmaligen Kreuzvalidierung, die sich an einer posterioren Verteilung orientiert, die tatsächlich keine Beobachtungen außerhalb des Konditionierungssatzes hinterlässt. Es wird davon ausgegangen, dass keine einzelne "Beobachtung" [*], an die Sie sich halten, einen übermäßig großen Einfluss auf die posteriore Verteilung hat. Diese Annahme kann jedoch überprüft werden, indem die Größe der Schätzung des Formparameters in einer verallgemeinerten Pareto-Verteilung ausgewertet wird Anpassung an die Wichtigkeit der Stichprobengewichte (abgeleitet aus der logarithmischen Wahrscheinlichkeit einer Beobachtung, die über jede Entnahme aus der posterioren Verteilung ausgewertet wird). Wenn diese Annahme erfüllt ist, können Sie Vorhersagemaßnahmen für jede Beobachtung erhalten, die so aussehen, als ob diese Beobachtung weggelassen worden wäre. Der hintere Teil war von den verbleibenden Beobachtungen abhängig gemacht worden, und die prädiktive Verteilung des hinteren Teils war für die ausgelassene Beobachtung konstruiert worden. Wenn Ihre Vorhersagen von ausgelassenen Beobachtungen darunter leiden, war Ihr Modell von Anfang an überpassend. Diese Ideen werden in die umgesetztloo- Paket für R, das Zitate wie hier und da enthält .
Was das Destillieren auf eine einzelne Zahl angeht, berechne ich gern den Anteil der Beobachtungen, die in 50% Vorhersageintervalle fallen. In dem Maße, in dem dieser Anteil größer als die Hälfte ist, ist das Modell überpassend, obwohl Sie mehr als eine Handvoll Beobachtungen benötigen, um das Rauschen in der Einschlussindikatorfunktion zu reduzieren. Für den Vergleich verschiedener Modelle (die möglicherweise überbewertet sind) wird die erwartete logarithmische Vorhersagedichte (die von der
loo
Funktion im Klo berechnet wird) verwendetPaket) ist eine gute Maßnahme (von IJ Good vorgeschlagen), da sie die Möglichkeit berücksichtigt, dass ein flexibleres Modell möglicherweise besser zu den verfügbaren Daten passt als ein weniger flexibles Modell, aber voraussichtlich schlechtere Prognosen für zukünftige Daten liefert. Diese Ideen können jedoch auf die Erwartung von Vorhersagemaßnahmen angewendet werden (die für Praktiker möglicherweise intuitiver sind). siehe dieE_loo
funktion im loo paket.[*] Du musst wählen, was eine Beobachtung in einem hierarchischen Modell ausmacht. Möchten Sie beispielsweise einen neuen Patienten oder einen neuen Zeitpunkt für einen vorhandenen Patienten vorhersagen? Sie können dies auf beide Arten tun, aber bei ersteren müssen Sie die Wahrscheinlichkeitsfunktion (neu) schreiben, um die patientenspezifischen Parameter zu integrieren.
quelle
Überanpassung bedeutet, dass das Modell auf dem Trainingssatz gut funktioniert, aber auf dem Testsatz schlecht abschneidet. IMHO, es kommt aus zwei Quellen: den Daten und dem Modell, das wir verwenden (oder unserer Subjektivität).
Wenn wir häufig sind, liegt die Ursache für die Überanpassung bei MLE. Wenn wir Bayesianer sind, ergibt sich dies aus der (subjektiven) Wahl der vorherigen Verteilung (und natürlich der Wahl der Wahrscheinlichkeit). Selbst wenn Sie also die posteriore Verteilung / Mittelwert / Median verwenden, haben Sie bereits von Anfang an eine Überanpassung vorgenommen, und diese Überanpassung wird mitgeführt. Die richtige Wahl der Vorabverteilung und der Wahrscheinlichkeit wird helfen, aber sie sind immer noch die Modelle, Sie können niemals vermeiden, dass eine Überanpassung erfolgt.
quelle