Stimmt es, dass Bayesianer keine Testsätze benötigen?

Also beantwortete ich die Frage zur Überanpassung, auf die Sie verweisen, und schaute mir das Video an und las den Blog-Beitrag. Radford Neal sagt nicht, dass Bayes'sche Modelle nicht überpassen. Denken wir daran, dass Überanpassung das Phänomen ist, dass Rauschen als Signal behandelt und in die Parameterschätzung einbezogen wird. Dies ist nicht die einzige Ursache für Modellauswahlfehler. Neals Diskussion ist jedoch breiter, indem er sich auf die Idee einer kleinen Stichprobengröße wagt, die er in die Diskussion über Überanpassung wagt.

Lassen Sie mich meine vorherige Veröffentlichung teilweise überarbeiten, dass Bayes'sche Modelle an alle Bayes'schen Modelle angepasst werden können, dies jedoch auf eine Weise, die die Vorhersage verbessert. Zurück zur Definition der Verwechslung von Signal und Rauschen: Die Unsicherheit in den Bayes'schen Methoden, die posteriore Verteilung, ist die Quantifizierung dieser Unsicherheit darüber, was Signal und was Rauschen ist. Dabei stauen Bayes'sche Methoden Rauschen in Signalschätzungen ein, da der gesamte Posterior für Inferenz und Vorhersage verwendet wird. Überanpassung und andere Ursachen für Modellklassifizierungsfehler sind eine andere Art von Problem bei Bayes'schen Methoden.

Lassen Sie uns zur Vereinfachung die Struktur von Ma's Vortrag übernehmen und uns auf die lineare Regression konzentrieren und die Diskussion über tiefes Lernen vermeiden, da die alternativen Methoden, die er erwähnt, nur Zusammensetzungen von Funktionen sind und eine direkte Verbindung zwischen der Logik der linearen besteht Regression und tiefes Lernen.

Betrachten Sie das folgende mögliche Modell Erstellen wir eine breite Stichprobe der Größe die aus zwei Teilstichproben besteht, , wobei der Trainingssatz und der Validierungssatz ist. Wir werden sehen, warum Bayes'sche Methoden mit einigen Einschränkungen kein separates Trainings- und Validierungsset benötigen.

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

N

$N$

n_{1}, n_{2}

$n_1,n_2$

n_{1}

$n_1$

n_{2}

$n_2$

Für diese Diskussion müssen wir acht weitere Parameter erstellen, einen für jedes Modell. Sie sind . Sie folgen einer multinomialen Verteilung und haben ebenso wie die Regressionskoeffizienten die richtigen Prioritäten. Die acht Modelle sind und $m_1\dots{_8}$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3,$

y = β_{0},

$y=\beta_0,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} x_{3},

$y=\beta_0+\beta_3x_3,$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2},

$y=\beta_0+\beta_1x_1+\beta_2x_2,$

y = β_{0} + β_{1} x_{1} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_3x_3,$

y = β_{0} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_2x_2+\beta_3x_3,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} x_{3} .

$y=\beta_0+\beta_3x_3.$

Jetzt müssen wir uns mit den Unterschieden zwischen Bayes'schen und Frequentistischen Methoden befassen. Im Trainingssatz wählt der Modellierer mit Frequentist-Methoden nur ein Modell aus. Der Modellierer, der Bayes'sche Methoden verwendet, ist nicht so eingeschränkt. Obwohl der Bayes'sche Modellierer ein Modellauswahlkriterium verwenden könnte, um nur ein Modell zu finden, können sie auch die Modellmittelung verwenden. Dem Bayes'schen Modellierer steht es auch frei, ausgewählte Modelle im Midstream des Validierungssegments zu ändern. Moreso, der Modellierer, der Bayes'sche Methoden verwendet, kann zwischen Auswahl und Mittelwertbildung mischen und anpassen. $n_1,$

Um ein reales Beispiel zu geben, habe ich 78 Insolvenzmodelle getestet. Von den 78 Modellen betrug die kombinierte posteriore Wahrscheinlichkeit von 76 etwa ein Zehntausendstel von einem Prozent. Die beiden anderen Modelle waren rund 54 Prozent bzw. 46 Prozent. Zum Glück teilten sie auch keine Variablen. Dadurch konnte ich beide Modelle auswählen und die anderen 76 ignorieren. Als ich alle Datenpunkte für beide hatte, habe ich ihre Vorhersagen basierend auf den hinteren Wahrscheinlichkeiten der beiden Modelle gemittelt und nur ein Modell verwendet, wenn ich fehlende Datenpunkte hatte, die das ausschlossen andere. Ich hatte zwar ein Trainingsset und ein Validierungsset, aber nicht aus dem gleichen Grund, aus dem ein Frequentist sie haben würde. Darüber hinaus habe ich am Ende eines jeden Tages über zwei Geschäftszyklen hinweg meine Posterioren mit den Daten jedes Tages aktualisiert. Das bedeutete, dass mein Modell am Ende des Validierungssatzes nicht das Modell am Ende des Trainingssatzes war. Bayesianische Modelle hören nicht auf zu lernen, während es häufig vorkommende Modelle tun.

Um tiefer zu gehen, lassen Sie uns mit unseren Modellen konkret werden. Nehmen wir an, dass während des Trainingsbeispiels das am besten passende Frequentist-Modell und das Bayes'sche Modell unter Verwendung der Modellauswahl übereinstimmten oder dass das Modellgewicht bei der Modellmittelung so groß war, dass es vom Frequentist-Modell kaum zu unterscheiden war. Wir werden uns vorstellen, dass dieses Modell Stellen wir uns auch vor, dass das wahre Modell in der Natur

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

y = β_{0} + β_{1} x_{1} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_3x_3.$

Betrachten wir nun den Unterschied im Validierungssatz. Das Frequentist-Modell ist an die Daten angepasst. Nehmen wir an, dass zu einem bestimmten Zeitpunkt die Modellauswahl oder das Validierungsverfahren die Auswahl in das wahre Modell der Natur geändert hat. Wenn die Modellmittelung verwendet wurde, hatte das wahre Modell in der Natur Gewicht in der Vorhersage, lange bevor die Auswahl der Modelle eindeutig war. ET Jaynes diskutiert in seinem Band zur Wahrscheinlichkeitstheorie einige Zeit mit diesem Thema. Ich habe das Buch bei der Arbeit, daher kann ich Ihnen kein gutes Zitat geben, aber Sie sollten es lesen. Die ISBN lautet 978-0521592710. $n_2^i$

Modelle sind Parameter im Bayes'schen Denken und als solche zufällig oder, wenn Sie es vorziehen, unsicher. Diese Unsicherheit endet nicht während des Validierungsprozesses. Es wird ständig aktualisiert.

Aufgrund der Unterschiede zwischen Bayes'schen und Frequentistischen Methoden müssen auch andere Arten von Fällen berücksichtigt werden. Der erste stammt aus der Parameterinferenz, der zweite aus formalen Vorhersagen. Bei Bayes'schen Methoden sind sie nicht dasselbe. Bayesianische Methoden trennen Inferenz und Entscheidungsfindung formal voneinander. Sie trennen auch die Parameterschätzung und -vorhersage.

Stellen wir uns ohne Verlust der Allgemeinheit vor, dass ein Modell erfolgreich wäre, wenn und andernfalls ein Fehler wäre. Wir werden die anderen Parameter ignorieren, da es eine Menge zusätzlicher Arbeit wäre, eine einfache Idee zu finden. Für den Modellierer, der Bayes'sche Methoden verwendet, ist dies eine ganz andere Art von Frage als für den, der Frequentist-Methoden verwendet. $\hat{\sigma^2}<k$

Für den Frequentisten wird ein Hypothesentest basierend auf dem Trainingssatz gebildet. Der Modellierer, der Frequentist-Methoden verwendet, würde testen, ob die geschätzte Varianz größer oder gleich und versuchen, die Null über der Stichprobe mit der Größe abzulehnen, indem er die Parameter auf die in entdeckten . $k$ $n_2$ $n_1$

Für den Modellierer, der Bayes'sche Methoden verwendet, würden sie während der Stichprobe Parameterschätzungen bilden, und die hintere Dichte von würde für die Stichprobe zur Priorität . Unter der Annahme, dass die Austauschbarkeitseigenschaft gilt, ist sichergestellt, dass die hintere Schätzung von in jeder gleich dem Wort einer Wahrscheinlichkeitsschätzung ist, die aus der gemeinsamen Stichprobe gebildet wird. Das Aufteilen in zwei Stichproben entspricht mathematisch der Tatsache, dass sie überhaupt nicht aufgeteilt wurden. $n_1$ $n_1$ $n_2$ $n_2$

Für Vorhersagen gilt ein ähnliches Problem. Bayes'sche Methoden haben eine prädiktive Verteilung, die ebenfalls mit jeder Beobachtung aktualisiert wird, während die häufig verwendete am Ende von Probe eingefroren wird . Die Vorhersagedichte kann als . Wenn die Vorhersage und die Stichprobe ist, wo sind dann die Parameter, die wir als $n_1$ $\Pr(\tilde{x}=k|\mathbf{X})$ $\tilde{x}$ $\mathbf{X}$ $\theta?$ Obwohl es häufig vorkommende Vorhersagesysteme gibt, behandeln die meisten Menschen die Punktschätzungen nur als die wahren Parameter und berechnen Residuen. Bayesianische Methoden würden jede Vorhersage anhand der vorhergesagten Dichte und nicht nur anhand eines einzelnen Punktes bewerten. Diese Vorhersagen hängen nicht von den Parametern ab, die sich von den in Frequentist-Lösungen verwendeten Punktmethoden unterscheiden.

Nebenbei bemerkt, es gibt formale frequenzistische Vorhersagedichten unter Verwendung der Standardfehler, und es könnte eine Bewertung für diese vorgenommen werden, dies ist jedoch in der Praxis selten. Wenn keine spezifischen Vorkenntnisse vorliegen, sollten die beiden Vorhersagesätze für denselben Satz von Datenpunkten identisch sein. Sie werden sich am Ende unterscheiden, weil und die Bayes'sche Lösung mehr Informationen beschlagnahmt. $n_1+n_2>n_1$

Wenn es keine wesentlichen vorherigen Informationen gibt und wenn die prädiktiven Frequentist-Dichten anstelle von Punktschätzungen verwendet werden, sind die Ergebnisse der Bayes'schen und der Frequentist-Methode für eine feste Stichprobe identisch, wenn ein einzelnes Modell ausgewählt wird. Wenn vorherige Informationen vorliegen, generiert die Bayes'sche Methode tendenziell genauere Vorhersagen. Dieser Unterschied kann in der Praxis sehr groß sein. Wenn es eine Modellmittelung gibt, ist es sehr wahrscheinlich, dass die Bayes'sche Methode robuster ist. Wenn Sie die Modellauswahl verwenden und die Bayes'schen Vorhersagen einfrieren, gibt es keinen Unterschied zur Verwendung eines Frequentist-Modells mit Frequentist-Vorhersagen.

Ich habe einen Test- und Validierungssatz verwendet, da meine Daten nicht austauschbar waren. Infolgedessen musste ich zwei Probleme lösen. Das erste ähnelt dem Einbrennen in MCMC-Methoden. Ich brauchte einen guten Satz von Parameterschätzungen, um meine Testsequenz zu starten, und deshalb habe ich fünfzig Jahre vorheriger Daten verwendet, um eine gute vorherige Dichte zu erhalten, um meinen Validierungstest zu starten. Das zweite Problem war, dass ich eine Art standardisierten Zeitraum zum Testen benötigte, damit der Test nicht in Frage gestellt wurde. Ich habe die beiden vorherigen Geschäftszyklen von NBER verwendet.

Dave Harris
quelle

Angenommen, Sie haben einen MAP für ein lineares Regressionsmodell mit "nicht informativen" Prioritäten geschätzt. Dies wäre gleichbedeutend mit dem Erhalten der Maximum-Likelihood-Schätzung für das Modell, sodass ML unter der Annahme der Austauschbarkeit auch keinen Testsatz benötigt.

Tim

"Überanpassung ist das Phänomen, dass Rauschen als Signal behandelt und in die Parameterschätzung einbezogen wird." Ich glaube, diese Definition ist spezifisch für additive Rauschmodelle. Ansonsten ist Überanpassung gegen Unteranpassung nicht so gut definiert.

Cagdas Ozgenc

@CagdasOzgenc danke. Haben Sie einen Bearbeitungsvorschlag?

Dave Harris

@ Tim Ich habe den MAP-Schätzer nie erwähnt. Wenn Sie das Problem auf den MAP-Schätzer reduzieren, geben Sie die Robustheit auf. Der MAP-Schätzer ist der Punkt, der eine Kostenfunktion über eine Dichte minimiert. Dies kann für Projektionen problematisch sein, wenn der Dichte eine ausreichende Statistik fehlt. Der MAP-Schätzer würde an sich Informationen verlieren. Wenn Sie den MAP-Schätzer verwendet haben, der nicht in der ursprünglichen Frage enthalten ist und eindeutig nicht Teil von Ma's Präsentation ist, erstellen Sie eine andere Reihe von Problemen für sich.

Dave Harris

@Tim Der MAP-Schätzer stammt aus der Bayes'schen Entscheidungstheorie und ist eine Überlagerung der Bayes'schen Schätzung und Inferenz. Die Karte ist bequem. Bei der Auswahl der Convenience muss ein Preis bezahlt werden. Sofern die Alles-oder-Nichts-Kostenfunktion nicht Ihre wahre Kostenfunktion ist, geben Sie sowohl Informationen als auch Genauigkeit ab. Sie haben auch andere methodische Probleme als in der Präsentation von Ma vorgeschlagen.

Dave Harris

Stimmt es, dass Bayesianer keine Testsätze benötigen?

Antworten: