Stimmt es, dass Bayes'sche Methoden nicht überanstrengen? (Ich habe einige Artikel und Tutorials gesehen, die diese Behauptung aufstellten.)
Wenn wir beispielsweise einen Gaußschen Prozess auf MNIST anwenden (handschriftliche Ziffernklassifizierung), ihn aber nur als einzelnes Sample anzeigen, wird dann für Eingaben, die sich von diesem einzelnen Sample unterscheiden, die vorherige Verteilung wiederhergestellt, auch wenn der Unterschied gering ist?
Antworten:
Nein, das stimmt nicht. Bayesianische Methoden werden die Daten mit Sicherheit überdecken. Es gibt ein paar Dinge, die Bayes'sche Methoden robuster gegen Überanpassung machen, und Sie können sie auch brüchiger machen.
Die kombinatorische Natur von Bayes'schen Hypothesen anstelle von binären Hypothesen ermöglicht mehrere Vergleiche, wenn jemandem das "wahre" Modell für Nullhypothesenmethoden fehlt. Ein Bayesianischer Posterior bestraft effektiv eine Zunahme der Modellstruktur, z. B. das Hinzufügen von Variablen, während Verbesserungen der Passform belohnt werden. Die Strafen und Gewinne sind keine Optimierungen, wie dies bei nicht-bayesianischen Methoden der Fall wäre, sondern verschieben die Wahrscheinlichkeiten von neuen Informationen.
Während dies im Allgemeinen eine robustere Methodik ergibt, gibt es eine wichtige Einschränkung und dies verwendet korrekte vorherige Verteilungen. Zwar besteht die Tendenz, häufig verwendete Methoden durch Verwendung von flachen Priors nachzuahmen, dies ist jedoch keine angemessene Lösung. Es gibt Artikel über Überanpassung in Bayes'schen Methoden und es scheint mir, dass die Sünde darin zu liegen scheint, zu nicht-Bayes'schen Methoden "fair" zu sein, indem man mit streng flachen Prioren beginnt. Die Schwierigkeit besteht darin, dass der Prior für die Normalisierung der Wahrscheinlichkeit wichtig ist.
Bayesianische Modelle sind im Sinne von Walds Zulässigkeit an sich optimale Modelle, aber es gibt einen versteckten Bogeyman darin. Wald geht davon aus, dass der Prior Ihr wahrer Prior ist und nicht irgendein Prior, den Sie verwenden, damit Sie von den Redakteuren nicht dafür belästigt werden, dass Sie zu viele Informationen eingeben. Sie sind nicht im gleichen Sinne optimal wie die Frequentist-Modelle. Frequentistische Methoden beginnen mit der Optimierung der Varianzminimierung und bleiben dabei unvoreingenommen.
Dies ist insofern eine kostenintensive Optimierung, als sie Informationen verwirft und im Wald-Sinne an sich nicht zulässig ist, obwohl sie häufig zulässig sind. Daher bieten Frequentist-Modelle aufgrund ihrer Unparteilichkeit eine optimale Anpassung an die Daten. Bayesianische Modelle sind weder objektiv noch passen sie optimal zu den Daten. Dies ist der Handel, den Sie machen, um Überanpassung zu minimieren.
Bayesianische Modelle sind intrinsisch voreingenommene Modelle, sofern keine besonderen Schritte unternommen werden, um sie objektiv zu machen, die in der Regel schlechter zu den Daten passen. Ihre Tugend ist, dass sie niemals weniger Informationen als eine alternative Methode verwenden, um das "wahre Modell" zu finden, und diese zusätzlichen Informationen machen Bayes'sche Modelle niemals weniger riskant als alternative Modelle, insbesondere wenn sie aus der Stichprobe herausarbeiten. Das heißt, es wird immer eine Stichprobe geben, die zufällig gezogen werden könnte, um die Bayes'sche Methode systematisch zu "täuschen".
Was den zweiten Teil Ihrer Frage betrifft, wenn Sie eine einzelne Probe analysieren würden, würde der hintere Teil für immer in allen seinen Teilen verändert und würde nicht zum vorherigen zurückkehren, es sei denn, es gäbe eine zweite Probe, die alle Informationen in der exakt auslöschte erste Probe. Zumindest theoretisch ist das wahr. In der Praxis kann die Auswirkung, wenn der Prior ausreichend informativ und die Beobachtung ausreichend nicht informativ ist, so gering sein, dass ein Computer die Unterschiede aufgrund der Beschränkung der Anzahl signifikanter Stellen nicht messen kann. Es ist möglich, dass ein Effekt zu klein ist, als dass ein Computer eine Änderung im posterioren Bereich verarbeiten könnte.
Die Antwort lautet also "Ja". Sie können eine Stichprobe mit einer Bayes'schen Methode überpassen, insbesondere wenn Sie eine kleine Stichprobengröße und falsche Prioritäten haben. Die zweite Antwort lautet "nein". Der Bayes-Satz vergisst nie die Auswirkungen früherer Daten, obwohl der Effekt so gering sein kann, dass Sie ihn rechnerisch verfehlen.
quelle
Zu beachten ist, dass wie praktisch überall ein wesentliches Problem bei Bayes'schen Methoden eine Modellfehlspezifikation sein kann.
Dies ist ein offensichtlicher Punkt, aber ich dachte, ich würde immer noch eine Geschichte teilen.
Eine Vignette von hinten in under ...
Eine klassische Anwendung der Bayes'schen Partikelfilterung besteht darin, die Position eines Roboters zu verfolgen, wenn er sich in einem Raum bewegt. Bewegung erhöht die Unsicherheit, während Sensorwerte die Unsicherheit verringern.
Ich erinnere mich, einige Routinen dafür programmiert zu haben. Ich habe ein sinnvolles, theoretisch motiviertes Modell für die Wahrscheinlichkeit der Beobachtung verschiedener Sonarwerte unter Berücksichtigung der wahren Werte geschrieben. Alles wurde präzise abgeleitet und schön codiert. Dann gehe ich es testen ...
Was ist passiert? Totales Versagen! Warum? Mein Partikelfilter dachte schnell, dass die Sensorwerte fast alle Unsicherheiten beseitigt hatten. Meine Punktwolke ist zu einem Punkt zusammengebrochen, aber mein Roboter war nicht unbedingt an diesem Punkt!
Grundsätzlich war meine Wahrscheinlichkeitsfunktion schlecht; Meine Sensorwerte waren nicht so aussagekräftig, wie ich dachte. Ich war überanpassend. Eine Lösung? Ich mischte eine Tonne mehr Gauß'sches Rauschen ein (ziemlich ad-hoc), die Punktwolke hörte auf zu kollabieren und dann funktionierte die Filterung ziemlich gut.
Moral?
Wie Box berüchtigt sagte, "sind alle Modelle falsch, aber einige sind nützlich." Mit ziemlicher Sicherheit werden Sie nicht die wahre Wahrscheinlichkeitsfunktion haben, und wenn diese ausreichend ausgeschaltet ist, kann Ihre Bayes'sche Methode furchtbar schief gehen und überfordert sein.
Das Hinzufügen eines Priores löst nicht auf magische Weise Probleme, die sich aus der Annahme ergeben, dass Beobachtungen IID sind, wenn dies nicht der Fall ist, vorausgesetzt, die Wahrscheinlichkeit hat eine stärkere Krümmung als sie usw.
quelle