Bester Ansatz für die Modellauswahl Bayesian oder Kreuzvalidierung?

22

Wenn ich versuche, zwischen verschiedenen Modellen oder der Anzahl von Merkmalen zu wählen, für die eine Vorhersage erforderlich ist, kann ich mir zwei Ansätze vorstellen.

  1. Teilen Sie die Daten in Trainings- und Testsätze auf. Besser noch, verwenden Sie Bootstrapping oder k-fach Kreuzvalidierung. Trainieren Sie jedes Mal am Trainingssatz und berechnen Sie den Fehler über den Testsatz. Plottestfehler gegen Anzahl der Parameter. Normalerweise erhalten Sie so etwas:Bildbeschreibung hier eingeben
  2. Berechnen Sie die Wahrscheinlichkeit des Modells, indem Sie die Werte der Parameter überlagern. dh compute , und dies gegen die Anzahl von Parametern aufgetragen ist . Wir bekommen dann so etwas:θP(D|θ)P(θ)dθBildbeschreibung hier eingeben

Meine Fragen sind also:

  1. Sind diese Ansätze zur Lösung dieses Problems geeignet (Entscheiden, wie viele Parameter in Ihr Modell aufgenommen werden sollen, oder Auswählen aus einer Reihe von Modellen)?
  2. Sind sie gleichwertig? Wahrscheinlich nicht. Geben sie unter bestimmten Voraussetzungen oder in der Praxis dasselbe optimale Modell an?
  3. Welche Vor- und Nachteile hat jeder Ansatz, abgesehen von dem üblichen philosophischen Unterschied, Vorkenntnisse in Bayes'schen Modellen usw. anzugeben? Welches würdest du wählen?

Update: Ich habe auch die entsprechende Frage zum Vergleich von AIC und BIC gefunden. Es scheint, dass meine Methode 1 der AIC asymptotisch äquivalent ist und Methode 2 der BIC asymptotisch verwandt ist. Aber ich habe dort auch gelesen, dass BIC dem Leave-One-Out CV entspricht. Dies würde bedeuten, dass das Trainingsfehlerminimum und das Bayes'sche Wahrscheinlichkeitsmaximum äquivalent sind, wobei der LOO-Lebenslauf dem K-fachen Lebenslauf entspricht. Ein vielleicht sehr interessantes Papier " Eine asymptotische Theorie zur linearen Modellauswahl " von Jun Shao befasst sich mit diesen Fragen.

grosse Bandbreite
quelle
Ich habe keine vollständige Antwort, aber ich werde erwähnen, dass ich normalerweise nicht daran denke, eine der beiden Methoden zu verwenden, um "die Anzahl der Features zu wählen". Im Allgemeinen interpretiere ich Maschinelles Lernen und Bayesianische Statistik so, dass sie nur alle Funktionen enthalten, da sie wahrscheinlich alle nur einen geringen Einfluss haben. Ich denke jedoch, dass die Frage der relativen Modellkomplexität immer noch angemessen ist. Ich werde auch sagen, dass ich die Bayesianische Folgerung, auf die Sie anspielen, nie durchgeführt habe. es scheint in der Praxis einfach zu chaotisch zu werden, verglichen mit der Einfachheit von K-Fold oder Bootstrapping.
Shea Parkes
Beachten Sie, dass Shao-Papier nur für lineare Modelle funktioniert. Tatsächlich macht nur ihre einfache Struktur die Anzahl der Merkmale als Maß für die Komplexität nutzbar und liefert somit die Grundlage für all diese Informationskriterien.
1
AIC ( nicht BIC! ) Ist asymptotisch gleichbedeutend mit einer ausgelassenen Kreuzvalidierung unter schwachen Annahmen (aufgrund von Stone "Eine asymptotische Äquivalenz der Modellwahl durch Kreuzvalidierung und Akaikes Kriterium" (1977) ). Die Quelle in der Frage, auf die Sie sich beziehen, war falsch und wurde von Rob Hyndman in einem Kommentar korrigiert. Ich dachte, es wäre eine gute Idee, dies auch hier zu korrigieren, um die falsche Idee nicht weiter zu verbreiten.
Richard Hardy

Antworten:

13
  1. Sind diese Ansätze zur Lösung dieses Problems geeignet (Entscheiden, wie viele Parameter in Ihr Modell aufgenommen werden sollen, oder Auswählen aus einer Reihe von Modellen)?

Entweder könnte man sein, ja. Wenn Sie ein Modell erhalten möchten, das aus der Liste der von Ihnen in Betracht gezogenen Modelle die besten Vorhersagen macht, kann der Splitting / Cross-Validation-Ansatz dies gut. Wenn Sie wissen möchten, welches der Modelle (in Ihrer Liste der mutmaßlichen Modelle) tatsächlich Ihre Daten generiert, ist der zweite Ansatz (Bewertung der posterioren Wahrscheinlichkeit der Modelle) der gewünschte.

  1. Sind sie gleichwertig? Wahrscheinlich nicht. Geben sie unter bestimmten Voraussetzungen oder in der Praxis dasselbe optimale Modell an?

Nein, sie sind im Allgemeinen nicht gleichwertig. Zum Beispiel entspricht die Verwendung von AIC (An Information Criterion, von Akaike) zur Auswahl des 'besten' Modells in etwa einer Kreuzvalidierung. Die Verwendung von BIC (Bayesian Information Criterion) entspricht der Verwendung der hinteren Wahrscheinlichkeiten, wiederum ungefähr. Dies ist nicht dasselbe Kriterium, daher sollte erwartet werden, dass sie im Allgemeinen zu unterschiedlichen Entscheidungen führen. Sie können die gleichen Antworten geben - wann immer das Modell, das das Beste vorhersagt, auch die Wahrheit ist -, aber in vielen Situationen ist das Modell, das am besten passt, tatsächlich ein Modell, das überpasst, was zu Meinungsverschiedenheiten zwischen den Ansätzen führt.

Stimmen sie in der Praxis überein? Es hängt davon ab, was Ihre "Praxis" beinhaltet. Probieren Sie es in beide Richtungen und finden Sie es heraus.

  1. Welche Vor- und Nachteile hat jeder Ansatz, abgesehen von dem üblichen philosophischen Unterschied, Vorkenntnisse in Bayes'schen Modellen usw. anzugeben? Welchen würdest du wählen?
  • Normalerweise ist es viel einfacher, die Berechnungen für die Kreuzvalidierung durchzuführen, als die hinteren Wahrscheinlichkeiten zu berechnen
  • Es ist oft schwer zu überzeugen, dass das „wahre“ Modell in der Liste enthalten ist, aus der Sie auswählen. Dies ist ein Problem bei der Verwendung von posterioren Wahrscheinlichkeiten, jedoch nicht bei der Kreuzvalidierung
  • Bei beiden Methoden werden in der Regel ziemlich willkürliche Konstanten verwendet. Wie viel ist eine zusätzliche Vorhersageeinheit in Bezug auf die Anzahl der Variablen wert? Wie sehr glauben wir jedem der Modelle von vornherein ?
    • Ich würde wahrscheinlich Kreuzvalidierung wählen. Aber bevor ich mich entscheide, möchte ich viel darüber wissen, warum diese Modellauswahl durchgeführt wurde, dh wofür das ausgewählte Modell verwendet werden sollte. Keine der beiden Formen der Modellauswahl ist geeignet, wenn z. B. eine kausale Folgerung erforderlich ist.
Gast
quelle
16

Optimierung ist die Wurzel allen Übels in der Statistik! ;O)

Jedes Mal, wenn Sie versuchen, ein Modell basierend auf einem Kriterium auszuwählen, das anhand einer endlichen Stichprobe von Daten bewertet wird, besteht das Risiko, dass das Modellauswahlkriterium übererfüllt wird, und Sie erhalten ein schlechteres Modell als das, mit dem Sie begonnen haben. Sowohl die Kreuzvalidierung als auch die marginale Wahrscheinlichkeit sind sinnvolle Kriterien für die Modellauswahl, hängen jedoch beide von einer begrenzten Datenmenge ab (wie auch AIC und BIC - der Komplexitätsnachteil kann helfen, löst dieses Problem jedoch nicht). Ich habe festgestellt, dass dies ein wesentliches Problem beim maschinellen Lernen ist

GC Cawley und NLC Talbot, Überanpassung bei der Modellauswahl und anschließende Auswahlverzerrung bei der Leistungsbewertung, Journal of Machine Learning Research, 2010. Research, vol. 11, S. 2079-2107, Juli 2010. ( www )

Aus Bayes-Sicht ist es besser, alle Modellauswahlmöglichkeiten und -parameter zu integrieren. Wenn Sie nichts optimieren oder auswählen, ist eine Überanpassung schwieriger. Der Nachteil ist, dass Sie am Ende schwierige Integrale haben, die oft mit MCMC gelöst werden müssen. Wenn Sie die bestmögliche Prognoseleistung wünschen, würde ich einen vollständig bayesianischen Ansatz vorschlagen. Wenn Sie die Daten verstehen möchten, ist die Auswahl eines besten Modells oft hilfreich. Wenn Sie jedoch die Daten erneut abtasten und jedes Mal ein anderes Modell erhalten, ist das Anpassungsverfahren instabil und keines der Modelle ist für das Verständnis der Daten zuverlässig.

Beachten Sie, dass ein wichtiger Unterschied zwischen Kreuzvalidierung und Evidenz darin besteht, dass der Wert der Grenzwahrscheinlichkeit davon ausgeht, dass das Modell nicht falsch spezifiziert ist (im Wesentlichen ist die Grundform des Modells angemessen) und irreführende Ergebnisse liefern kann, wenn dies der Fall ist. Kreuzvalidierung macht keine solche Annahme, was bedeutet, dass es ein wenig robuster sein kann.

Dikran Beuteltier
quelle
Bayesianische Integration ist ein starker Ansatz. Aber fragen Sie sich immer, ob die Modellauswahl überhaupt der richtige Weg ist. Was ist die Motivation? Warum nicht ein vollständiges Modell aufstellen, das flexibel ist und einfach passt?
Frank Harrell
@FrankHarrell Viele flexible Modelle enthalten Regularisierungsterme und andere Hyperparameter. Die Optimierung dieser Modelle ist auch eine Modellauswahl und unterliegt denselben Problemen der Überanpassung des Auswahlkriteriums. Das Anpassen birgt die Gefahr einer Überanpassung, und dies gilt für alle Ebenen. Wenn Sie jedoch A-priori über die Struktur des Modells Bescheid wissen, sollten Sie dieses Expertenwissen nutzen.
Dikran Marsupial
1
Suchen Sie am besten nach einer Methode, die keine Optimierung erfordert, dies ist jedoch nicht immer möglich. Mein Hauptpunkt ist, dass die Modellspezifikation besser funktioniert als die Modellauswahl und nicht davon ausgeht, dass die Featureauswahl ein vorrangiges Ziel ist.
Frank Harrell
Die Auswahl von @FrankHarrell-Funktionen ist sehr selten hilfreich. Eine Optimierung sollte nach Möglichkeit vermieden werden, wobei eine Modellauswahl / -abstimmung auf der Grundlage einer endlichen Stichprobe von Daten erforderlich ist (je größer die Stichprobe, desto geringer das Risiko).
Dikran Beuteltier