Gibt es Umstände, unter denen BIC nützlich ist und AIC nicht?

8

Im Wikipedia-Eintrag für das Akaike-Informationskriterium lesen wir unter Vergleich mit BIC (Bayesianisches Informationskriterium), dass

... AIC / AICc hat theoretische Vorteile gegenüber BIC ... AIC / AICc leitet sich aus Informationsprinzipien ab; BIC ist nicht ... BIC hat einen Prior von 1 / R (wobei R die Anzahl der Kandidatenmodelle ist), was "nicht sinnvoll" ist ... AICc hat tendenziell praktische / Leistungsvorteile gegenüber BIC ... AIC ist asymptotisch optimal ... BIC ist nicht asymptotisch optimal ... die Rate, mit der AIC zum Optimum konvergiert, ist ... die bestmögliche.

Im AIC- Diskussionsabschnitt gibt es zahlreiche Kommentare zur voreingenommenen Darstellung des Vergleichs mit dem BIC-Abschnitt. Ein frustrierter Mitwirkender protestierte, dass der gesamte Artikel "wie ein Werbespot für Zigaretten liest".

In anderen Quellen, zum Beispiel in diesem Anhang, erscheint der Tenor der Ansprüche für AIC realistischer. Als Dienst an der Gemeinschaft fragen wir daher:

F: Gibt es Umstände, unter denen BIC nützlich ist und AIC nicht?

Carl
quelle

Antworten:

4

Laut Wikipedia kann der AIC wie folgt geschrieben werden: Da der BIC eine große Bestrafung für komplexe Modelle zulässt, gibt es Situationen, in denen der AIC andeutet, dass Sie auch ein Modell auswählen sollten komplex, während der BIC noch nützlich ist. Der BIC kann wie folgt geschrieben werden: Der Unterschied besteht also darin, dass der BIC für die Größe der Stichprobe bestraft. Wenn Sie dort nicht für die Probe bestrafen wollen- 2 ln ( L ) + k ln ( n )

2k2ln(L)
2ln(L)+kln(n)

Eine kurze Erklärung von Rob Hyndman finden Sie hier: Gibt es einen Grund, den AIC oder BIC dem anderen vorzuziehen? Er schreibt:

  • AIC eignet sich am besten für die Vorhersage, da es asymptotisch der Kreuzvalidierung entspricht.
  • BIC eignet sich am besten zur Erklärung, da es eine konsistente Schätzung des zugrunde liegenden Datengenerierungsprozesses ermöglicht. **

Bearbeiten: Ein Beispiel finden Sie in der Zeitreihenanalyse. In VAR-Modellen nimmt der AIC (sowie seine korrigierte Version der AICc) häufig zu viele Verzögerungen. Daher sollte bei der Auswahl der Anzahl der Verzögerungen eines VAR-Modells in erster Linie der BIC berücksichtigt werden. Weitere Informationen finden Sie in Kapitel 9.2 aus Prognoseprinzipien und -praxis von Rob J. Hyndman und George Athanasopoulos.

Ferdi
quelle
Können Sie bitte mehr hinzufügen? Kann BIC nicht insbesondere verwendet werden, um angesichts seiner Post-hoc-Situation auf einen angemessenen Prior zu konvergieren? Ich schätze die Antwort, danke. Übrigens "zu" komplex, nicht "2". Das seltsam begrenzte, nicht zeitliche Konzept der "Vorhersage" scheint darauf beschränkt zu sein, nur im Sinne einer Interpolation von Werten aus einem nahezu identischen Bereich von zurückgehaltenen Werten vorherzusagen. Normalerweise gilt die Wortvorhersage für Extrapolationen außerhalb des Bereichs einer beobachteten Zeitreihe, in denen weder Kreuzvalidierung noch AIC besonders gut sind. Vielleicht sollte der Begriff "vorhergesagte Interpolation" verwendet werden.
Carl
Der fette Text ist ein Eins-zu-Eins-Zitat von Rob Hyndman, einem berühmten Statistikprofessor aus Australien. Ich denke mit "Vorhersage" meint er "Folgerung". Der AIC wäre also für Inferenzstatistiken nützlicher, während der BIC für deskriptive Statistiken nützlicher wäre.
Ferdi
Ja, auch produktiv. Was ich jedoch verlange, ist ein gutes Beispiel dafür, was AIC nicht kann, was BIC kann.
Carl
1
@Ferdi, nein, definitiv bedeutet "Vorhersage" nicht "Inferenz" in diesem Blog-Beitrag. "Vorhersage" ist "Vorhersage" oder "Vorhersage", bei der es Ihnen egal ist, ob Ihr Modell (in gewissem Sinne) "korrekt" ist, solange es gut vorhersagt. Nach diesem Beitrag scheint BIC der bevorzugte für Inferenz zu sein.
Richard Hardy
Danke für Ihre Antwort. Vorhersage oder Prognose wird aus beobachteten Daten zu "nicht beobachteten Daten" "abgeleitet".
Ferdi
1

Es ist nicht sinnvoll, die Frage zu stellen, ob AIC besser ist als BIC. Obwohl diese beiden unterschiedlichen Modellauswahlkriterien oberflächlich ähnlich aussehen, wurden sie jeweils zur Lösung grundlegend unterschiedlicher Probleme entwickelt. Sie sollten also das Modellauswahlkriterium auswählen, das für Ihr Problem geeignet ist.

AIC ist eine Formel, die den erwarteten Wert der doppelten negativen logarithmischen Wahrscheinlichkeit von Testdaten unter Verwendung eines korrekt spezifizierten Wahrscheinlichkeitsmodells schätzt, dessen Parameter durch Anpassen des Modells an Trainingsdaten erhalten wurden. Das heißt, AIC schätzt den erwarteten Kreuzvalidierungsfehler unter Verwendung eines negativen Protokollwahrscheinlichkeitsfehlers. Das heißt, Wobei Testdaten sind, wird unter Verwendung von Trainingsdaten geschätzt, und bezeichnet den Erwartungsoperator in Bezug auf den iid-Datenerzeugungsprozess, der sowohl die Trainings- als auch die Testdaten erzeugt.AICE{2logi=1np(xi|θ^n)}x1,,xnθ^nE{}

BIC hingegen ist nicht dafür ausgelegt, Kreuzvalidierungsfehler abzuschätzen. Der BIC schätzt den doppelten negativen Logarithmus der Wahrscheinlichkeit der beobachteten Daten bei gegebenem Modell. Diese Wahrscheinlichkeit wird auch als Grenzwahrscheinlichkeit bezeichnet, die durch Integrieren der Wahrscheinlichkeitsfunktion, gewichtet mit einem Parameter vor über den Parameterraum berechnet wird . Das heißt, .p(θ)BIC2log[i=1np(xi|θ)]p(θ)dθ

RMG
quelle
Einige Befürworter von AIC gegen BIC sind so verliebt in ihre Meinung, dass sie mich an Demokraten gegen Republikaner in den USA erinnern. Die gestellte Frage ist praktisch, da diese bewaffneten Lager häufig Artikel in wissenschaftlichen Fachzeitschriften überprüfen, und eine relevantere Frage ist, ob die maximale Wahrscheinlichkeit unter den Umständen, unter denen sie angewendet wird, überhaupt angemessen ist.
Carl
Übrigens (+1) für den Beitrag zur Diskussion. Ich würde gerne mehr darüber erfahren, ob entweder AIC oder BIC anwendbar sind, wenn sie dazu neigen, verwendet zu werden, aber das ist zugegebenermaßen eine separate Frage.
Carl