AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - Kann ich sie austauschbar verwenden?

47

Auf P. 34 seiner PRNN Brian Ripley kommentiert: "Der AIC wurde von Akaike (1974) als 'An Information Criterion' bezeichnet, obwohl allgemein angenommen wird, dass der A für Akaike steht." Tatsächlich erklärt Akaike (1974, S. 719) dies bei der Einführung der AIC-Statistik

"IC stands for information criterion and A is added so that similar statistics, BIC, DIC
etc may follow".

In Anbetracht dieses Zitats als Vorhersage von 1974 ist es interessant festzustellen, dass in nur vier Jahren zwei Arten der BIC-Statistik (Bayesian IC) von Akaike (1977, 1978) und Schwarz (1978) vorgeschlagen wurden. Es dauerte Spiegelhalter et al. (2002) viel länger, um DIC (Deviance IC) zu entwickeln. Während das Auftreten des CIC-Kriteriums von Akaike (1974) nicht vorhergesagt wurde, wäre es naiv zu glauben, dass es niemals in Betracht gezogen wurde. Es wurde von Carlos C. Rodriguez im Jahr 2005 vorgeschlagen. (Beachten Sie, dass R. Tibshirani und K. Knights CIC (Covariance Inflation Criterion) eine andere Sache sind.)

Ich wusste, dass EIC (Empirical IC) um 2003 von Leuten der Monash University vorgeschlagen wurde. Ich habe gerade das Focused Information Criterion (FIC) entdeckt. Einige Bücher bezeichnen Hannan und Quinn IC als HIC (siehe z . B. dieses ). Ich weiß, dass es GIC (Generalized IC) geben sollte, und ich habe gerade das Information Investing Criterion (IIC) entdeckt. Es gibt NIC, TIC und mehr.

Ich denke, ich könnte möglicherweise den Rest des Alphabets abdecken, also frage ich nicht, wo die Sequenz AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC, ... aufhört oder welche Buchstaben des Alphabets haben nicht verwendet oder mindestens zweimal verwendet worden (z. B. kann das E in EIC für Extended oder Empirical stehen). Meine Frage ist einfacher und ich hoffe, dass sie praktischer ist. Kann ich diese Statistiken austauschbar verwenden und dabei die spezifischen Annahmen ignorieren, unter denen sie abgeleitet wurden, die spezifischen Situationen, in denen sie angewendet werden sollten, und so weiter?

Diese Frage ist zum Teil durch Burnham & Anderson (2001) motiviert, der schreibt:

...the comparison of AIC and BIC model selection ought to be based on their performance 
properties such as mean square error for parameter estimation (includes prediction) and 
confidence interval coverage: tapering effects or not, goodness-of-fit issues, 
derivation of theory is irrelevant as it can be frequentist or Bayes. 

Kapitel 7 der Monographie von Hyndman et al. Zur exponentiellen Glättung scheint den BA-Empfehlungen zu folgen, wenn untersucht wird, wie gut die fünf alternativen ICs (AIC, BIC, AICc, HQIC, LEIC) bei der Auswahl des Modells abschneiden, das die beste Prognose liefert (gemessen) durch eine neu vorgeschlagene Fehlermaßnahme (MASE), um zu dem Schluss zu gelangen, dass der AIC häufiger eine bessere Alternative war. (Der HQIC wurde nur einmal als bester Modellselektor gemeldet.)

Ich bin nicht sicher, welchen nützlichen Zweck die Forschungsübungen haben, die implizit alle ICc behandeln, als ob sie abgeleitet worden wären, um ein und dieselbe Frage unter äquivalenten Annahmen zu beantworten. Insbesondere bin ich mir nicht sicher, inwiefern es sinnvoll ist, die prädiktive Leistung des konsistenten Kriteriums zur Bestimmung der Ordnung einer Autoregression (das Hannan und Quinn für ergodische stationäre Sequenzen abgeleitet haben) im Kontext des nicht stationären Exponentials zu untersuchen Glättungsmodelle, die in der Monographie von Hyndman et al. Vermisse ich hier etwas?

Verweise:

Akaike, H. (1974), Ein neuer Blick auf die statistische Modellidentifikation , IEEE Transactions on Automatic Control 19 (6), 716-723.

Akaike, H. (1977), Über das Prinzip der Entropiemaximierung, in PR Krishnaiah, Hrsg., Applications of Statistics , Vol. 4, No. 27, Amsterdam: Nordholland, S. 27-41.

Akaike, H. (1978), Eine Bayes'sche Analyse des Minimum-AIC-Verfahrens, Annals of the Institute of Statistical Mathematics 30 (1), 9-14.

Burnham, KP & Anderson, DR (2001) Kullback-Leibler-Informationen als Grundlage für starke Schlussfolgerungen in ökologischen Studien, Wildlife Research 28, 111-119

Hyndman, RJ, Koehler, AB, Ord, JK und Snyder, RD Vorhersage mit exponentieller Glättung: der State-Space-Ansatz. New York: Springer, 2008

Ripley, BD- Mustererkennung und neuronale Netze . Cambridge: Cambridge University Press, 1996

Schwarz, G. (1978), Estimating the dimension of a model, Annals of Statistics 6 (2), 461-464.

Spiegelhalter, DJ, Best, NG, Carlin, BP und van der Linde, A. (2002), Bayes'sche Messungen der Modellkomplexität und t (mit Diskussion), Journal der Royal Statistical Society. Serie B (Statistical Methodology) 64 (4), 583-639.

Winterschlaf halten
quelle
9
Im Gespräch mit Findley und Parzen ( projecteuclid.org/download/pdf_1/euclid.ss/1177010133 ) stellte Akaike fest, dass AIC von einer Assistentin in ihrem FORTRAN-Programm verwendet wurde. Variablennamen wie IC implizieren standardmäßig ganzzahlige Mengen. Ein Präfix wie A reichte aus, um den Compiler über die tatsächliche Menge zu informieren. Obwohl er "Akaike" nicht beabsichtigte, erkannte er, dass es auch einfach "ein" bedeutete. (Übrigens, während diese Referenz sozusagen ein Gegenmittel zu einer falschen Geschichte ist, verewigt sie die Rechtschreibfehler von Malven als Malven.)
Nick Cox
Diese Frage lässt über "alphabetisches experimentelles Design" nachdenken
kjetil b halvorsen

Antworten:

36

Ich verstehe, dass AIC, DIC und WAIC alle dasselbe schätzen: die erwartete Abweichung von der Stichprobe, die mit einem Modell verbunden ist. Dies ist auch dasselbe, was durch die Kreuzvalidierung geschätzt wird. In Gelman et al. (2013) sagen sie dies explizit:

Eine natürliche Methode zur Schätzung von Vorhersagefehlern außerhalb der Stichprobe ist die Kreuzvalidierung (siehe Vehtari und Lampinen, 2002, Bayes'sche Perspektive), aber Forscher haben immer nach alternativen Maßnahmen gesucht, da die Kreuzvalidierung wiederholte Modellanpassungen erfordert und kann Probleme mit spärlichen Daten haben. Allein aus praktischen Gründen bleibt ein Platz für einfache Bias-Korrekturen wie AIC (Akaike, 1973), DIC (Spiegelhalter, Best, Carlin und van der Linde, 2002, van der Linde, 2005) und in jüngerer Zeit WAIC (Watanabe, 2010), und all dies kann als Annäherung an verschiedene Versionen der Kreuzvalidierung angesehen werden (Stone, 1977).

Der BIC schätzt etwas anderes, was mit der minimalen Beschreibungslänge zusammenhängt. Gelman et al. sagen:

Der BIC und seine Varianten unterscheiden sich von den anderen hier betrachteten Informationskriterien darin, dass sie nicht durch eine Schätzung des prädiktiven Fit motiviert sind, sondern durch das Ziel, die Grenzwahrscheinlichkeitsdichte der Daten p (y) unter dem Modell, das verwendet werden kann, zu approximieren Schätzen der relativen posterioren Wahrscheinlichkeiten im Rahmen eines diskreten Modellvergleichs.

Ich weiß leider nichts über die anderen von Ihnen angegebenen Informationskriterien.

Können Sie die AIC-ähnlichen Informationskriterien austauschbar verwenden? Die Meinungen mögen sich unterscheiden, aber da AIC, DIC, WAIC und Kreuzvalidierung alle dieselbe Einschätzung haben, sind sie mehr oder weniger austauschbar. BIC ist anders, wie oben erwähnt. Ich weiß nichts über die anderen.

Warum mehr als eine haben?

  • AIC funktioniert gut, wenn Sie eine maximale Wahrscheinlichkeitsschätzung und flache Prioritäten haben, aber zu anderen Szenarien nicht wirklich etwas zu sagen haben. Die Strafe ist auch zu gering, wenn sich die Anzahl der Parameter der Anzahl der Datenpunkte nähert. AICc überkorrigiert dies, was je nach Perspektive gut oder schlecht sein kann.

  • DIC verwendet eine geringere Strafe, wenn Teile des Modells durch Prioritäten stark eingeschränkt sind (z. B. in einigen mehrstufigen Modellen, in denen Varianzkomponenten geschätzt werden). Dies ist gut, da stark eingeschränkte Parameter nicht wirklich einen vollständigen Freiheitsgrad darstellen. Leider gehen die für DIC üblichen Formeln davon aus, dass der Posterior im Wesentlichen Gauß ist (dh, dass er durch seinen Mittelwert gut beschrieben wird), und daher kann es in einigen Situationen zu seltsamen Ergebnissen (z. B. negativen Strafen) kommen.

  • WAIC nutzt die gesamte hintere Dichte effektiver als DIC, so Gelman et al. bevorzuge es, obwohl es in einigen Fällen ein Schmerz sein kann, zu berechnen.

  • Die Kreuzvalidierung ist nicht an eine bestimmte Formel gebunden, kann jedoch für viele Modelle rechenintensiv sein.

Meiner Meinung nach hängt die Entscheidung, welches der AIC-ähnlichen Kriterien zu verwenden ist, ausschließlich von diesen praktischen Fragen ab und nicht von einem mathematischen Beweis dafür, dass eines besser ist als das andere.

Referenzen :

Gelman et al. Grundlegendes zu Vorhersagekriterien für Bayes'sche Modelle. Verfügbar unter http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.295.3501&rep=rep1&type=pdf

David J. Harris
quelle
3
Zusätzlich zur Literaturstelle Gelman et al. Zum Verständnis der Vorhersagekriterien für Bayes'sche Modelle siehe auch die neueren Arbeiten Aki Vehtari, Andrew Gelman und Jonah Gabry (2016). Praktische Bayesianische Modellevaluierung mit Leave-One-Out-Cross-Validation und WAIC. In Statistics and Computing, doi: 10.1007 / s11222-016-9696-4. arXiv-Vorabdruck arXiv: 1507.04544. arxiv.org/abs/1507.04544 Dieses Dokument zeigt auch, dass eine zuverlässige Kreuzvalidierung für viele Modelle in vernachlässigbarer Zeit berechnet werden kann.
Aki Vehtari
4

"Austauschbar" ist ein zu starkes Wort. Bei allen handelt es sich um Kriterien, mit denen versucht wird, Modelle zu vergleichen und ein "bestes" Modell zu finden, wobei jedoch jedes "bestes" anders definiert und möglicherweise verschiedene Modelle als "bestes" identifiziert.

Emil Friedman
quelle
0

"Ein Referendum vorschlagen". Nur um abzustimmen! ;-) Ich mochte den CAIC (Bozdogan, 1987) und den BIC rein aus meiner persönlichen Praxis, weil diese Kriterien einen gravierenden Nachteil für die Komplexität bedeuten, wir mehr Sparsamkeit haben, aber ich habe immer die Liste der guten Modelle angezeigt - bis Delta 4-6 -8 (anstelle von 2). Bei der Untersuchung der Parameter (weil wir eine „gute Streckung der Kandidatenmodelle“ haben) ändert sich an der MM-Mittelung (B & A) häufig fast nichts. Ich bin sowohl gegenüber dem klassischen AIC als auch dem AICc (H & T, von B & A popularisiert) etwas skeptisch, da sie oft eine sehr "dicke Schicht der Creme" ergeben. ;-)

Ivan Kshnyasev
quelle