AIC-Richtlinien bei der Modellauswahl

32

Ich benutze normalerweise BIC, da ich verstehe, dass es Parsimonie stärker schätzt als AIC. Ich habe mich jetzt jedoch für einen umfassenderen Ansatz entschieden und möchte auch AIC verwenden. Ich weiß, dass Raftery (1995) gute Richtlinien für BIC-Unterschiede vorgelegt hat: 0-2 ist schwach, 2-4 ist ein positiver Beweis dafür, dass ein Modell besser ist usw.

Ich habe in Lehrbüchern nachgesehen und sie scheinen bei AIC seltsam (es sieht so aus, als ob ein größerer Unterschied schwach und ein kleinerer Unterschied bei AIC bedeutet, dass ein Modell besser ist). Dies steht im Widerspruch zu dem, von dem ich weiß, dass es mir beigebracht wurde. Mein Verständnis ist, dass Sie einen niedrigeren AIC wollen.

Weiß jemand, ob die Richtlinien von Raftery sich auch auf AIC erstrecken oder wo ich einige Richtlinien für "Beweiskraft" für ein Modell im Vergleich zu einem anderen zitieren könnte?

Und ja, Cutoffs sind nicht großartig (ich finde sie irgendwie irritierend), aber sie sind hilfreich, wenn man verschiedene Arten von Beweisen vergleicht.

Tom Carpenter
quelle
1
Ist dies (pdf) das Raftery-Papier, auf das Sie sich beziehen?
gung - Reinstate Monica
4
Leser hier könnten daran interessiert sein, den folgenden ausgezeichneten CV-Thread zu lesen: Gibt es einen Grund, den AIC oder den BIC dem anderen vorzuziehen?
gung - Reinstate Monica
1
Auf welche Lehrbücher beziehen Sie sich, wenn Sie sagen: " Ich habe in Lehrbüchern nachgeschaut und sie erscheinen bei AIC seltsam (es sieht so aus, als ob ein größerer Unterschied schwach ist und ein kleinerer Unterschied bei AIC bedeutet, dass ein Modell besser ist) " --- und was tun sie tatsächlich sagen?
Glen_b -Reinstate Monica
1
Dein zweiter Absatz ist unklar. Sie meinen wahrscheinlich Folgendes: Während große Unterschiede darauf hindeuten, dass das Modell mit den kleineren Werten vorzuziehen ist, sind kleinere Unterschiede schwierig zu bewerten. Darüber hinaus müssen sich die Statistiker noch einigen, welche Unterschiede "klein" oder "groß" sind - Singer and Willet (2003, S.122)
Winterschlaf am
1
In Bezug auf Ihren dritten Absatz kann ich Ihnen den vollständigen Hinweis geben, wenn Sie die von Jeffreys (1961, S. 432) vorgebrachten Kategorien der Beweiskraft übernehmen möchten.
Winterschlaf

Antworten:

23

AIC und BIC werden im Modellvergleich gleich interpretiert. Das heißt, je größer der Unterschied zwischen AIC und BIC ist, desto deutlicher ist die Evidenz für ein Modell gegenüber dem anderen (je niedriger, desto besser). Es ist nur so, dass der AIC die Anzahl der Parameter nicht so stark beeinträchtigt wie der BIC. Es gibt auch eine Korrektur für den AIC (den AICc), der für kleinere Stichprobengrößen verwendet wird. Weitere Informationen zum Vergleich von AIC / BIC finden Sie hier .

dmartin
quelle
5
+1. Nur um dies zu verdeutlichen: AIC (und AICc) verwenden KL-Divergenz. Genau deshalb, weil AIC "zusätzliche" Informationen widerspiegelt, ist es umso besser, je kleiner sie sind. Mit anderen Worten, als unsere Stichprobengröße besitzt das Modell mit der minimalen AIC-Bewertung die kleinste Kullback-Leibler-Divergenz und ist daher das Modell, das dem "wahren" Modell am nächsten kommt. N
usεr11852 sagt Reinstate Monic
28

Sie sprechen über zwei verschiedene Dinge und Sie mischen sie durch. Im ersten Fall haben Sie zwei Modelle (1 und 2) und Sie haben deren AIC wie und A I C 2 erhalten . Wenn Sie diese beiden Modelle anhand ihrer AICs vergleichen möchten, ist das Modell mit dem niedrigeren AIC das bevorzugte, dh wenn A I C 1 < A I C 2 ist, nehmen Sie Modell 1 und umgekehrt. Im zweiten Fall haben Sie eine Reihe von in Frage kommenden Modelle wie Modelle ( 1 , 2 , . . . , N )AIC1AIC2AIC1<AIC2
(1,2,...,n)und für jedes Modell berechnen Sie AIC Differenzen , wobei A I C i ist die AIC für die i - te Modell und A I C m i n ist das Minimum von AIC unter alle Modelle. Nun hat das Modell mit Δ i > 10 keine Unterstützung und kann von weiteren Überlegungen ausgeschlossen werden, wie in Modellauswahl und Multi-Modell-Inferenz: Ein praktischer informationstheoretischer Ansatz erläutertΔi=AICiAICminAICiiAICminΔi>10 von Kenneth P. Burnham, David R. Anderson, Seite 71. Je größer also das , desto schwächer wäre Ihr Modell. Hier hat das beste Modell Δ iΔiΔiΔmin0.

Stat
quelle
1
Aha! Dies hat das "Größer als" -Bit völlig aufgeklärt. Vielen Dank!
Tom Carpenter
7

Im Allgemeinen benutze ich AIC oder BIC niemals objektiv, um eine angemessene Passform für ein Modell zu beschreiben. Ich kann verwenden diese ICs die relative Passung von zwei Vorhersagemodelle zu vergleichen. Was die AIC von "2" oder "4" betrifft, so ist sie vollständig kontextbezogen. Wenn Sie ein Gefühl dafür bekommen möchten, wie ein "gutes" Modell passt, können (sollten) Sie immer eine Simulation verwenden. Ihr Verständnis des AIC ist richtig. AIC erhält einen positiven Beitrag von den Parametern und einen negativen Beitrag von der Wahrscheinlichkeit. Sie versuchen, die Wahrscheinlichkeit zu maximieren, ohne Ihr Modell mit einer Reihe von Parametern zu laden. Meine Meinung zum Platzen der Blase ist also, dass Kürzungen für AIC nicht gut aus dem Zusammenhang geraten.

AdamO
quelle
Was ist, wenn Ihre Modelle keine Simulation zulassen?
Stat
6
Tut-tut! Wie ist das überhaupt möglich? Man kann die Welt hochfahren.
AdamO
Viel Glück damit ... simulieren Sie die Welt lol
Stat
2
@Stat Ich meine es sehr ernst, wenn ich sage, dass ich mir keine Situation vorstellen kann, in der es unmöglich wäre, Daten aus einem Modell zu simulieren. Zumindest ist das Bootstrapping aus dem Trainingsdatensatz ein gültiger Simulationsansatz.
AdamO
Wenn Bootstrapping hart ist, sollte Cross Validation oder sogar einfaches Jackknifing funktionieren. Die Modellmittelung bietet auch ein Mittel zum Abgleichen von Informationen von Modellen mit ähnlichen AICs.
N Brouwer
2

Hier ist eine verwandte Frage, wann es angemessen ist, Modelle durch Minimieren des AIC auszuwählen. . Sie erhalten eine allgemeine Vorstellung davon, was in der akademischen Welt nicht unkenntlich ist und welche Verweise wichtig sind.

Im Allgemeinen sind es die Unterschiede zwischen den Wahrscheinlichkeiten oder AICs, die von Bedeutung sind, und nicht ihre absoluten Werte. Sie haben das wichtige Wort "Unterschied" in Ihrem "BIC: 0-2 ist schwach" in der Frage verpasst - siehe TABELLE 6 von Raftery - und es ist seltsam, dass niemand das korrigieren möchte.

Mir selbst wurde beigebracht, nach MAICE zu suchen (Minimum AIC Estimate - wie Akaike es nannte). Na und? Hier ist, was eine berühmte Person an eine unbekannte Dame schrieb:

Dear Miss -- 
I have read about sixteen pages of your manuscript ... I suffered exactly the same 
treatment at the hands of my teachers who disliked me for my independence and passed 
over me when they wanted assistants ... keep your manuscript for your sons and
daughters, in order that they may derive consolation from it and not give a damn for
what their teachers tell them or think of them. ... There is too much education
altogether.

Meine Lehrer haben noch nie von Artikeln mit Titeln wie "Ein Test, ob sich zwei AIC signifikant unterscheiden" gehört, und ich kann mich nicht erinnern, dass sie AIC jemals eine Statistik genannt haben, die eine Stichprobenverteilung und andere Eigenschaften hätte. Mir wurde beigebracht, dass AIC ein Kriterium ist, das möglichst automatisch minimiert werden soll.

Ein weiteres wichtiges Thema, von dem ich glaube, dass es vor ein paar Jahren von IrishStat hier zum Ausdruck gebracht wurde (aus dem Gedächtnis, entschuldige mich, wenn ich mich irre, weil ich diese Antwort nicht gefunden habe), ist, dass AIC, BIC und andere Kriterien für verschiedene Zwecke abgeleitet wurden und unter verschiedenen Bedingungen (Annahmen), so dass Sie sie oft nicht austauschbar verwenden können, wenn Ihr Zweck beispielsweise die Vorhersage ist. Sie können nicht einfach etwas Unangemessenes bevorzugen.

Meine Quellen zeigen, dass ich ein Zitat von Burnham und Anderson (2002, S. 70) verwendet habe, um zu schreiben, dass Delta (AIC Differenzen) innerhalb von 0-2 eine erhebliche Unterstützung hat; Delta innerhalb von 4-7 deutlich weniger Unterstützung und Delta größer als 10 im Wesentlichen keine Unterstützung. Ich schrieb auch, dass "die Autoren auch Bedingungen diskutierten, unter denen diese Richtlinien nützlich sein könnten". Das Buch wird in der Antwort von Stat zitiert, die ich als am relevantesten eingestuft habe.

Winterschlaf halten
quelle
0

In Bezug auf die Informationskriterien sagt SAS Folgendes:

"Beachten Sie, dass Informationskriterien wie das von Akaike (AIC), das von Schwarz (SC, BIC) und das QIC verwendet werden können, um konkurrierende nicht verschachtelte Modelle zu vergleichen, aber keinen Vergleichstest liefern. Folglich können sie nicht angeben, ob ein Modell signifikant ist besser als andere. Die Verfahren GENMOD, LOGISTIC, GLIMMIX, MIXED und andere bieten Informationen Kriterien Maßnahmen. "

Es gibt zwei Testverfahren für Vergleichsmodelle: a) Vuong-Test und b) nicht-parametrischer Clarke-Test. Sehen Sie dieses Papier für weitere Einzelheiten.

Metriken
quelle
Ich finde die in der zitierten "Arbeit" (dh Präsentation) verwendete mathematische Notation ohne Kommentare nicht nachvollziehbar. Was symbolisiert insbesondere die Strichlinie? Implikation?
Adam Ryczkowski