Ich benutze normalerweise BIC, da ich verstehe, dass es Parsimonie stärker schätzt als AIC. Ich habe mich jetzt jedoch für einen umfassenderen Ansatz entschieden und möchte auch AIC verwenden. Ich weiß, dass Raftery (1995) gute Richtlinien für BIC-Unterschiede vorgelegt hat: 0-2 ist schwach, 2-4 ist ein positiver Beweis dafür, dass ein Modell besser ist usw.
Ich habe in Lehrbüchern nachgesehen und sie scheinen bei AIC seltsam (es sieht so aus, als ob ein größerer Unterschied schwach und ein kleinerer Unterschied bei AIC bedeutet, dass ein Modell besser ist). Dies steht im Widerspruch zu dem, von dem ich weiß, dass es mir beigebracht wurde. Mein Verständnis ist, dass Sie einen niedrigeren AIC wollen.
Weiß jemand, ob die Richtlinien von Raftery sich auch auf AIC erstrecken oder wo ich einige Richtlinien für "Beweiskraft" für ein Modell im Vergleich zu einem anderen zitieren könnte?
Und ja, Cutoffs sind nicht großartig (ich finde sie irgendwie irritierend), aber sie sind hilfreich, wenn man verschiedene Arten von Beweisen vergleicht.
quelle
Antworten:
AIC und BIC werden im Modellvergleich gleich interpretiert. Das heißt, je größer der Unterschied zwischen AIC und BIC ist, desto deutlicher ist die Evidenz für ein Modell gegenüber dem anderen (je niedriger, desto besser). Es ist nur so, dass der AIC die Anzahl der Parameter nicht so stark beeinträchtigt wie der BIC. Es gibt auch eine Korrektur für den AIC (den AICc), der für kleinere Stichprobengrößen verwendet wird. Weitere Informationen zum Vergleich von AIC / BIC finden Sie hier .
quelle
Sie sprechen über zwei verschiedene Dinge und Sie mischen sie durch. Im ersten Fall haben Sie zwei Modelle (1 und 2) und Sie haben deren AIC wie und A I C 2 erhalten . Wenn Sie diese beiden Modelle anhand ihrer AICs vergleichen möchten, ist das Modell mit dem niedrigeren AIC das bevorzugte, dh wenn A I C 1 < A I C 2 ist, nehmen Sie Modell 1 und umgekehrt. Im zweiten Fall haben Sie eine Reihe von in Frage kommenden Modelle wie Modelle ( 1 , 2 , . . . , N )AIC1 AIC2 AIC1<AIC2
(1,2,...,n) und für jedes Modell berechnen Sie AIC Differenzen , wobei A I C i ist die AIC für die i - te Modell und A I C m i n ist das Minimum von AIC unter alle Modelle. Nun hat das Modell mit Δ i > 10 keine Unterstützung und kann von weiteren Überlegungen ausgeschlossen werden, wie in Modellauswahl und Multi-Modell-Inferenz: Ein praktischer informationstheoretischer Ansatz erläutertΔi=AICi−AICmin AICi i AICmin Δi>10 von Kenneth P. Burnham, David R. Anderson, Seite 71. Je größer also das , desto schwächer wäre Ihr Modell. Hier hat das beste Modell Δ i ≡Δi Δi≡Δmin≡0.
quelle
Im Allgemeinen benutze ich AIC oder BIC niemals objektiv, um eine angemessene Passform für ein Modell zu beschreiben. Ich kann verwenden diese ICs die relative Passung von zwei Vorhersagemodelle zu vergleichen. Was die AIC von "2" oder "4" betrifft, so ist sie vollständig kontextbezogen. Wenn Sie ein Gefühl dafür bekommen möchten, wie ein "gutes" Modell passt, können (sollten) Sie immer eine Simulation verwenden. Ihr Verständnis des AIC ist richtig. AIC erhält einen positiven Beitrag von den Parametern und einen negativen Beitrag von der Wahrscheinlichkeit. Sie versuchen, die Wahrscheinlichkeit zu maximieren, ohne Ihr Modell mit einer Reihe von Parametern zu laden. Meine Meinung zum Platzen der Blase ist also, dass Kürzungen für AIC nicht gut aus dem Zusammenhang geraten.
quelle
Hier ist eine verwandte Frage, wann es angemessen ist, Modelle durch Minimieren des AIC auszuwählen. . Sie erhalten eine allgemeine Vorstellung davon, was in der akademischen Welt nicht unkenntlich ist und welche Verweise wichtig sind.
Im Allgemeinen sind es die Unterschiede zwischen den Wahrscheinlichkeiten oder AICs, die von Bedeutung sind, und nicht ihre absoluten Werte. Sie haben das wichtige Wort "Unterschied" in Ihrem "BIC: 0-2 ist schwach" in der Frage verpasst - siehe TABELLE 6 von Raftery - und es ist seltsam, dass niemand das korrigieren möchte.
Mir selbst wurde beigebracht, nach MAICE zu suchen (Minimum AIC Estimate - wie Akaike es nannte). Na und? Hier ist, was eine berühmte Person an eine unbekannte Dame schrieb:
Meine Lehrer haben noch nie von Artikeln mit Titeln wie "Ein Test, ob sich zwei AIC signifikant unterscheiden" gehört, und ich kann mich nicht erinnern, dass sie AIC jemals eine Statistik genannt haben, die eine Stichprobenverteilung und andere Eigenschaften hätte. Mir wurde beigebracht, dass AIC ein Kriterium ist, das möglichst automatisch minimiert werden soll.
Ein weiteres wichtiges Thema, von dem ich glaube, dass es vor ein paar Jahren von IrishStat hier zum Ausdruck gebracht wurde (aus dem Gedächtnis, entschuldige mich, wenn ich mich irre, weil ich diese Antwort nicht gefunden habe), ist, dass AIC, BIC und andere Kriterien für verschiedene Zwecke abgeleitet wurden und unter verschiedenen Bedingungen (Annahmen), so dass Sie sie oft nicht austauschbar verwenden können, wenn Ihr Zweck beispielsweise die Vorhersage ist. Sie können nicht einfach etwas Unangemessenes bevorzugen.
Meine Quellen zeigen, dass ich ein Zitat von Burnham und Anderson (2002, S. 70) verwendet habe, um zu schreiben, dass Delta (AIC Differenzen) innerhalb von 0-2 eine erhebliche Unterstützung hat; Delta innerhalb von 4-7 deutlich weniger Unterstützung und Delta größer als 10 im Wesentlichen keine Unterstützung. Ich schrieb auch, dass "die Autoren auch Bedingungen diskutierten, unter denen diese Richtlinien nützlich sein könnten". Das Buch wird in der Antwort von Stat zitiert, die ich als am relevantesten eingestuft habe.
quelle
In Bezug auf die Informationskriterien sagt SAS Folgendes:
Es gibt zwei Testverfahren für Vergleichsmodelle: a) Vuong-Test und b) nicht-parametrischer Clarke-Test. Sehen Sie dieses Papier für weitere Einzelheiten.
quelle