Sowohl der AIC als auch der BIC sind Methoden zur Bewertung der Modellanpassung, die für die Anzahl der geschätzten Parameter bestraft werden. Wie ich es verstehe, bestraft BIC Modelle mehr für freie Parameter als AIC. Gibt es neben einer Präferenz, die auf der Stringenz der Kriterien basiert, andere Gründe, AIC gegenüber BIC vorzuziehen oder umgekehrt?
modeling
aic
cross-validation
bic
model-selection
russellpierce
quelle
quelle
Antworten:
Ihre Frage impliziert, dass AIC und BIC versuchen, dieselbe Frage zu beantworten, was jedoch nicht zutrifft. Der AIC versucht, das Modell auszuwählen, das eine unbekannte, hochdimensionale Realität am besten beschreibt. Dies bedeutet, dass die Realität niemals in der Menge der in Betracht gezogenen Kandidatenmodelle enthalten ist. Im Gegenteil, BIC versucht, das WAHRE Modell unter den Kandidaten zu finden. Ich finde es ziemlich seltsam, dass die Realität in einem der Modelle instanziiert ist, die die Forscher auf diesem Weg gebaut haben. Dies ist ein echtes Problem für BIC.
Dennoch gibt es viele Forscher, die sagen, BIC sei besser als AIC, wobei Modellwiederherstellungssimulationen als Argument dienen. Diese Simulationen bestehen aus der Generierung von Daten aus den Modellen A und B und der anschließenden Anpassung beider Datensätze an die beiden Modelle. Eine Überanpassung tritt auf, wenn das falsche Modell besser zu den Daten passt als das Generieren. Bei diesen Simulationen geht es darum zu sehen, wie gut AIC und BIC diese Überanpassungen korrigieren. In der Regel deuten die Ergebnisse darauf hin, dass AIC zu liberal ist und immer noch häufig ein komplexeres, falsches Modell einem einfacheren, wahren Modell vorzieht. Auf den ersten Blick scheinen diese Simulationen wirklich gute Argumente zu sein, aber das Problem dabei ist, dass sie für AIC bedeutungslos sind. Wie ich bereits sagte, geht AIC nicht davon aus, dass eines der getesteten Kandidatenmodelle tatsächlich zutrifft. Laut AIC sind alle Modelle Annäherungen an die Realität, und die Realität sollte niemals eine geringe Dimensionalität haben. Zumindest niedriger als einige der Kandidatenmodelle.
Meine Empfehlung ist, sowohl AIC als auch BIC zu verwenden. Meistens stimmen sie über das bevorzugte Modell überein, wenn sie dies nicht tun, melden Sie es einfach.
Wenn Sie mit AIC und BIC unzufrieden sind und Zeit zum Investieren haben, schlagen Sie nach unter Minimum Description Length (MDL), einem völlig anderen Ansatz, der die Einschränkungen von AIC und BIC überwindet. Es gibt verschiedene Maßnahmen, die sich aus MDL ergeben, wie die normalisierte maximale Wahrscheinlichkeit oder die Fisher Information-Annäherung. Das Problem bei MDL ist, dass es mathematisch anspruchsvoll und / oder rechenintensiv ist.
Wenn Sie sich jedoch an einfache Lösungen halten möchten, ist die Implementierung von Parametric Bootstrap eine gute Methode zur Bewertung der Modellflexibilität (insbesondere, wenn die Anzahl der Parameter gleich ist und AIC und BIC unbrauchbar werden). Hier ist ein Link zu einem Artikel darüber.
Einige Leute hier befürworten die Verwendung der Kreuzvalidierung. Ich persönlich habe es benutzt und habe nichts dagegen, aber das Problem dabei ist, dass die Wahl unter den Stichprobenregel (Auslassen, K-Falz, usw.) nicht prinzipiell ist.
quelle
Obwohl sowohl AIC als auch BIC von der Schätzung der maximalen Wahrscheinlichkeit abhängen und freie Parameter bestrafen, um Überanpassung zu bekämpfen, führen sie auf eine Weise zu einem erheblich unterschiedlichen Verhalten. Schauen wir uns eine häufig vorgestellte Version der Methoden an (deren Ergebnisse die Festlegung von normalverteilten Fehlern und anderen gut verhaltenden Annahmen beinhalten):
und
wo:
Das beste Modell in der verglichenen Gruppe ist dasjenige, das diese Werte in beiden Fällen minimiert. Offensichtlich hängt der AIC nicht direkt von der Stichprobengröße ab. Darüber hinaus stellt AIC im Allgemeinen die Gefahr dar, dass es zu einer Überanpassung kommt, während BIC die Gefahr darstellt, dass es zu einer Unteranpassung kommt, einfach aufgrund der Bestrafung freier Parameter (2 * k in AIC; ln (N) * k in BIC). Diachron, wenn Daten eingegeben und die Scores neu berechnet werden, ist BIC bei relativ niedrigem N (7 und weniger) toleranter gegenüber freien Parametern als AIC, bei höherem N jedoch weniger tolerant (da der natürliche Logarithmus von N 2 überwindet).
Zusätzlich zielt AIC darauf ab, das bestmögliche Approximationsmodell für den unbekannten Datenerzeugungsprozess zu finden (durch Minimieren der erwarteten geschätzten KL-Divergenz ). Als solches konvergiert es nicht in der Wahrscheinlichkeit zum wahren Modell (vorausgesetzt, es ist eines in der bewerteten Gruppe vorhanden), wohingegen der BIC konvergiert, wenn N gegen unendlich tendiert.
Wie bei vielen methodologischen Fragen hängt es also davon ab, was Sie tun möchten, welche anderen Methoden zur Verfügung stehen und ob eines der beschriebenen Merkmale (Konvergenz, relative Toleranz für freie Parameter, Minimierung der erwarteten KL-Divergenz) ), sprechen Sie mit Ihren Zielen.
quelle
Meine schnelle Erklärung ist
quelle
Meiner Erfahrung nach führt BIC zu einer schwerwiegenden Unteranpassung, und AIC funktioniert in der Regel gut, wenn das Ziel darin besteht, die prädiktive Diskriminierung zu maximieren.
quelle
Eine informative und zugängliche "Ableitung" von AIC und BIC durch Brian Ripley finden Sie hier: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf
Ripley gibt einige Anmerkungen zu den Annahmen hinter den mathematischen Ergebnissen. Im Gegensatz zu einigen anderen Antworten betont Ripley, dass AIC auf der Annahme basiert, dass das Modell wahr ist. Wenn das Modell nicht wahr ist, wird eine allgemeine Berechnung ergeben, dass die "Anzahl der Parameter" durch eine kompliziertere Menge ersetzt werden muss. Einige Referenzen finden Sie in den Folien von Ripleys. Es ist jedoch zu beachten, dass für die lineare Regression (streng genommen mit einer bekannten Varianz) die im Allgemeinen kompliziertere Menge vereinfacht wird, um gleich der Anzahl von Parametern zu sein.
quelle
Tatsächlich besteht der einzige Unterschied darin, dass BIC AIC-erweitert ist, um die Anzahl der Objekte (Stichproben) zu berücksichtigen. Ich würde sagen, dass, obwohl beide recht schwach sind (im Vergleich zu beispielsweise Kreuzvalidierung), es besser ist, AIC zu verwenden, als mehr Leute mit der Abkürzung vertraut sind - in der Tat habe ich noch nie eine Arbeit oder ein Programm gesehen, in dem BIC wäre verwendet werden (trotzdem gebe ich zu, dass ich auf Probleme eingestellt bin, bei denen solche Kriterien einfach nicht funktionieren).
Bearbeiten: AIC und BIC entsprechen der Kreuzvalidierung, sofern zwei wichtige Annahmen vorliegen: Wenn sie definiert sind, das Modell also mit maximaler Wahrscheinlichkeit eins ist und wenn Sie nur an der Modellleistung für Trainingsdaten interessiert sind. Wenn einige Daten zu einer Art Konsens zusammengefasst werden, sind sie vollkommen in Ordnung.
Wenn Sie eine Prognosemaschine für ein reales Problem erstellen, ist die erste falsch, da Ihr Trainingssatz nur einen Teil der Informationen zu dem Problem darstellt, mit dem Sie sich befassen, sodass Sie Ihr Modell einfach nicht optimieren können. Der zweite ist falsch, da Sie erwarten, dass Ihr Modell die neuen Daten verarbeiten wird, für die Sie nicht einmal erwarten können, dass der Trainingssatz repräsentativ ist. Und zu diesem Zweck wurde der Lebenslauf erfunden; das Verhalten des Modells zu simulieren, wenn es mit unabhängigen Daten konfrontiert wird. Bei der Modellauswahl gibt Ihnen CV nicht nur die ungefähre Qualität, sondern auch die Verteilung der Qualitätsannäherung an. Daher hat es den großen Vorteil, dass es sagen kann: "Ich weiß nicht, welche neuen Daten auch kommen werden, beide können es sein." besser."
quelle
Wie Sie bereits erwähnt haben, sind AIC und BIC Methoden, um Modelle mit mehr Regressorvariablen zu bestrafen. Bei diesen Methoden wird eine Straffunktion verwendet, die von der Anzahl der Parameter im Modell abhängt.
Bei Anwendung von AIC ist die Straffunktion z (p) = 2 p .
Bei der Anwendung von BIC ist die Straffunktion z (p) = p ln ( n ), was darauf beruht, dass die Strafe als aus früheren Informationen abgeleitet interpretiert wird (daher der Name Bayesian Information Criterion).
Wenn n groß ist, führen die beiden Modelle zu sehr unterschiedlichen Ergebnissen. Dann wendet der BIC eine viel größere Strafe für komplexe Modelle an und führt daher zu einfacheren Modellen als der AIC. Wie jedoch in Wikipedia auf BIC angegeben :
quelle
Soweit ich das beurteilen kann, gibt es keinen großen Unterschied zwischen AIC und BIC. Sie sind beide mathematisch bequeme Näherungen, die man machen kann, um Modelle effizient zu vergleichen. Wenn sie Ihnen unterschiedliche "beste" Modelle liefern, bedeutet dies wahrscheinlich, dass Sie eine hohe Modellunsicherheit haben, was wichtiger ist, als sich Gedanken darüber zu machen, ob Sie AIC oder BIC verwenden sollten. Ich persönlich mag BIC besser, weil es mehr (weniger) eines Modells fragt, ob es mehr (weniger) Daten für seine Parameter hat - ähnlich wie ein Lehrer, der nach einem höheren (niedrigeren) Leistungsstandard fragt, wenn sein Schüler mehr (weniger) hat ) Zeit, sich mit dem Thema vertraut zu machen. Für mich scheint dies nur die intuitive Aufgabe zu sein. Aber dann bin ich sicher, dass es auch für AIC aufgrund seiner einfachen Form ebenso intuitive und überzeugende Argumente gibt.
Wenn Sie nun eine Annäherung vornehmen, gibt es sicherlich einige Bedingungen, unter denen diese Annäherungen Unsinn sind. Dies ist sicherlich bei AIC zu beobachten, wo es viele "Anpassungen" (AICc) gibt, um bestimmte Bedingungen zu berücksichtigen, die die ursprüngliche Annäherung schlecht machen. Dies gilt auch für die BIC, da es verschiedene andere genauere (aber immer noch effiziente) Methoden gibt, z. B. die vollständige Laplace-Approximation von Gemischen aus Zellners g-Priors (die BIC ist eine Annäherung an die Laplace-Approximationsmethode für Integrale).
Ein Ort, an dem sie beide Mist sind, ist, wenn Sie wesentliche vorherige Informationen über die Parameter in einem bestimmten Modell haben. AIC und BIC bestrafen Modelle, bei denen Parameter teilweise bekannt sind, unnötigerweise im Vergleich zu Modellen, bei denen Parameter aus den Daten geschätzt werden müssen.
Eine Sache, die ich für wichtig halte, ist, dass BIC nicht annimmt, dass ein "wahres" Modell existiert, a) oder b) im Modellsatz enthalten ist. BIC ist einfach eine Annäherung an eine integrierte Wahrscheinlichkeit (D = Daten, M = Modell, A = Annahmen). Nur durch Multiplikation mit einer vorherigen Wahrscheinlichkeit und anschließende Normalisierung erhalten Sie . BIC stellt einfach dar, wie wahrscheinlich die Daten waren, wenn der Satz, der durch das Symbol impliziert wird, wahr ist. Aus logischer Sicht wird also jeder Vorschlag, der näherungsweise zum BIC führen würde, von den Daten gleichermaßen unterstützt. Wenn ich also und als Sätze sageP(D|M,A) P(M|D,A) M M A
Und dann weiterhin die gleichen Wahrscheinlichkeitsmodelle zuweisen (gleiche Parameter, gleiche Daten, gleiche Annäherungen usw.), bekomme ich den gleichen Satz von BIC-Werten. Nur wenn man dem logischen Buchstaben "M" eine eindeutige Bedeutung beimisst, gerät man in irrelevante Fragen über "das wahre Modell" (Echos von "die wahre Religion"). Das einzige, was M "definiert", sind die mathematischen Gleichungen, die es in ihren Berechnungen verwenden - und dies wird kaum jemals eine einzige Definition herausgreifen. Ich könnte auch eine Vorhersage über M machen ("das i-te Modell liefert die besten Vorhersagen"). Ich persönlich kann nicht sehen, wie sich dadurch die Wahrscheinlichkeit ändert und wie gut oder schlecht der BIC sein wird (AIC auch in dieser Hinsicht - obwohl AIC auf einer anderen Herleitung basiert).
Und außerdem, was ist mit der Aussage falsch? Wenn das wahre Modell in der Menge ist, die ich betrachte, dann gibt es eine 57% ige Wahrscheinlichkeit, dass es Modell B ist . Scheint mir vernünftig, oder Sie könnten die "weichere" Version wählen, da die Wahrscheinlichkeit, dass Modell B das Beste aus der Menge ist, die in Betracht gezogen wird, bei 57% liegt
Ein letzter Kommentar: Ich denke, Sie werden ungefähr so viele Meinungen über AIC / BIC finden, wie es Leute gibt, die über sie Bescheid wissen.
quelle
AIC sollte selten verwendet werden, da es nur asymptotisch gültig ist. Es ist fast immer besser AICc (AIC mit einem verwenden c orrection für endliche Stichprobengröße). AIC neigt zu Überparametrisierung: Dieses Problem wird mit AICc stark verringert. Die Hauptausnahme bei der Verwendung von AICc ist, wenn die zugrunde liegenden Verteilungen stark leptokurtisch sind. Weitere Informationen hierzu finden Sie im Buch Model Selection von Burnham & Anderson.
quelle
AIC und BIC sind Informationskriterien für den Vergleich von Modellen. Jeder versucht, Modellanpassung und Sparsamkeit auszugleichen, und jeder bestraft anders für die Anzahl der Parameter.
AIC ist ein ähnliches Informationskriterium. Die Formel lautet wobei die Anzahl der Parameter und die maximale Wahrscheinlichkeit ist. Mit dieser Formel ist kleiner besser. (Ich erinnere mich, dass einige Programme das Gegenteil von ausgeben , aber ich erinnere mich nicht an die Details.)
BIC ist das Bayesian Information Criterion, die Formel lautet und bevorzugt sparsamere Modelle als AIC
Ich habe noch nichts von KIC gehört.
quelle
Sehr kurz:
Beachten Sie, dass Sie im Kontext von L0-bestraften GLMs (bei denen Sie die logarithmische Wahrscheinlichkeit Ihres Modells auf der Grundlage von Lambda * der Anzahl der Koeffizienten ungleich Null, dh der L0-Norm Ihrer Modellkoeffizienten, bestrafen) das AIC- oder BIC-Ziel direkt optimieren können , als für AIC und für BIC, was im l0ara R-Paket gemacht wird. Für mich ist dies sinnvoller als das, was sie z. B. bei LASSO oder elastischer Netzregression in GLMNET tun , wo auf die Optimierung eines Ziels (LASSO oder elastische Netzregression) die Anpassung der Regularisierungsparameter auf der Grundlage eines anderen folgt Zielsetzung (die z. B. den Kreuzvalidierungs-Vorhersagefehler, AIC oder BIC minimiert).lambda=2 lambda=log(n)
Syed (2011) auf Seite 10 stellt fest, dass der AIC die Kullback-Leibler-Divergenz zwischen dem Näherungsmodell und dem wahren Modell minimiert. Die Kullback-Leibler-Divergenz ist keine Abstandsmaß zwischen Verteilungen, aber tatsächlich ein Maß für den Informationsverlust, wenn das ungefähre Modell zur Modellierung der Bodenrealität verwendet wird. Bei der einmaligen Kreuzvalidierung wird eine maximale Datenmenge für das Training verwendet, um eine Vorhersage für eine Beobachtung zu treffen ,n−1 Beobachtungen als Ersatz für das ungefähre Modell in Bezug auf die einzelne Beobachtung, die „Realität“ darstellt. Wir können uns das so vorstellen, dass wir die maximale Menge an Informationen lernen, die aus den Daten zur Schätzung des Verlusts gewonnen werden können. Bei unabhängigen und identisch verteilten Beobachtungen führt die Durchführung dieser über mögliche Validierungssätze zu einer asymptotisch unbefangenen Schätzung.n
Es ist zu beachten, dass der LOOCV-Fehler auch analytisch aus den Residuen und der Diagonale der Hutmatrix berechnet werden kann , ohne dass tatsächlich eine Kreuzvalidierung durchgeführt werden muss. Dies wäre immer eine Alternative zum AIC als asymptotische Annäherung an den LOOCV-Fehler.
Verweise
Stone M. (1977) Eine asymptotische Äquivalenz der Modellwahl durch Kreuzvalidierung und Akaikes Kriterium. Zeitschrift der Royal Statistical Society Reihe B. 39, 44–7.
Shao J. (1997) Eine asymptotische Theorie zur linearen Modellauswahl. Statistica Sinica 7, 221 & ndash; 242.
quelle