Im Wikipedia-Eintrag für das Akaike-Informationskriterium lesen wir unter Vergleich mit BIC (Bayesianisches Informationskriterium), dass
... AIC / AICc hat theoretische Vorteile gegenüber BIC ... AIC / AICc leitet sich aus Informationsprinzipien ab; BIC ist nicht ... BIC hat einen Prior von 1 / R (wobei R die Anzahl der Kandidatenmodelle ist), was "nicht sinnvoll" ist ... AICc hat tendenziell praktische / Leistungsvorteile gegenüber BIC ... AIC ist asymptotisch optimal ... BIC ist nicht asymptotisch optimal ... die Rate, mit der AIC zum Optimum konvergiert, ist ... die bestmögliche.
Im AIC- Diskussionsabschnitt gibt es zahlreiche Kommentare zur voreingenommenen Darstellung des Vergleichs mit dem BIC-Abschnitt. Ein frustrierter Mitwirkender protestierte, dass der gesamte Artikel "wie ein Werbespot für Zigaretten liest".
In anderen Quellen, zum Beispiel in diesem Anhang, erscheint der Tenor der Ansprüche für AIC realistischer. Als Dienst an der Gemeinschaft fragen wir daher:
F: Gibt es Umstände, unter denen BIC nützlich ist und AIC nicht?
Es ist nicht sinnvoll, die Frage zu stellen, ob AIC besser ist als BIC. Obwohl diese beiden unterschiedlichen Modellauswahlkriterien oberflächlich ähnlich aussehen, wurden sie jeweils zur Lösung grundlegend unterschiedlicher Probleme entwickelt. Sie sollten also das Modellauswahlkriterium auswählen, das für Ihr Problem geeignet ist.
AIC ist eine Formel, die den erwarteten Wert der doppelten negativen logarithmischen Wahrscheinlichkeit von Testdaten unter Verwendung eines korrekt spezifizierten Wahrscheinlichkeitsmodells schätzt, dessen Parameter durch Anpassen des Modells an Trainingsdaten erhalten wurden. Das heißt, AIC schätzt den erwarteten Kreuzvalidierungsfehler unter Verwendung eines negativen Protokollwahrscheinlichkeitsfehlers. Das heißt, Wobei Testdaten sind, wird unter Verwendung von Trainingsdaten geschätzt, und bezeichnet den Erwartungsoperator in Bezug auf den iid-Datenerzeugungsprozess, der sowohl die Trainings- als auch die Testdaten erzeugt.AIC≈E{−2log∏ni=1p(xi|θ^n)} x1,…,xn θ^n E{}
BIC hingegen ist nicht dafür ausgelegt, Kreuzvalidierungsfehler abzuschätzen. Der BIC schätzt den doppelten negativen Logarithmus der Wahrscheinlichkeit der beobachteten Daten bei gegebenem Modell. Diese Wahrscheinlichkeit wird auch als Grenzwahrscheinlichkeit bezeichnet, die durch Integrieren der Wahrscheinlichkeitsfunktion, gewichtet mit einem Parameter vor über den Parameterraum berechnet wird . Das heißt, .p(θ) BIC≈−2log∫[∏ni=1p(xi|θ)]p(θ)dθ
quelle