Ich bin gerade auf das "Akaike-Informationskriterium" gestoßen und habe diese große Menge an Literatur zur Modellauswahl bemerkt (auch Dinge wie BIC scheinen zu existieren).
Warum nutzen moderne Methoden des maschinellen Lernens diese Auswahlkriterien für BIC- und AIC-Modelle nicht?
Antworten:
AIC und BIC werden verwendet, z. B. bei schrittweiser Regression. Sie sind tatsächlich Teil einer größeren Klasse von "Heuristiken", die auch verwendet werden. Beispielsweise wird das DIC (Deviance Information Criterion) häufig bei der Auswahl von Bayes'schen Modellen verwendet.
Grundsätzlich handelt es sich jedoch um "Heuristiken". Es kann zwar gezeigt werden, dass sowohl die AIC als auch die BIC asymptotisch zu Kreuzvalidierungsansätzen konvergieren (ich denke, die AIC geht in Richtung eines ausschließlichen Lebenslaufs und die BIC in Richtung eines anderen Ansatzes, aber ich bin nicht sicher), aber sie sind bekannt unter- bzw. überbestraft. Mit AIC erhalten Sie häufig ein Modell, das komplizierter ist als es sein sollte, während Sie mit BIC häufig ein Modell erhalten, das zu simpel ist.
Da beide mit dem Lebenslauf zusammenhängen, ist der Lebenslauf häufig die bessere Wahl, da diese Probleme nicht auftreten.
Schließlich gibt es die Frage der Anzahl der Parameter, die für BIC und AIC erforderlich sind. Mit allgemeinen Funktionsapproximatoren (z. B. KNNs) für reelle Eingaben ist es möglich, Parameter zu "verbergen", dh eine reelle Zahl zu konstruieren, die die gleichen Informationen wie zwei reelle Zahlen enthält (z. B. daran zu denken, die Ziffern zu schneiden). Wie viele Parameter sind in diesem Fall tatsächlich vorhanden? Auf der anderen Seite können bei komplizierteren Modellen Einschränkungen für Ihre Parameter bestehen, beispielsweise können Sie nur Parameter wie (siehe z . B. hier ). Oder Sie sind möglicherweise nicht identifizierbar. In diesem Fall ergeben mehrere Werte der Parameter tatsächlich dasselbe Modell. In all diesen Fällen ergibt das einfache Zählen von Parametern keine geeignete Schätzung.θ1> θ2
Da viele moderne Algorithmen für maschinelles Lernen diese Eigenschaften aufweisen (dh universelle Approximation, unklare Anzahl von Parametern, Nichtidentifizierbarkeit), sind AIC und BIC für dieses Modell weniger nützlich, als es auf den ersten Blick erscheinen mag.
EDIT :
Einige weitere Punkte, die geklärt werden könnten:
quelle