Nachdem ich Galit Shmuelis "To Explain or to Predict" (2010) gelesen habe, wundere ich mich über einen offensichtlichen Widerspruch. Es gibt drei Räumlichkeiten,
- AIC versus BIC-basierte Modellauswahl (Ende S. 300 - Beginn S. 301): Einfach ausgedrückt, AIC sollte zur Auswahl eines Modells verwendet werden, das zur Vorhersage vorgesehen ist , während BIC zur Auswahl eines Modells zur Erklärung verwendet werden sollte . Zusätzlich (nicht in der obigen Veröffentlichung) wissen wir, dass BIC unter bestimmten Bedingungen das wahre Modell aus der Menge der Kandidatenmodelle auswählt ; Das wahre Modell ist das, was wir in der erklärenden Modellierung suchen (Ende S. 293).
- Einfache Arithmetik: AIC wählt ein größeres Modell als BIC für Stichproben mit einer Größe von 8 oder größer aus (wobei aufgrund der unterschiedlichen Komplexitätsnachteile bei AIC gegenüber BIC erfüllt wird ).
- Das "wahre" Modell (dh das Modell mit den richtigen Regressoren und der richtigen Funktionsform, aber unvollständig geschätzten Koeffizienten) ist möglicherweise nicht das beste Modell für die Vorhersage (S. 307): Ein Regressionsmodell mit einem fehlenden Prädiktor ist möglicherweise ein besseres Prognosemodell - Die Einführung einer Verzerrung aufgrund des fehlenden Prädiktors kann durch die Verringerung der Varianz aufgrund von Ungenauigkeiten bei der Schätzung übergewichtet werden.
Die Punkte 1. und 2. legen nahe, dass größere Modelle für die Vorhersage besser geeignet sind als sparsamere Modelle. In der Zwischenzeit gibt Punkt 3. ein entgegengesetztes Beispiel, bei dem ein sparsameres Modell für die Vorhersage besser ist als ein größeres Modell. Ich finde das rätselhaft.
Fragen:
- Wie kann der scheinbare Widerspruch zwischen den Punkten {1. und 2.} und 3. erklärt / gelöst werden?
- Können Sie in Anbetracht von Punkt 3. eine intuitive Erklärung dafür geben, warum und wie ein größeres Modell, das von AIC ausgewählt wurde, für die Vorhersage tatsächlich besser ist als ein sparsameres Modell, das von BIC ausgewählt wurde?
forecasting
model-selection
feature-selection
aic
bic
Richard Hardy
quelle
quelle
Antworten:
Sie sind nicht im selben Kontext zu verstehen; Die Punkte 1 und 2 haben unterschiedliche Kontexte. Sowohl für AIC als auch für BIC wird zuerst untersucht, welche Parameterkombination in welcher Zahl die besten Indizes liefert. (Einige Autoren haben epileptische Anfälle, wenn ich den Wortindex verwendein diesem Zusammenhang. Ignorieren Sie sie oder schlagen Sie den Index im Wörterbuch nach.) In Punkt 2 ist AIC das reichhaltigere Modell, wobei reichhaltiger bedeutet, dass nur gelegentlich Modelle mit mehr Parametern ausgewählt werden, da häufig das optimale AIC-Modell die gleiche Anzahl von Parametern aufweist wie das BIC Auswahl. Das heißt, wenn AIC und BIC Modelle mit der GLEICHEN Anzahl von Parametern auswählen, ist die Behauptung, dass AIC für die Vorhersage besser ist als BIC. Das Gegenteil könnte jedoch eintreten, wenn der BIC mit einem weniger ausgewählten Parametermodell ausfällt (aber keine Garantien gibt). Sober (2002) gelangte zu dem Schluss, dass AIC die Vorhersagegenauigkeit misst, während BIC die Anpassungsgüte misst, wobei Vorhersagegenauigkeit die Vorhersage von y außerhalb des Extremwertbereichs von x bedeuten kann. Wenn draußen, Häufig kann ein weniger optimaler AIC, bei dem schwach prädiktive Parameter fallen, extrapolierte Werte besser vorhersagen als ein optimaler AIC-Index aus mehr Parametern in seinem ausgewählten Modell. Ich stelle im Übrigen fest, dass AIC und ML die Extrapolationsfehlertests nicht überflüssig machen, bei denen es sich um separate Tests für Modelle handelt. Dies kann durch Zurückhalten von Extremwerten aus dem "Trainings" -Satz und Berechnen des Fehlers zwischen dem extrapolierten "Post-Training" -Modell und den zurückgehaltenen Daten erreicht werden.
Nun ist BIC angeblich ein kleinerer Fehlerprädiktor für y-Werte innerhalb der Extremwerte des Bereichs von x . Verbesserte Anpassungsgüte geht oft mit dem Preis der Verzerrung der Regression (für die Extrapolation) einher, wobei der Fehler durch Einführen dieser Verzerrung verringert wird. Dies wird zum Beispiel häufig die Steigung abflachen, um das Vorzeichen des Durchschnitts von links gegen rechts zu teilenf( x ) - y Residuen (denken Sie an mehr negative Residuen auf der einen Seite und mehr positive Residuen auf der anderen Seite), wodurch der Gesamtfehler reduziert wird. In diesem Fall fragen wir nach dem besten y-Wert bei gegebenem x-Wert und bei AIC nach einer besten funktionellen Beziehung zwischen x und y. Ein Unterschied zwischen diesen besteht beispielsweise darin, dass der BIC bei gleicher Auswahl anderer Parameter einen besseren Korrelationskoeffizienten zwischen Modell und Daten aufweist und der AIC einen besseren Extrapolationsfehler aufweist, der als y-Wert-Fehler für einen gegebenen extrapolierten x-Wert gemessen wird.
Punkt 3 ist manchmal eine Aussage unter bestimmten Bedingungen
wenn die Daten sehr verrauscht sind (großes );σ
wenn die wahren absoluten Werte der ausgelassenen Parameter (in unseremβ2
Beispiel ) klein sind;
wenn die Prädiktoren stark korreliert sind; und
wenn die Stichprobengröße klein ist oder der Bereich der ausgelassenen Variablen klein ist.
In der Praxis bedeutet eine korrekte Form einer Gleichung nicht, dass eine Anpassung aufgrund von Rauschen die korrekten Parameterwerte ergibt, und je mehr Rauschen desto besser. Dasselbe passiert mit R Vergleich zu angepasstem R und hoher Kollinearität. Das heißt, manchmal, wenn ein Parameter hinzugefügt wird, verschlechtert sich R während sich R verbessert. 2 2 22 2 2 2
Ich möchte darauf hinweisen, dass diese Aussagen optimistisch sind. In der Regel sind Modelle falsch, und häufig erzwingt ein besseres Modell eine Norm, die mit AIC oder BIC nicht verwendet werden kann, oder es wird die falsche Reststruktur für ihre Anwendung angenommen, und es sind alternative Maßnahmen erforderlich. In meiner Arbeit ist dies immer der Fall.
quelle