Ein Informationskriterium, das berücksichtigt, aus wie vielen Variablen wir auswählen können

7

Ich verwende ein Modell mit mehreren Regressionen und möchte AIC und BIC verwenden, um Modelle auszuwählen. Ich stelle jedoch fest, dass beide Maßnahmen nicht die Anzahl der Variablen berücksichtigen, aus denen wir auswählen können, sondern nur die Anzahl der ausgewählten Variablen. Wenn ich viele, viele Variablen zur Auswahl habe, werde ich wahrscheinlich etwas finden, das stark mit dem korreliert, was ich zu modellieren versuche, nur durch Glück. Gibt es eine Kennzahl, die berücksichtigt, aus wie vielen Variablen wir auswählen können?

user133586
quelle

Antworten:

6

Ich denke, eine einfache Kreuzvalidierung passt am besten.

Sowohl AIC als auch BIC berücksichtigen das Gleichgewicht zwischen Modellkomplexität und verfügbarer Informationsmenge. Mit mehr Daten können komplexere Modelle gelernt werden. Dieses Gleichgewicht ist jedoch fest und basiert nicht auf den Daten.

Die Kreuzvalidierung basiert auf den Daten. Außerdem wird die Komplexität des Modells mit der Menge der verfügbaren Informationen in Einklang gebracht. Mit mehr Daten können komplexere Modelle gelernt werden. Die Leistung bei unsichtbaren Daten quantifiziert, wie gut das Modell funktioniert. Modelle, die zu komplex sind (Überanpassung), werden implizit bestraft, weil sie schlechte Vorhersagen treffen.

Bei vielen Variablen können die stark korrelierten während des Trainings ausgewählt werden. Während des Testens wird jedoch deutlich, dass sich die gelernten Beziehungen nicht auf unsichtbare Daten verallgemeinern lassen.

Ein weiterer Vorteil der Kreuzvalidierung besteht darin, dass Sie Ihre eigene Leistungsmessung auswählen können.

Pieter
quelle
2
(+1) Es ist jedoch wichtig zu betonen, dass bei Verwendung der Kreuzvalidierung für die Modellauswahl eine äußere Schleife erforderlich ist, um die Vorhersageleistung fair zu bewerten. Siehe Training mit dem vollständigen Datensatz nach Kreuzvalidierung? , Funktionsauswahl und Kreuzvalidierung & Verschachtelte Kreuzvalidierung für die Modellauswahl .
Scortchi - Monica wieder einsetzen