Es gibt mehrere Beiträge zum Auswählen von Features. Eine der Methoden beschreibt die Wichtigkeit von Merkmalen basierend auf t-Statistiken. In R, varImp(model)
angewendet auf ein lineares Modell mit standardisierten Merkmalen, wird der Absolutwert der t-Statistik für jeden Modellparameter verwendet. Im Grunde genommen wählen wir ein Feature basierend auf seiner t-Statistik aus, was bedeutet, wie genau der Koeffizient ist. Aber sagt mir die Genauigkeit meines Koeffizienten etwas über die Vorhersagefähigkeiten des Merkmals aus?
Kann es vorkommen, dass mein Feature eine niedrige t-Statistik aufweist, aber trotzdem die Genauigkeit des Modells verbessert (sagen wir mal)? Wenn ja, wann würde man Variablen basierend auf der t-Statistik ausschließen wollen? Oder gibt es nur einen Ausgangspunkt, um die Vorhersagefähigkeiten nicht wichtiger Variablen zu überprüfen?
varImp()
dies eine informative oder diagnostische Funktion sein soll und nicht direkt für die Auswahl oder Beseitigung von Merkmalen verwendet wird.Antworten:
Die t-Statistik kann so gut wie nichts über die Vorhersagefähigkeit eines Features aussagen, und sie sollte nicht dazu verwendet werden, den Prädiktor auszublenden oder Prädiktoren in ein Vorhersagemodell zuzulassen.
P-Werte sagen, dass Störmerkmale wichtig sind
Nun passen wir ein lineares Modell an, um
y
gegebene Werte vorherzusagenrand.classes
.Der korrekte Wert für alle Koeffizienten ist Null, keiner von ihnen hat eine Vorhersagekraft. Trotzdem sind viele von ihnen mit 5% signifikant
Tatsächlich sollten wir davon ausgehen, dass ungefähr 5% von ihnen signifikant sind, obwohl sie keine Vorhersagekraft haben!
P-Werte erkennen wichtige Merkmale nicht
Hier ist ein Beispiel in die andere Richtung.
Ich habe zwei korrelierte Prädiktoren mit jeweils prädiktiver Wirkung erstellt.
Die p-Werte können die Vorhersagekraft beider Variablen nicht erfassen, da die Korrelation beeinflusst, wie genau das Modell die beiden einzelnen Koeffizienten aus den Daten abschätzen kann.
Inferenzstatistiken geben keinen Aufschluss über die Vorhersagekraft oder Wichtigkeit einer Variablen. Es ist ein Missbrauch dieser Messungen, sie so zu verwenden. Es gibt viel bessere Optionen für die Variablenauswahl in vorhersagenden linearen Modellen
glmnet
.(*) Beachten Sie, dass ich hier einen Abschnitt weglasse, sodass sich alle Vergleiche auf die Grundlinie von Null und nicht auf den Gruppenmittelwert der ersten Klasse beziehen. Dies war @ Whubers Vorschlag.
Da dies zu einer sehr interessanten Diskussion in den Kommentaren führte, war der ursprüngliche Code
und
was zu dem folgenden Histogramm führte
quelle
lm(y ~ rand.class - 1)
. Dies ändert nichts an der Gültigkeit aller Ihrer Anmerkungen (+1). Um noch überzeugender zu sein,rand.class <- cut(1:N, N.classes)
Die t-Statistik wird von der Effektgröße und der Stichprobengröße beeinflusst. Es kann vorkommen, dass die Effektgröße nicht Null ist, die Stichprobengröße jedoch nicht groß genug ist, um sie signifikant zu machen.
In Ihrem Fall verbessert jedes Feature mit einem Effekt ungleich Null die Leistung, aber Sie verfügen möglicherweise nicht über genügend Daten, um den p-Wert dieses Features signifikant zu machen.
quelle