Angenommen, ich möchte gegen ein normalisiertes zurückführen , möchte aber eine spärliche Lösung. Warum ist es nach der Regression nicht zulässig, die Koeffizienten mit der kleinsten Größe zu verwerfen?
Für die Aufzeichnung habe ich von LARS- und LASSO-Methoden gehört und benutze sie oft. Ich bin nur neugierig, warum der obige Ansatz nicht anwendbar ist.
regression
regression-coefficients
Cam.Davidson.Pilon
quelle
quelle
Antworten:
Es würde kein Problem geben, wenn orthonormal wäre. Die Möglichkeit einer starken Korrelation zwischen den erklärenden Variablen sollte uns jedoch eine Pause geben.X
Wenn Sie die geometrische Interpretation der Regression der kleinsten Quadrate betrachten , sind Gegenbeispiele leicht zu finden. Nehmen wir an, dass fast normalverteilte Koeffizienten hat und X 2 fast parallel dazu ist. Sei X 3 orthogonal zu der von X 1 und X 2 erzeugten Ebene . Wir können uns ein Y vorstellen , das hauptsächlich in der X 3 -Richtung liegt, jedoch relativ wenig vom Ursprung in der X 1 , X 2 -Ebene versetzt ist. Weil X 1 undX1 X2 X3 X1 X2 Y X3 X1,X2 X1 ist nahezu parallel, und seine Komponenten in dieser Ebene haben möglicherweise beide große Koeffizienten, sodass wir X 3 fallen lassen , was ein großer Fehler wäre.X2 X3
Die Geometrie kann mit einer Simulation wiederhergestellt werden, wie sie durch folgende
R
Berechnungen ausgeführt wird:Die Varianzen des liegen nahe genug bei 1 , um die Koeffizienten der Anpassungen als Proxys für die standardisierten Koeffizienten zu untersuchen. Im vollständigen Modell sind die Koeffizienten 0,99, -0,99 und 0,1 (alle hoch signifikant), wobei der kleinste (bei weitem) mit assoziiert istXi 1 . Der verbleibende Standardfehler beträgt 0,00498. Im reduzierten ("spärlichen") Modell ist der verbleibende Standardfehler mit 0,09803 um das 20- fache höher: ein enormer Anstieg, der den Verlust nahezu aller Informationen über Y durch das Löschen der Variablen mit dem kleinsten standardisierten Koeffizientenwiderspiegelt. Der R 2 ist von 0,9975 gefallenX3 20 Y R2 0.9975 fast auf null. Keiner der Koeffizienten ist signifikanter als der .0.38
Die Streudiagramm-Matrix zeigt alles:
Die starke Korrelation zwischen und y ergibt sich aus der linearen Ausrichtung der Punkte unten rechts. Die schlechte Korrelation zwischen x 1 und y und x 2 und y ist gleichermaßen aus der kreisförmigen Streuung in den anderen Feldern ersichtlich. Trotzdem gehört der kleinste normierte Koeffizient zu x 3 und nicht zu x 1 oder x 2 .x3 y x1 y x2 y x3 x1 x2
quelle
Scheint mir, dass, wenn ein geschätzter Koeffizient nahe 0 ist und die Daten normalisiert sind, die Vorhersage durch Verwerfen der Variablen nicht beeinträchtigt würde. Wenn der Koeffizient nicht statistisch signifikant wäre, würde dies sicherlich kein Problem darstellen. Dies muss jedoch sorgfältig erfolgen. Die IVs können korreliert sein, und das Entfernen einer IV kann die Koeffizienten anderer verändern. Dies wird gefährlicher, wenn Sie mehrere Variablen auf diese Weise entfernen. Verfahren zur Auswahl von Teilmengen sollen solche Probleme vermeiden und sinnvolle Kriterien für das Einschließen und Ausschließen von Variablen verwenden. Wenn Sie Frank Harrell fragen, würde er gegen schrittweise Verfahren sein. Sie erwähnen LARS und LASSO, zwei sehr moderne Methoden. Aber es gibt viele andere, einschließlich Informationskriterien, die die Einführung zu vieler Variablen fördern.
Wenn Sie ein Teilmengenauswahlverfahren ausprobieren, das sorgfältig mit viel Literatur darüber untersucht wurde, werden Sie wahrscheinlich feststellen, dass es zu einer Lösung führt, die Variablen mit kleinen Koeffizienten entfernt, insbesondere wenn sie den Test nicht bestehen, weil sie sich statistisch signifikant von 0 unterscheiden.
quelle