Ein bisschen mehr Infos; nehme an, dass
- Sie wissen vorher, wie viele Variablen Sie auswählen müssen und dass Sie die Komplexitätsstrafe in der LARS-Prozedur festlegen, um genau so viele Variablen mit Koeffizienten ungleich 0 zu haben.
- Berechnungskosten sind kein Problem (die Gesamtzahl der Variablen ist gering, sagen wir 50).
- dass alle Variablen (y, x) stetig sind.
In welcher Einstellung würde sich das LARS-Modell (dh die OLS-Anpassung dieser Variablen mit Koeffizienten ungleich Null in der LARS-Anpassung) am stärksten von einem Modell mit der gleichen Anzahl von Koeffizienten unterscheiden, das jedoch durch umfassende Suche gefunden wurde (a la regsubsets ())?
Bearbeiten: Ich verwende 50 Variablen und 250 Beobachtungen mit den reellen Koeffizienten, die aus einem Standard-Gaußschen Wert gezogen wurden, mit Ausnahme von 10 Variablen mit 'reellen' Koeffizienten von 0 (und allen Merkmalen, die stark miteinander korreliert sind). Diese Einstellungen sind offensichtlich nicht gut, da die Unterschiede zwischen den beiden ausgewählten Variablen winzig sind. Dies ist wirklich eine Frage, welche Art von Datenkonfiguration man simulieren sollte, um die meisten Unterschiede zu erzielen.
quelle
Je mehr Funktionen Sie in Bezug auf die Anzahl der Stichproben haben, desto passender werden Sie wahrscheinlich mit der exaustiven Suchmethode als mit LARS. Der in LARS verwendete Strafbegriff legt eine verschachtelte Struktur zunehmend komplexer Modelle fest, die durch einen einzelnen Regularisierungsparameter indiziert werden, sodass die "Freiheitsgrade" der Merkmalsauswahl mit LARS relativ gering sind. Für die exaustive Suche gibt es effektiv einen (binären) Freiheitsgrad pro Merkmal, was bedeutet, dass die exaustive Suche die zufällige Variabilität des Merkmalsauswahlkriteriums aufgrund der zufälligen Stichprobe der Daten besser ausnutzen kann. Infolgedessen wird das exaustive Suchmodell wahrscheinlich stark an das Merkmalauswahlkriterium angepasst, da die "Hypothesenklasse" größer ist.
quelle