Zou u.a. "Auf den" Freiheitsgraden "des Lassos" (2007) zeigen, dass die Anzahl der Koeffizienten ungleich Null eine unvoreingenommene und konsistente Schätzung für die Freiheitsgrade des Lassos ist.
Es scheint mir ein wenig eingängig zu sein.
- Angenommen, wir haben ein Regressionsmodell (wobei die Variablen den Mittelwert Null haben).
- Angenommen, eine uneingeschränkte OLS-Schätzung von lautet . Es könnte ungefähr mit einer LASSO-Schätzung von für eine sehr geringe Strafintensität übereinstimmen .
- Nehmen wir weiter an, dass eine LASSO Schätzung für eine bestimmte Strafe Intensität ist . Zum Beispiel könnte das "optimale" für den Datensatz sein, der durch Kreuzvalidierung ermittelt wurde.
- Wenn ich es richtig verstehe, ist der Freiheitsgrad in beiden Fällen 1, da es beide Male einen von Null verschiedenen Regressionskoeffizienten gibt.
Frage:
- Wie kommt es, dass die Freiheitsgrade in beiden Fällen gleich sind, obwohl weniger "Freiheit" in der Anpassung nahe legt als ?
Verweise:
- Zou, Hui, Trevor Hastie und Robert Tibshirani. "Auf den" Freiheitsgraden "des Lassos." The Annals of Statistics 35.5 (2007): 2173-2192.
regression
lasso
degrees-of-freedom
shrinkage
Richard Hardy
quelle
quelle
Antworten:
Angenommen, wir erhalten eine Menge von p -dimensionalen Beobachtungen, x i ∈ R p , i = 1 , … , n . Angenommen , ein Modell der Form: Y i = ⟨ & bgr; , x i ⟩ + ε wobei ε ~ N ( 0 , σ 2 ) , & bgr; ∈ R p und ⟨ ⋅ , ⋅ ⟩ bezeichnet das innere Produkt. lassenn p xi∈Rp i=1,…,n
Wenn wir uns diese Formel ansehen, können wir davon ausgehen, dass gemäß Ihrer Intuition der wahre DOF für den LASSO tatsächlich geringer ist als der wahre DOF von OLS. Die durch das LASSO bewirkte Koeffizientenschrumpfung sollte dazu neigen, die Kovarianzen zu verringern.
Zur Beantwortung Ihrer Frage ist der Grund, dass der DOF für das LASSO mit dem DOF für OLS in Ihrem Beispiel identisch ist, nur, dass es sich um Schätzungen handelt (wenn auch um unverzerrte), die aus einem bestimmten Datensatz stammen, der aus dem Modell entnommen wurde , der wahren DOF-Werte. Für einen bestimmten Datensatz entspricht eine solche Schätzung nicht dem wahren Wert (zumal die Schätzung eine ganze Zahl sein muss, während der wahre Wert im Allgemeinen eine reelle Zahl ist).
Wenn solche Schätzungen jedoch über viele aus dem Modell entnommene Datensätze gemittelt werden, konvergiert ein solcher Durchschnitt aufgrund von Unparteilichkeit und dem Gesetz großer Zahlen gegen den wahren DOF. Im Fall des LASSO führen einige dieser Datensätze zu einem Schätzer, bei dem der Koeffizient tatsächlich 0 ist (obwohl solche Datensätze selten sein können, wenn klein ist). Im Fall von OLS ist die Schätzung des DOF immer die Anzahl der Koeffizienten, nicht die Anzahl der Nicht-Null-Koeffizienten, und daher enthält der Durchschnitt für den OLS-Fall diese Nullen nicht. Dies zeigt, wie sich die Schätzer unterscheiden und wie der Durchschnittsschätzer für den LASSO-DOF zu etwas konvergieren kann, das kleiner ist als der Durchschnittsschätzer für den OLS-DOF.λ
quelle