Intuition für die Freiheitsgrade des LASSO

12

Zou u.a. "Auf den" Freiheitsgraden "des Lassos" (2007) zeigen, dass die Anzahl der Koeffizienten ungleich Null eine unvoreingenommene und konsistente Schätzung für die Freiheitsgrade des Lassos ist.

Es scheint mir ein wenig eingängig zu sein.

  • Angenommen, wir haben ein Regressionsmodell (wobei die Variablen den Mittelwert Null haben).

y=βx+ε.
  • Angenommen, eine uneingeschränkte OLS-Schätzung von lautet . Es könnte ungefähr mit einer LASSO-Schätzung von für eine sehr geringe Strafintensität übereinstimmen .ββ^OLS=0.5β
  • Nehmen wir weiter an, dass eine LASSO Schätzung für eine bestimmte Strafe Intensität ist . Zum Beispiel könnte das "optimale" für den Datensatz sein, der durch Kreuzvalidierung ermittelt wurde. λβ^LASSO,λ=0.4λλ
  • Wenn ich es richtig verstehe, ist der Freiheitsgrad in beiden Fällen 1, da es beide Male einen von Null verschiedenen Regressionskoeffizienten gibt.

Frage:

  • Wie kommt es, dass die Freiheitsgrade in beiden Fällen gleich sind, obwohl weniger "Freiheit" in der Anpassung nahe legt als ?β^LASSO,λ=0.4β^OLS=0.5

Verweise:

Richard Hardy
quelle
1
tolle frage, das hätte mehr aufmerksamkeit verdient!
Matifou

Antworten:

8

Angenommen, wir erhalten eine Menge von p -dimensionalen Beobachtungen, x iR p , i = 1 , , n . Angenommen , ein Modell der Form: Y i = & bgr; , x i+ ε wobei ε ~ N ( 0 , σ 2 ) , & bgr; R p und , bezeichnet das innere Produkt. lassenn pxiRpi=1,,n

Yi=β,xi+ϵ
ϵN(0,σ2)βRp,ist eine Schätzung vonβ unterVerwendung der Anpassungsmethodeδ(entweder OLS oder LASSO für unsere Zwecke). Die Formel fürFreiheitsgrade in dem Artikel (Gleichung 1.2) ist: df ( β ) = n Σ i = 1 Cov ( β , x i, Y i )β^=δ({Yi}i=1n)βδ
df(β^)=i=1nCov(β^,xi,Yi)σ2.

Wenn wir uns diese Formel ansehen, können wir davon ausgehen, dass gemäß Ihrer Intuition der wahre DOF für den LASSO tatsächlich geringer ist als der wahre DOF von OLS. Die durch das LASSO bewirkte Koeffizientenschrumpfung sollte dazu neigen, die Kovarianzen zu verringern.

Zur Beantwortung Ihrer Frage ist der Grund, dass der DOF für das LASSO mit dem DOF für OLS in Ihrem Beispiel identisch ist, nur, dass es sich um Schätzungen handelt (wenn auch um unverzerrte), die aus einem bestimmten Datensatz stammen, der aus dem Modell entnommen wurde , der wahren DOF-Werte. Für einen bestimmten Datensatz entspricht eine solche Schätzung nicht dem wahren Wert (zumal die Schätzung eine ganze Zahl sein muss, während der wahre Wert im Allgemeinen eine reelle Zahl ist).

Wenn solche Schätzungen jedoch über viele aus dem Modell entnommene Datensätze gemittelt werden, konvergiert ein solcher Durchschnitt aufgrund von Unparteilichkeit und dem Gesetz großer Zahlen gegen den wahren DOF. Im Fall des LASSO führen einige dieser Datensätze zu einem Schätzer, bei dem der Koeffizient tatsächlich 0 ist (obwohl solche Datensätze selten sein können, wenn klein ist). Im Fall von OLS ist die Schätzung des DOF ​​immer die Anzahl der Koeffizienten, nicht die Anzahl der Nicht-Null-Koeffizienten, und daher enthält der Durchschnitt für den OLS-Fall diese Nullen nicht. Dies zeigt, wie sich die Schätzer unterscheiden und wie der Durchschnittsschätzer für den LASSO-DOF zu etwas konvergieren kann, das kleiner ist als der Durchschnittsschätzer für den OLS-DOF.λ

e2crawfo
quelle
1
β^LASSO=0<1=1
Warum muss die Schätzung der Freiheitsgrade übrigens ganzzahlig sein? Wirklich? Lassen Sie mich auch bemerken, dass die Notation des inneren Produkts unnötig kompliziert erscheint und auf dieser Site nur selten verwendet wird. Matrixnotation würde ausreichen. Aber Sie haben natürlich die Wahl.
Richard Hardy
1
Ja, das ist ungefähr die Summe. Die Schätzung der Freiheitsgrade muss für LASSO eine Ganzzahl sein (zumindest für einen einzelnen Datensatz), nur weil die Schätzung die Anzahl der Koeffizienten ungleich Null ist.
e2crawfo
1
Die Aussage Die Schätzung der Freiheitsgrade muss für LASSO eine ganze Zahl sein, nur weil die Schätzung die Anzahl der Nicht-Null-Koeffizienten ist, scheint mir sehr tautologisch zu sein. Im Allgemeinen glaube ich nicht, dass der df ganzzahlig sein muss, ausgehend von der Definition des df, den Sie geschrieben haben. In ähnlicher Weise ist es im Firstfall nicht notwendigerweise Null.
Matifou