Sparse lineare Regression 0-Norm und 1-Norm

8

Wir haben eine Antwort YRn und Prädiktoren X=(x1,x2,,xm)TRn×m

Das Problem, das wir lösen wollen, ist

argminkRm(YXk22+λk0)k0

Es ist jedoch NP-schwer, also lösen wir stattdessen

argminkRm(YXk22+λk1)k1

In diesem Artikel "Lernen physikalischer Deskriptoren für die Materialwissenschaft durch komprimierte Abtastung" heißt es

mit stark korrelierten Merkmalen, λk1 ist möglicherweise keine gute Annäherung für λk0

Meine Fragen:

Beide λk0 und λk1 Legen Sie eine Einschränkung für die Anzahl der Nicht-Null-Komponenten des Vektors fest k. Aber wenn Merkmale korreliert sind, was ist der Vorteil derk das wird gefunden von λk0?

Gibt es darüber hinaus ein intuitives Beispiel, das den oben zitierten Punkt demonstriert?

meTchaikovsky
quelle

Antworten:

2
  1. Wenn Merkmale korreliert sind, sollten Sie ein elastisches Netz und kein Lasso verwenden.
  2. Wenn zwei Merkmale korreliert sind, würde Lasso das Merkmal ungefähr auswählen i Über j Wenn es die bessere Belohnung für die Verlustfunktion hat, bedeutet dies einen kleineren absoluten Wert |βi| des Regressionskoeffizienten zusammen mit einer guten Abnahme des Vorhersagefehlers ||yXβ||2.
  3. Auf der anderen Seite die l0-norm basierte Strafe würde die Funktion wählen i Über jwenn es auf eine gute Abnahme der Vorhersagefehler führt nur , da die Größe des Koeffizienten spielt keine Rolle, nur wenn es von Null verschieden ist (denken Sie daran,||β||0=#{βk0}).
  4. Nun, meine Intuition wäre das l1- und l0-Norm-Strafen sind bei der Vorhersage korrekter Regressionskoeffizienten gleichermaßen schlecht, wenn Merkmale korreliert sind. Der Beweis von Satz 2 in diesem Artikel sollte veranschaulichen, warum dies tatsächlich der Fall ist. Dies würde jedoch im Widerspruch zu der Aussage und dem Beispiel des von Ihnen zitierten Papiers stehen.
Edgar
quelle