Regularisierung Norm und Norm empirische Studie

Es gibt viele Methoden zur Durchführung der Regularisierung - beispielsweise die Regularisierung , und . Laut Friedman Hastie & Tibsharani hängt der beste Regularisierer vom Problem ab: nämlich der Art der tatsächlichen Zielfunktion, der jeweils verwendeten Basis, dem Signal-Rausch-Verhältnis und der Stichprobengröße. $L_0$ $L_1$ $L_2$

Gibt es empirische Untersuchungen zum Vergleich von Methoden und Leistung verschiedener Regularisierungsmethoden?

r regression machine-learning regularization Ram Ahluwalia
quelle

Alle drei Autoren sind in Stanford. Warum fragen Sie nicht einfach einen von ihnen direkt. Rob Tibshirani ist sehr zugänglich, ebenso Jerry Friedman. Friedman hat viele originelle Forschungen zur regulierten Regression durchgeführt. Also kann er die bessere Wahl sein.

Michael R. Chernick

Natürlich kann ich nicht sagen, dass ich ihm die Antwort gegeben habe. Aber ihn an die beste Person zu richten, um die Frage zu beantworten, scheint mehr als nur ein gewöhnlicher Kommentar zu sein, der normalerweise zu klären versucht. Ich frage mich oft, warum die Leute hier immer ihre Fragen stellen, wenn sie direkt zur Quelle gehen können. Ich bin mir fast sicher, dass Friedman darauf antworten kann, und es ist sehr sinnvoll, zur Quelle zu gehen, insbesondere wenn es sich um eine Frage zu etwas handelt, das in ihrem Buch geschrieben steht. Ich könnte zur Quelle gehen, die Antwort bekommen und sie dann hier präsentieren.

Michael R. Chernick

Die Leute sind vom Status der Quelle als Autorität eingeschüchtert, nehmen an, dass die Quelle viel zu beschäftigt ist, um sich mit ihrer (ihrer Meinung nach) kleinen und unwichtigen Frage zu befassen, und haben Angst, ein unhöfliches "Warum belästigen Sie mich damit?" Zu bekommen. Antwort ... Es ist viel einfacher, zur Quelle zu gehen, wenn auch Sie eine Quelle sind, vielleicht für andere Dinge auf dem Gebiet.

Jbowman

@jbowman Ja. Ich verstehe das. Aber Sie werden feststellen, dass ich Tibshirani und Friedman persönlich kenne und der Op versicherte, dass ihre Angst bei diesen Autoren unbegründet ist. Ich habe Hastie nicht erwähnt, weil ich ihn nicht so gut kenne wie die anderen.

Michael R. Chernick

@chl Ich glaube nicht, dass wir realistisch erwarten können, dass sie der Site beitreten. Mit wenigen Ausnahmen wie Frank Harrell und möglicherweise anderen, die Pseudonyme verwenden, benötigt es zu viel Zeit für vielbeschäftigte Professoren. Ich denke jedoch, dass sie sich die Zeit nehmen werden, um auf bestimmte Fragen zu antworten, die direkt an sie gesendet werden.

Michael R. Chernick

Antworten:

Betrachten wir ein bestraftes lineares Modell.

Die Strafe wird nicht sehr häufig verwendet und häufig durch die mathematisch flexiblere Norm ersetzt . $L_0$ $L_1$

Die Regularisierung hat die Eigenschaft, ein spärliches Modell zu erstellen. Dies bedeutet, dass nur wenige Variablen einen Regressionskoeffizienten ungleich 0 haben. Es wird besonders verwendet, wenn Sie davon ausgehen, dass nur wenige Variablen einen echten Einfluss auf die Ausgabevariablen haben. Wenn es sehr korrelierte Variablen gibt, wird nur eine davon mit einem Koeffizienten ungleich 0 ausgewählt. $L_1$

Die Strafe ist wie wenn Sie einen Wert auf der Diagonale der Eingabematrix hinzufügen . Es kann beispielsweise in Situationen verwendet werden, in denen die Anzahl der Variablen größer als die Anzahl der Stichproben ist. Um eine quadratische Matrix zu erhalten. Mit der alle Variablen einen Regressionskoeffizienten ungleich Null. $L_2$ $\lambda$ $L_2$

Donbeo
quelle

Als zusätzlichen Beitrag, insbesondere in Bezug auf die Norm, weiß ich nicht, dass ich sagen würde, dass dies daran liegt, dass es nicht "mathematisch flexibel" ist. Ich denke, das liegt hauptsächlich daran, dass die Optimierung unerschwinglich teuer ist (es gibt Möglichkeiten, dies zu versuchen, aber ich denke nicht, dass irgendetwas allgemein funktioniert). Ich kenne eine "Big-Cheese" -Figur, die in variabler Auswahl arbeitet und sagte, er würde gerne eine Strafe verwenden, und diese Berechnung ist der einzige Grund, warum er dies nicht tut.

L_{0}

$L_0$

L_{0}

$L_0$

Kerl

Einige Ergänzungen zur Antwort von @Donbeo

1) Die L0-Norm ist keine Norm im eigentlichen Sinne. Dies ist die Anzahl der Einträge ungleich Null in einem Vektor. Diese Norm ist eindeutig keine konvexe Norm und keine Norm im eigentlichen Sinne. Daher sehen Sie möglicherweise Begriffe wie L0 'Norm'. Es wird zu einem kombinatorischen Problem und ist daher NP-schwer.

2) Die L1-Norm gibt eine spärliche Lösung (siehe LASSO). Es gibt wegweisende Ergebnisse von Candes, Donoho usw., die zeigen, dass die L1-bestraften Methoden sie wiederherstellen, wenn die wahre Lösung wirklich spärlich ist. Wenn die zugrunde liegende Lösung nicht dünn ist, erhalten Sie die zugrunde liegende Lösung in Fällen, in denen p >> n ist, nicht. Es gibt schöne Ergebnisse, die zeigen, dass das Lasso konsistent ist.

3) Es gibt Methoden wie das Elastic Net von Zhou und Hastie, die bestrafte L2- und L1-Lösungen kombinieren.

Sid
quelle