Ich bin ein Software-Ingenieur, der maschinelles Lernen lernt, insbesondere durch die maschinellen Lernkurse von Andrew Ng . Beim Studium der linearen Regression mit Regularisierung habe ich Begriffe gefunden, die verwirrend sind:
- Regression mit L1-Regularisierung oder L2-Regularisierung
- LASSO
- Gratregression
Also meine Fragen:
Ist die Regression mit L1-Regularisierung genau das gleiche wie mit LASSO?
Ist die Regression mit L2-Regularisierung genau die gleiche wie die Ridge-Regression?
Wie wird "LASSO" schriftlich verwendet? Sollte es "LASSO Regression" sein? Ich habe Verwendung wie " das Lasso ist angemessener " gesehen.
Wenn die Antwort "Ja" für 1 und 2 oben ist, warum gibt es dann unterschiedliche Namen für diese beiden Begriffe? Kommen "L1" und "L2" aus der Informatik / Mathematik und "LASSO" und "Ridge" aus Statistiken?
Die Verwendung dieser Begriffe ist verwirrend, wenn ich Posts wie die folgenden sehe:
" Was ist der Unterschied zwischen L1- und L2-Regularisierung? " (Quora.com)
" Wann sollte ich Lasso vs Ridge verwenden? " (Stats.stackexchange.com)
quelle
Antworten:
Ja.
Ja.
LASSO ist eigentlich ein Akronym (am wenigsten absoluter Schrumpfungs- und Auswahloperator), sollte also groß geschrieben werden, aber modernes Schreiben ist das lexikalische Äquivalent von Mad Max . Auf der anderen Seite schreibt Amoeba, dass sogar die Statistiker, die den Begriff LASSO geprägt haben, jetzt die Kleinschreibung verwenden (Hastie, Tibshirani und Wainwright, Statistical Learning with Sparsity ). Über die Motivation für den Wechsel kann man nur spekulieren. Wenn Sie für eine akademische Presse schreiben, haben sie in der Regel einen Styleguide für diese Art von Dingen. Wenn Sie in diesem Forum schreiben, ist beides in Ordnung, und ich bezweifle, dass sich jemand wirklich darum kümmert.
Die Notation bezieht sich auf Minkowski-Normen und Räume. Diese verallgemeinern lediglich den Begriff der Taxi- und euklidischen Abstände zu im folgenden Ausdruck: Wichtig ist, dass nur einen metrischen Abstand definiert. erfüllt die Dreiecksungleichung nicht, ist also nach den meisten Definitionen keine Distanz.L Lp p > 0
Ich bin nicht sicher, wann die Verbindung zwischen Kamm und LASSO realisiert wurde.
Warum es mehrere Namen gibt, ist nur eine Frage, dass diese Methoden zu unterschiedlichen Zeiten an verschiedenen Orten entwickelt wurden. Ein häufiges Thema in der Statistik ist, dass Konzepte häufig mehrere Namen haben, einen für jedes Unterfeld, in dem sie unabhängig entdeckt wurden (Kernfunktionen vs. Kovarianzfunktionen, Gaußsche Prozessregression vs. Kriging, AUC vs. Statistik). Die Ridge-Regression sollte wahrscheinlich als Tikhonov-Regularisierung bezeichnet werden, da ich glaube, dass er den frühesten Anspruch auf die Methode hat. In der Zwischenzeit wurde LASSO erst 1996 eingeführt, viel später als die "Grat" -Methode von Tikhonov!c
quelle