Eine -Norm ist (zumindest teilweise) eindeutig, da an der Grenze zwischen nicht konvex und konvex liegt. Eine -Norm ist die 'spärlichste' konvexe Norm (oder?).
Ich verstehe, dass die euklidische Norm Wurzeln in der Geometrie hat und eine klare Interpretation hat, wenn Dimensionen die gleichen Einheiten haben. Aber ich verstehe nicht, warum es bevorzugt gegenüber anderen reellen Zahlen : ? ? Warum nicht den vollen kontinuierlichen Bereich als Hyperparameter verwenden?
Was vermisse ich?
regression
regularization
sparse
Trenton
quelle
quelle
Antworten:
Eine mathematischere Erklärung ist, dass der Raum , der aus allen Reihen besteht, die in der p-Norm konvergieren, nur Hilbert mit p = 2 und keinem anderen Wert ist. Dies bedeutet, dass dieser Raum vollständig ist und die Norm in diesem Raum möglicherweise durch ein inneres Produkt induziert wird (denken Sie an das vertraute Skalarprodukt in R n ).lp p=2 Rn
quelle
Hier sind ein paar Gründe:
Es hat eine ganz besondere Beziehung zum inneren Produkt: Es ist seine eigene duale Norm (dh es ist "self-dual").ℓ2 z ℓ2 z ∥x∥22=x⋅x ℓp
Dies bedeutet , dass, wenn alle Vektoren innerhalb der betrachten Einheitskugel, deren maximale innere Produkt mit einem beliebigen Vektor z ist die ℓ 2 Norm Z selbst. Weniger ausgefallen erfüllt es die Eigenschaft, dass ‖ x ‖ 2 2 = x ⋅ x . Keine andere l p Norm verhält sich auf diese Weise.
Es hat einen sehr bequemen glatten Farbverlauf: Das ist wirklich unschlagbar!
quelle
Obwohl es noch viele weitere Gründe geben kann, wird AFAIK p = 2 aus folgenden Gründen bevorzugt:
quelle
Fehlerquadrate bei linearen Modellen werden häufig bevorzugt, weil:
wird oft als ein geeigneter Ersatz oder eine konvexe Relaxation für die strenge Sparsamkeit (die Zählung von Nicht-Null-Termen) angesehen, die kombinatorisch kompliziert ist, siehe zum Beispielfür die meisten großen unterbestimmten linearen Gleichungssysteme auch die minimale ℓ 1 -Norm-Lösung die sparsamste Lösung. Einige neigen dazu, ℓ p , 0 < p < 1 zu verwendenL1 ℓ1 ℓp 0<p<1 zu verwenden, um mehr Sparsamkeit zu erzwingen, auf Kosten des "Verlusts" der Konvexität.
Das Zählmaß ist jedoch unempfindlich gegenüber einer Skalierung ungleich Null. Multiplizieren Sie einen Vektor mit einer Nicht-Null-Konstante, die Anzahl der Nicht-Null-Terme bleibt gleich. Somit l 0 ist 0 -Auftrag homogen, während l p Normen oder quasi-Normen sind all 1 -Auftrag homogen. Auch wenn irgendwie l p → l 0 als p → 0 , so scheint diese Diskrepanz mir eine Lücke.ℓ0 ℓ0 0 ℓp 1 ℓp→ℓ0 p→0
quelle