Normen - Was ist das Besondere an

13

Eine L1 -Norm ist (zumindest teilweise) eindeutig, da p=1 an der Grenze zwischen nicht konvex und konvex liegt. Eine L1 -Norm ist die 'spärlichste' konvexe Norm (oder?).

Ich verstehe, dass die euklidische Norm p=2 Wurzeln in der Geometrie hat und eine klare Interpretation hat, wenn Dimensionen die gleichen Einheiten haben. Aber ich verstehe nicht, warum es bevorzugt gegenüber anderen reellen Zahlen p>1 : p=1.5 ? p=π ? Warum nicht den vollen kontinuierlichen Bereich als Hyperparameter verwenden?

Was vermisse ich?

Trenton
quelle
1
Speziell in welchen Anwendungen "bevorzugt verwendet"? Normen sind in Mathematik, Statistik und Physik allgegenwärtig; In einigen Unterfeldern sind einige Normen vorherrschender als andere, weil sie aussagekräftiger oder einfacher zu handhaben sind. Aus diesem Grund werden die Antworten auf diese Frage wahrscheinlich zahlreich und vielfältig sein (so vielfältig, dass ich dies persönlich nicht beantworte). Ich habe dies daher zu einem "Community Wiki" (CW) -Post gemacht. Wenn Sie jedoch eine bestimmte Anwendung oder einen engen Bereich im Auge haben, sollte es durch Präzisierung Ihrer Frage möglich sein, den CW-Status zu entfernen.
whuber

Antworten:

12

Eine mathematischere Erklärung ist, dass der Raum , der aus allen Reihen besteht, die in der p-Norm konvergieren, nur Hilbert mit p = 2 und keinem anderen Wert ist. Dies bedeutet, dass dieser Raum vollständig ist und die Norm in diesem Raum möglicherweise durch ein inneres Produkt induziert wird (denken Sie an das vertraute Skalarprodukt in R n ).lpp=2Rn

JohnK
quelle
4

Hier sind ein paar Gründe:

  1. Es hat eine ganz besondere Beziehung zum inneren Produkt: Es ist seine eigene duale Norm (dh es ist "self-dual").
    Dies bedeutet , dass, wenn alle Vektoren innerhalb der betrachten Einheitskugel, deren maximale innere Produkt mit einem beliebigen Vektor z ist die 2 Norm Z selbst. Weniger ausgefallen erfüllt es die Eigenschaft, dass x 2 2 = x x . Keine andere l p Norm verhält sich auf diese Weise.2z2zx22=xxp

  2. Es hat einen sehr bequemen glatten Farbverlauf: Das ist wirklich unschlagbar!

    x f(x)22=2 f(x)f(x)
user541686
quelle
2

Obwohl es noch viele weitere Gründe geben kann, wird AFAIK p = 2 aus folgenden Gründen bevorzugt:

  • Maß für Ähnlichkeit / Unähnlichkeit: Für p = 2 gibt die euklidische Norm ein Maß für Ähnlichkeit oder Unähnlichkeit zwischen zwei Vektoren an, die dann weiter verwendet werden können, um einen besseren Einblick in die Daten zu erhalten. Detailliertere Antworten dazu finden Sie hier hier .
  • Regularisierung: Die L2-Norm wird für die Regularisierung beim maschinellen Lernen verwendet und wird aus zwei Gründen bevorzugt: 1) Sie ist leicht zu unterscheiden. 2) Bei der L2-Regularisierung nehmen die Gewichte tendenziell proportional zu den Gewichten ab. Daher bestraft die L2-Regularisierung die größeren Gewichte im Vergleich zu den kleineren Gewichten stärker.
enterML
quelle
1

Fehlerquadrate bei linearen Modellen werden häufig bevorzugt, weil:

  • das Verhältnis zur Orthogonalität, das sich in Bezug auf einige zufällige Phänomene, die als Rauschen (Unkorreliertheit) angesehen werden, gut verhält
  • es ist konvex und differenzierbar, nicht L1
  • Es liefert nachvollziehbare Optimierungsalgorithmen, wenn sich die Ableitung in lineare Systeme verwandelt

wird oft als ein geeigneter Ersatz oder eine konvexe Relaxation für die strenge Sparsamkeit (die Zählung von Nicht-Null-Termen) angesehen, die kombinatorisch kompliziert ist, siehe zum Beispielfür die meisten großen unterbestimmten linearen Gleichungssysteme auch die minimale1 -Norm-Lösung die sparsamste Lösung. Einige neigen dazu,p , 0 < p < 1 zu verwendenL11p0<p<1 zu verwenden, um mehr Sparsamkeit zu erzwingen, auf Kosten des "Verlusts" der Konvexität.

Das Zählmaß ist jedoch unempfindlich gegenüber einer Skalierung ungleich Null. Multiplizieren Sie einen Vektor mit einer Nicht-Null-Konstante, die Anzahl der Nicht-Null-Terme bleibt gleich. Somit l 0 ist 0 -Auftrag homogen, während l p Normen oder quasi-Normen sind all 1 -Auftrag homogen. Auch wenn irgendwie l pl 0 als p 0 , so scheint diese Diskrepanz mir eine Lücke.000p1p0p0

1/21/2

Laurent Duval
quelle