Es ist bekannt (z. B. auf dem Gebiet der Druckabtastung ), dass die Norm "sparsity-induzierend" ist, in dem Sinne, dass wenn wir die funktionale (für feste Matrix und Vektor ) minimieren für groß genug \ lambda> 0 , wir haben wahrscheinlich für viele Auswahlmöglichkeiten von A , \ vec {b} und \ lambda viele genau null Einträge im resultierenden \ vec {x} .
Aber wenn wir minimieren unter der Bedingung , dass die Einträge von sind positiv und die Summe auf , dann ist der Begriff hat keine Wirkung (weil von fiat). Gibt es einen analogen Regularisierer vom Typ , der in diesem Fall dafür sorgt, dass das resultierende spärlich ist?
regression
matrix
normalization
regularization
sparse
Justin Solomon
quelle
quelle
Antworten:
Eine allgemeine Methode zum Erstellen spärlicher Lösungen ist die MAP-Schätzung mit einem Mittelwert von Null vor einer unbekannten Varianz.
Wenn Sie dann ein vor zuweisen, das einen Modus bei Null hat, ist der hintere Modus normalerweise spärlich. Das ergibt sich aus diesem Ansatz durch eine exponentielle Mischungsverteilung.σ2i L1
Dann bekommst du
Einige Alternativen sind das verallgemeinerte Double Pareto, Half Cauchy, Inverted Beta. In gewissem Sinne sind diese besser als Lasso, weil sie große Werte nicht verkleinern. Tatsächlich bin ich mir ziemlich sicher, dass das verallgemeinerte Doppelpareto als eine Mischung von Exponentialen geschrieben werden kann. Das heißt, wir schreiben und setzen dann ein Gamma vor . Wir bekommen:λ=λi p(λi|αβ)
Beachten Sie, dass ich Normalisierungskonstanten aufgenommen habe, da diese bei der Auswahl guter globaler Parameter helfen. Wenn wir nun die Bereichsbeschränkung anwenden, haben wir ein komplizierteres Problem, da wir über den Simplex renormieren müssen.
Ein weiteres generisches Merkmal von Sparsity-induzierenden Strafen ist, dass sie bei Null nicht differenzierbar sind. Normalerweise liegt dies daran, dass die linken und rechten Grenzen ein entgegengesetztes Vorzeichen haben.
Dies basiert auf der brillanten Arbeit von Nicolas Polson und James Scott über Varianz-Mittelwert-Mischungsdarstellungen, die sie zur Entwicklung von TIRLS verwenden - eine massive Erweiterung der kleinsten Quadrate auf eine sehr große Klasse von Verlust-Strafe-Kombinationen.
Alternativ können Sie einen Prior verwenden, der auf dem Simplex definiert ist, jedoch Modi in den Randverteilungen bei Null aufweist. Ein Beispiel ist die Dirichlet-Verteilung mit allen Parametern zwischen 0 und 1. Die implizite Strafe würde folgendermaßen aussehen:
Wobei . Sie müssen jedoch bei der numerischen Optimierung vorsichtig sein, da die Strafe Singularitäten aufweist. Ein robusterer Schätzprozess ist die Verwendung des posterioren Mittelwerts. Obwohl Sie die exakte Spärlichkeit verlieren, erhalten Sie viele hintere Mittelwerte, die nahe bei Null liegen0<ai<1
quelle
Zwei Optionen:
quelle
Die Prämisse der Frage ist nur teilweise richtig. Während es wahr ist, dass die Norm nur eine Konstante unter der Einschränkung ist, könnte das Problem der Einschränkungsoptimierung sehr wohl eine spärliche Lösung haben.L1
Die Lösung bleibt jedoch von der Wahl von unberührt , sodass entweder eine spärliche Lösung vorliegt oder nicht. Eine andere Frage ist, wie man die Lösung tatsächlich findet. Natürlich kann ein quadratischer Standardoptimierer unter linearen Bedingungen verwendet werden, aber gängige Algorithmen für den Koordinatenabstieg können nicht sofort verwendet werden.λ
Ein Vorschlag könnte darin bestehen, nur unter einem Positivitätskontrakt für verschiedene zu optimieren und dann die Lösung so zu , dass sie Norm 1 aufweist. Ein Algorithmus für den Koordinatenabstieg sollte meines Erachtens leicht modifizierbar sein, um die Lösung unter einem Positivitätswert zu berechnen Zwang.λ L1
quelle
Ich kann mir drei Methoden ausdenken.
Bayes'sche Methode: Einführung einer vorherigen Verteilung mit einem Mittelwert von Null und Verwendung der Wahrscheinlichkeit vom Typ II zur Schätzung der Parameter und Hyperparameter.
Verwenden Sie stattdessen als Regularisierung. Dies ist jedoch nicht differenzierbar. Sie können eine Norm höherer Ordnung verwenden, um sie zu approximieren.∥⋅∥∞
Verwenden Sie .−∑i=1logxi
Tatsächlich sind die erste und die dritte Methode gleich.
quelle