Wann immer Regularisierung verwendet wird, wird sie häufig zur Kostenfunktion hinzugefügt, wie in der folgenden Kostenfunktion. Dies ist für mich intuitiv sinnvoll, da das minimiert wird Kostenfunktion bedeutet, den Fehler (den linken Term) zu minimieren und die Größen der Koeffizienten (den rechten Term) gleichzeitig zu minimieren (oder zumindest die beiden Minimierungen auszugleichen).
Meine Frage ist, warum dieser Regularisierungsterm der ursprünglichen Kostenfunktion hinzugefügt und nicht multipliziert wird oder etwas anderes, das den Geist der Motivation hinter der Idee der Regularisierung bewahrt? Liegt es daran, dass es ausreichend einfach ist, wenn wir den Begriff einfach hinzufügen und dies analytisch lösen, oder gibt es einen tieferen Grund?
quelle
Antworten:
Es hat eine ziemlich schöne Intuition im Bayes'schen Rahmen. Man nehme an, dass die regulierte Kostenfunktion eine ähnliche Rolle spielt wie die Wahrscheinlichkeit einer Parameterkonfiguration Berücksichtigung der Beobachtungen . Unter Anwendung des Bayes-Theorems erhalten wir:J θ X,y
Das Protokoll des Ausdrucks zu nehmen, gibt uns:
Nehmen wir nun an, ist das negative 1 log-posterior, . Da der letzte Term nicht von abhängt , können wir ihn weglassen, ohne das Minimum zu ändern. Ihnen bleiben zwei Terme übrig: 1) der Wahrscheinlichkeitsterm Abhängigkeit von und und 2) der vorherige Term Abhängigkeit von . Diese beiden Begriffe entsprechen genau dem Datenbegriff und dem Regularisierungsbegriff in Ihrer Formel.J(θ) −logP(θ|X,y) θ logP(X,y|θ) X y logP(θ) θ
Sie können sogar noch weiter gehen und zeigen, dass die Verlustfunktion, die Sie gebucht haben, genau dem folgenden Modell entspricht:
wobei die Parameter von einer Gaußschen Verteilung mit dem Mittelwert Null stammen und die Beobachtungen ein Gaußsches Rauschen mit dem Mittelwert Null haben. Weitere Details finden Sie in dieser Antwort .θ y
1 Negativ, da Sie die Wahrscheinlichkeit maximieren, aber die Kosten minimieren möchten .
quelle
Jan und Cagdas geben einen guten Bayes-Grund an und interpretieren den Regularizer als Prior. Hier sind einige nicht-Bayesianische:
Wenn Ihr unregelmäßiges Ziel konvex ist und Sie einen konvexen Regularisierer hinzufügen, ist Ihr Gesamtziel immer noch konvex. Dies ist nicht der Fall, wenn Sie es multiplizieren oder die meisten anderen Kombinationsmethoden anwenden. Die konvexe Optimierung ist im Vergleich zur nicht-konvexen Optimierung wirklich sehr, sehr gut. Wenn die konvexe Formulierung funktioniert, ist es besser, das zu tun.
Manchmal führt dies zu einer sehr einfachen geschlossenen Form, wie dies bei der Gratregression der Fall ist.
Wenn Sie das Problem denken Sie "wirklich" wollen als ein Problem mit einem harten Zwang lösen dann seine Lagrange Dual ist das Problem Obwohl Sie die Lagrange-Dualität nicht verwenden müssen , wird viel darüber verstanden.
Wie ogogmad erwähnt , gilt der Repräsentantensatz für den Fall einer additiven Strafe: Wenn Sie über einen gesamten reproduzierenden Hilbert- Funktionsraum optimieren wollen , dann wissen wir, dass die Lösung für die Optimierung über den gesamten Raum liegt in einem einfachen endlichdimensionalen Unterraum für viele Verluste ; Ich weiß nicht, ob dies für einen multiplikativen Regularisierer gelten würde (obwohl dies der Fall sein könnte). Dies ist die Grundlage der Kernel-SVMs.f H
Wenn Sie tief lernen oder sowieso nicht konvex sind: Additive Verluste ergeben einfache additive Gradienten. Für den einfachen Regularizer, den Sie gegeben haben, wird es zu einem sehr einfachen Gewichtsabfall . Aber auch für einen komplizierteren Regularisator, sagen das WGAN-GP ‚s Verlust es für die Rückübertragung einfacher, Gradienten zu berechnen, wenn nur die Summe des Verlusts und des komplizierten Regularizers (getrennt betrachtet) berücksichtigt werden muss, anstatt dass dies erforderlich ist Mach die Produktregel.L2
Additive Verluste sind auch für den bekannten ADMM- Optimierungsalgorithmus und andere auf "Zerlegung" basierende Algorithmen zugänglich .
Keine dieser Regeln ist verbindlich , und in der Tat funktioniert ein multiplikativer (oder ein anderer) Regularisierer manchmal besser (wie ogogmad betont ). (Tatsächlich habe ich neulich ein Papier eingereicht, in dem beschrieben wird, wie etwas, das Sie als multiplikativen Regularisierer interpretieren könnten, besser funktioniert als der oben beschriebene WGAN-GP-Zusatz!)
quelle
Sie möchten beide Terme in der Zielfunktion minimieren . Daher müssen Sie die Begriffe entkoppeln. Wenn Sie die Terme multiplizieren, kann ein Term groß und der andere sehr niedrig sein. Sie haben also immer noch einen niedrigen Wert für die Zielfunktion, aber ein unerwünschtes Ergebnis.
Möglicherweise erhalten Sie ein Modell mit der größten Variablen nahe Null ohne Vorhersagekraft.
Die Zielfunktion, dh die zu minimierende Funktion, kann als Summe aus Kostenfunktion und Regularisierungsbedingungen konstruiert werden.
Wenn beide unabhängig voneinander sind, erhalten Sie die Werte, die in der ersten Abbildung für das Objektiv dargestellt sind. Sie sehen im Falle der Summe, dass es nur ein Minimum bei (0, 0) gibt. Im Falle des Produktes haben Sie Mehrdeutigkeiten. Sie haben eine ganze Hyperfläche gleich Null bei (x = 0 oder y = 0). Daher kann der Optimierungsalgorithmus abhängig von Ihrer Initialisierung überall landen. Und es kann sich nicht entscheiden, welche Lösung besser ist.
quelle
Sie können andere Binäroperationen ( ) ausprobieren und sehen, wie sie verglichen werden.max,min,×
Das Problem mit und ist, dass, wenn der Fehler , die regulierte Strafe . Dies ermöglicht dem Modell eine Überanpassung.min × 0 0
Das Problem mit ist, dass Sie am Ende die "härtere" der beiden Strafen (Trainingsfehler oder Regularisierung) minimieren, die andere jedoch nicht.max
Im Gegensatz dazu ist einfach und funktioniert.+
Sie könnten fragen, warum nicht andere Binäroperationen? Es gibt kein Argument, das sie ausschließen könnte. Warum also nicht?
quelle
Ich denke, Sie haben eine berechtigte Frage. Um Ihnen eine richtige Antwort zu geben, müssen Sie die probabilistische Natur des Problems verstehen.
Im Allgemeinen ist das Problem, das wir zu lösen versuchen, das Folgende: Gegebene Daten Wie lautet die Verteilung der Hypothesen, die diese Daten erklären. Wenn wir Hypothese sagen, meinen wir ein PDF (zumindest in diesem Zusammenhang). Und eine Verteilung von Hypothesen ist ein PDF von PDFs, dh .D p(H|D)
Wenn wir nun die von beiden Seiten der Bayes-Gleichung nehmen, erhalten wir:−log
Normalerweise ist schwer zu berechnen. Das Gute ist, dass es das Ergebnis nicht beeinflusst. Es ist einfach eine Normalisierungskonstante.p(D)
Jetzt zum Beispiel , wenn unsere Gruppe von Hypothesen ist ein Bündel von Gaussians mit , wo wir nicht wissen , aber nimm an, dass du kennst (oder zumindest annimmst, dass es eine Konstante ist), und im Übrigen sind die Hypothesen selbst als Gauß'scher Wert mit dann alles oben einstecken sieht so aus:p(D|H) p(y|X,θ)∼N(θX,σ) θ σ p(H)=p(θ)∼N(0,α−1I)
Wenn wir nun diesen Ausdruck minimieren, finden wir die Hypothese mit der höchsten Wahrscheinlichkeit. Konstanten beeinflussen die Minimierung nicht. Dies ist der Ausdruck in Ihrer Frage.
Die Tatsache, dass wir Gaußsche verwendet haben, ändert nichts an der Tatsache, dass der Regularisierungsbegriff zusätzlich ist. Es muss additiv sein (logarithmisch oder multiplikativ in Wahrscheinlichkeiten), es gibt keine andere Wahl. Was sich ändert, wenn wir andere Distributionen verwenden, sind die Komponenten des Zusatzes. Die von Ihnen bereitgestellte Kosten-Verlust-Funktion ist für ein bestimmtes Gauß-Szenario optimal.
quelle
Ridge ist eine sehr praktische Formulierung. Im Gegensatz zu den probabilistischen Antworten geben diese Antworten keine Interpretation der Schätzung wieder, sondern erklären, warum der Kamm eine alte und offensichtliche Formulierung ist.
Bei der linearen Regression ergeben die Normalgleichungenθ^=(XTX)−1XTy
Die Matrix ist jedoch manchmal nicht invertierbar; Ein Weg , um es zu verstellen ist , indem ein kleines Element zum Diagonalen Zugabe: .XTX XTX+αI
Dies ergibt die Lösung: ; dann löst nicht das ursprüngliche Problem, sondern das Kammproblem.θ~=(XTX+αI)−1XTy θ~
quelle
Ich denke, es gibt einen intuitiveren Grund, warum wir nicht mit dem Regularisierungsbegriff multiplizieren können.
Lassen Sie uns unsere Straffunktion auf die reguläre Straffunktion multipliziert mit einem Regularisierungsbegriff, wie Sie vorschlagen, übertragen.
Hier erstellen wir ein globales Minimum der mit . In diesem Fall kann unser Modell hohe Fehler zwischen der Vorhersage und den Daten erzeugen, aber es spielt keine Rolle, wenn die Modellparametergewichte alle Null sind, ist unsere Straffunktion Null .α∥θ∥22=0 J(θ=0)=0
Da der Term niemals Null sein kann (die Wahrscheinlichkeit, dass es eine Menge θ gibt , es sei denn, unser Modell ist vollständig perfekt Um unser Modell 'perfekt' zu machen, ist dies für reale Daten vernachlässigbar.) Dann sollte unser Modell immer zur Lösung θ = 0 tendieren.(12(y−θXT)(y−θXT)T)
Dies ist, was es zurückgibt, es sei denn, es bleibt irgendwo in einem lokalen Minimum stecken.
quelle