Warum wird der Regularisierungsterm * zur Kostenfunktion * hinzugefügt (anstatt multipliziert usw.)?

51

Wann immer Regularisierung verwendet wird, wird sie häufig zur Kostenfunktion hinzugefügt, wie in der folgenden Kostenfunktion. Dies ist für mich intuitiv sinnvoll, da das minimiert wird Kostenfunktion bedeutet, den Fehler (den linken Term) zu minimieren und die Größen der Koeffizienten (den rechten Term) gleichzeitig zu minimieren (oder zumindest die beiden Minimierungen auszugleichen).

J(θ)=12(yθXT)(yθXT)T+αθ22

Meine Frage ist, warum dieser Regularisierungsterm der ursprünglichen Kostenfunktion hinzugefügt und nicht multipliziert wird oder etwas anderes, das den Geist der Motivation hinter der Idee der Regularisierung bewahrt? Liegt es daran, dass es ausreichend einfach ist, wenn wir den Begriff einfach hinzufügen und dies analytisch lösen, oder gibt es einen tieferen Grund?αθ22

Grenmester
quelle
1
Ein weiteres Argument ist über den Repräsentantensatz,
jkabrg
2
Lagrange-Multiplikator
Haitao Du
9
Wenn Sie mehr unabhängige Variablen als Beobachtungen haben, können Sie auf verschiedene Arten auf Null setzen, also wird das Multiplizieren mit irgendetwas nicht funktionieren helfen, ein nützliches Modell zu unterscheiden12(yθXT)(yθXT)T
Henry

Antworten:

47

Es hat eine ziemlich schöne Intuition im Bayes'schen Rahmen. Man nehme an, dass die regulierte Kostenfunktion eine ähnliche Rolle spielt wie die Wahrscheinlichkeit einer Parameterkonfiguration Berücksichtigung der Beobachtungen . Unter Anwendung des Bayes-Theorems erhalten wir:JθX,y

P(θ|X,y)=P(X,y|θ)P(θ)P(X,y).

Das Protokoll des Ausdrucks zu nehmen, gibt uns:

logP(θ|X,y)=logP(X,y|θ)+logP(θ)logP(X,y).

Nehmen wir nun an, ist das negative 1 log-posterior, . Da der letzte Term nicht von abhängt , können wir ihn weglassen, ohne das Minimum zu ändern. Ihnen bleiben zwei Terme übrig: 1) der Wahrscheinlichkeitsterm Abhängigkeit von und und 2) der vorherige Term Abhängigkeit von . Diese beiden Begriffe entsprechen genau dem Datenbegriff und dem Regularisierungsbegriff in Ihrer Formel.J(θ)logP(θ|X,y)θlogP(X,y|θ)XylogP(θ)θ

Sie können sogar noch weiter gehen und zeigen, dass die Verlustfunktion, die Sie gebucht haben, genau dem folgenden Modell entspricht:

P(X,y|θ)=N(y|θX,σ12),
P(θ)=N(θ|0,σ22),

wobei die Parameter von einer Gaußschen Verteilung mit dem Mittelwert Null stammen und die Beobachtungen ein Gaußsches Rauschen mit dem Mittelwert Null haben. Weitere Details finden Sie in dieser Antwort .θy


1 Negativ, da Sie die Wahrscheinlichkeit maximieren, aber die Kosten minimieren möchten .

Jan Kukacka
quelle
5
Ich bin ein wenig unzufrieden mit dieser Antwort, weil sie nur die Entsprechung zwischen der Kostenfunktion und dem Log-posterior zeigt. Wenn die Kosten nicht dem log-posterior, sondern dem posterior selbst entsprachen, würden wir zu dem Schluss kommen, dass die Regularisierung mit den nicht regularisierten Kosten multipliziert werden sollte (wie vom OP angefragt). - Um diese Antwort richtig zu begründen, müssten Sie begründen, warum es sich um den Log-Posterior handelt, den wir den Kosten gleichsetzen. (Du machst es irgendwie mit dem "geh noch weiter", aber an diesem Punkt wirst du ein bisschen wellenförmig.)
RM
1
@RM, gültiger Punkt. Es gibt einen Grund: Standardverlustfunktionen, die beim maschinellen Lernen verwendet werden, entsprechen eher dem log-posterior als dem posterior selbst. Warum? Weil sie empirische Risikominimierung anwenden; , und Standardverlustfunktionen haben normalerweise die Form wobei eine Verlustfunktion ist, die eine sinnvolle Interpretation als log-posteriore Wahrscheinlichkeit hat. (Ich vermute, Sie wissen das, aber ich schreibe es nur für andere Besucher aus.)logP(X1,,Xn,y1,,yn|θ)=ilogP(Xi,yi|θ)if(Xi,yi,θi)f
DW
@RM Wenn Sie Kosten für Sie Ihr Problem immer in Form von . Mit anderen Worten, unabhängig von Ihrer Kostenfunktion wird eine Verteilung definiert, die auf basiert, dividiert durch eine Normalisierungskonstante, die Sie ignorieren können, wenn Sie MCMC-Methoden verwenden. Die Tatsache, dass Sie immer eine Exponentialzahl angeben können, ist sehr wichtig, z. B. für simuliertes Tempern, MCMC- CC=explnCexplnC
Probenehmer
@RM, zum Beispiel, betrachten Sie diesen Artikel von Jun Liu (und es gibt einen ähnlichen Kommentar in Lius MCMC-Buch), wo auf Seite 3 unten steht: "Let zu untersuchende Zielwahrscheinlichkeitsverteilung sein (vermutlich können alle PDFS in dieser Form geschrieben werden) "(Hervorhebung hinzugefügt). Aus der Bayes'schen Sicht wäre diese Bayes'sche Zerlegung für diese Antwort also völlig allgemein, wenn der Teil des Seitenzahns, der durch das Wahrscheinlichkeitsmodell definiert wird, diese Verlustfunktion wäre . π(x)=cexph(x)
23.
Danke für die Antwort! Ich versuche, das "es" am Anfang Ihres Beitrags zu verstehen: Was genau behaupten Sie, hat eine gute Intuition im Bayes'schen Rahmen? Der fundamentale Grund, warum das Hinzufügen von Strafen gute Schätzer ergibt. oder der historische (und nicht statistische) Grund, warum Menschen diese additiven Schätzer verwenden? (Als ich versuchte, meine Formulierung zum Vorschlagen zu bringen, bezog sich Ihre Antwort meiner Meinung nach eher auf den historischen als auf den statistischen Grund.)
user795305
34

Jan und Cagdas geben einen guten Bayes-Grund an und interpretieren den Regularizer als Prior. Hier sind einige nicht-Bayesianische:

  • Wenn Ihr unregelmäßiges Ziel konvex ist und Sie einen konvexen Regularisierer hinzufügen, ist Ihr Gesamtziel immer noch konvex. Dies ist nicht der Fall, wenn Sie es multiplizieren oder die meisten anderen Kombinationsmethoden anwenden. Die konvexe Optimierung ist im Vergleich zur nicht-konvexen Optimierung wirklich sehr, sehr gut. Wenn die konvexe Formulierung funktioniert, ist es besser, das zu tun.

  • Manchmal führt dies zu einer sehr einfachen geschlossenen Form, wie dies bei der Gratregression der Fall ist.

  • Wenn Sie das Problem denken Sie "wirklich" wollen als ein Problem mit einem harten Zwang lösen dann seine Lagrange Dual ist das Problem Obwohl Sie die Lagrange-Dualität nicht verwenden müssen , wird viel darüber verstanden.

    minθ:c(θ)0J(θ),
    minθJ(θ)+λc(θ).
  • Wie ogogmad erwähnt , gilt der Repräsentantensatz für den Fall einer additiven Strafe: Wenn Sie über einen gesamten reproduzierenden Hilbert- Funktionsraum optimieren wollen , dann wissen wir, dass die Lösung für die Optimierung über den gesamten Raum liegt in einem einfachen endlichdimensionalen Unterraum für viele Verluste ; Ich weiß nicht, ob dies für einen multiplikativen Regularisierer gelten würde (obwohl dies der Fall sein könnte). Dies ist die Grundlage der Kernel-SVMs.fH

    minfHJ(f)+λfH2
    J
  • Wenn Sie tief lernen oder sowieso nicht konvex sind: Additive Verluste ergeben einfache additive Gradienten. Für den einfachen Regularizer, den Sie gegeben haben, wird es zu einem sehr einfachen Gewichtsabfall . Aber auch für einen komplizierteren Regularisator, sagen das WGAN-GP ‚s Verlust es für die Rückübertragung einfacher, Gradienten zu berechnen, wenn nur die Summe des Verlusts und des komplizierten Regularizers (getrennt betrachtet) berücksichtigt werden muss, anstatt dass dies erforderlich ist Mach die Produktregel.L2

    x,yfθ(x)fθ(y)the loss+λE^αUniform(0,1)(fθ(αx+(1α)y)1)2the regularizer,
  • Additive Verluste sind auch für den bekannten ADMM- Optimierungsalgorithmus und andere auf "Zerlegung" basierende Algorithmen zugänglich .

Keine dieser Regeln ist verbindlich , und in der Tat funktioniert ein multiplikativer (oder ein anderer) Regularisierer manchmal besser (wie ogogmad betont ). (Tatsächlich habe ich neulich ein Papier eingereicht, in dem beschrieben wird, wie etwas, das Sie als multiplikativen Regularisierer interpretieren könnten, besser funktioniert als der oben beschriebene WGAN-GP-Zusatz!)

Dougal
quelle
2
+1. Viel Glück mit Ihrer [vermutlich NIPS] -Einreichung!
Amöbe sagt Reinstate Monica
13

Sie möchten beide Terme in der Zielfunktion minimieren . Daher müssen Sie die Begriffe entkoppeln. Wenn Sie die Terme multiplizieren, kann ein Term groß und der andere sehr niedrig sein. Sie haben also immer noch einen niedrigen Wert für die Zielfunktion, aber ein unerwünschtes Ergebnis.

Möglicherweise erhalten Sie ein Modell mit der größten Variablen nahe Null ohne Vorhersagekraft.

Bildbeschreibung hier eingeben Bildbeschreibung hier eingeben

Die Zielfunktion, dh die zu minimierende Funktion, kann als Summe aus Kostenfunktion und Regularisierungsbedingungen konstruiert werden.

Wenn beide unabhängig voneinander sind, erhalten Sie die Werte, die in der ersten Abbildung für das Objektiv dargestellt sind. Sie sehen im Falle der Summe, dass es nur ein Minimum bei (0, 0) gibt. Im Falle des Produktes haben Sie Mehrdeutigkeiten. Sie haben eine ganze Hyperfläche gleich Null bei (x = 0 oder y = 0). Daher kann der Optimierungsalgorithmus abhängig von Ihrer Initialisierung überall landen. Und es kann sich nicht entscheiden, welche Lösung besser ist.

Sören
quelle
10

Sie können andere Binäroperationen ( ) ausprobieren und sehen, wie sie verglichen werden.max,min,×

Das Problem mit und ist, dass, wenn der Fehler , die regulierte Strafe . Dies ermöglicht dem Modell eine Überanpassung.min×00

Das Problem mit ist, dass Sie am Ende die "härtere" der beiden Strafen (Trainingsfehler oder Regularisierung) minimieren, die andere jedoch nicht.max

Im Gegensatz dazu ist einfach und funktioniert.+

Sie könnten fragen, warum nicht andere Binäroperationen? Es gibt kein Argument, das sie ausschließen könnte. Warum also nicht?

jkabrg
quelle
8

Ich denke, Sie haben eine berechtigte Frage. Um Ihnen eine richtige Antwort zu geben, müssen Sie die probabilistische Natur des Problems verstehen.

Im Allgemeinen ist das Problem, das wir zu lösen versuchen, das Folgende: Gegebene Daten Wie lautet die Verteilung der Hypothesen, die diese Daten erklären. Wenn wir Hypothese sagen, meinen wir ein PDF (zumindest in diesem Zusammenhang). Und eine Verteilung von Hypothesen ist ein PDF von PDFs, dh .Dp(H|D)

  1. p(H|D) ist eine Verteilung über Hypothesen, denen . Wenn wir dies finden, können wir eine dieser Hypothesen auswählen, zum Beispiel die mit der höchsten Wahrscheinlichkeit, oder wir können uns dafür entscheiden, über alle zu mitteln. Etwas einfacher ist es, das Problem mit dem Bayes-Theorem aus einer anderen Richtung anzugreifen.D

    p(H|D)=p(D|H)×p(H)p(D)
  2. p(D|H) ist eine der Hypothesen, sie wird auch Wahrscheinlichkeit genannt. ist die Verteilung der Hypothesen in unserem Hypothesenuniversum vor der Betrachtung der Daten. Nachdem wir die Daten beobachtet haben, aktualisieren wir unsere Überzeugungen.p(H)

  3. p(D) ist der Durchschnitt der Hypothesen, bevor wir unsere Überzeugungen aktualisiert haben.

Wenn wir nun die von beiden Seiten der Bayes-Gleichung nehmen, erhalten wir:log

log[p(H|D)]=log[p(D|H)]log[p(H)]+log[p(D)]

Normalerweise ist schwer zu berechnen. Das Gute ist, dass es das Ergebnis nicht beeinflusst. Es ist einfach eine Normalisierungskonstante.p(D)

Jetzt zum Beispiel , wenn unsere Gruppe von Hypothesen ist ein Bündel von Gaussians mit , wo wir nicht wissen , aber nimm an, dass du kennst (oder zumindest annimmst, dass es eine Konstante ist), und im Übrigen sind die Hypothesen selbst als Gauß'scher Wert mit dann alles oben einstecken sieht so aus:p(D|H)p(y|X,θ)N(θX,σ)θσp(H)=p(θ)N(0,α1I)

log[p(H|D)]=bunch of constants+12(yθX)2+12α||θ||2+constant

Wenn wir nun diesen Ausdruck minimieren, finden wir die Hypothese mit der höchsten Wahrscheinlichkeit. Konstanten beeinflussen die Minimierung nicht. Dies ist der Ausdruck in Ihrer Frage.

Die Tatsache, dass wir Gaußsche verwendet haben, ändert nichts an der Tatsache, dass der Regularisierungsbegriff zusätzlich ist. Es muss additiv sein (logarithmisch oder multiplikativ in Wahrscheinlichkeiten), es gibt keine andere Wahl. Was sich ändert, wenn wir andere Distributionen verwenden, sind die Komponenten des Zusatzes. Die von Ihnen bereitgestellte Kosten-Verlust-Funktion ist für ein bestimmtes Gauß-Szenario optimal.

Cagdas Ozgenc
quelle
Hey Cagdas, danke für die Erklärung. Ich habe die Transformation der letzten Gleichung auf der RHS nicht verstanden. Können Sie auf eine Ressource verweisen, damit ich diesen Teil besser verstehe
Itachi
7

Ridge ist eine sehr praktische Formulierung. Im Gegensatz zu den probabilistischen Antworten geben diese Antworten keine Interpretation der Schätzung wieder, sondern erklären, warum der Kamm eine alte und offensichtliche Formulierung ist.

Bei der linearen Regression ergeben die Normalgleichungen θ^=(XTX)1XTy

Die Matrix ist jedoch manchmal nicht invertierbar; Ein Weg , um es zu verstellen ist , indem ein kleines Element zum Diagonalen Zugabe: .XTXXTX+αI

Dies ergibt die Lösung: ; dann löst nicht das ursprüngliche Problem, sondern das Kammproblem.θ~=(XTX+αI)1XTyθ~

wpof
quelle
3
Bitte geben Sie die Antworten an, auf die Sie sich beziehen. Die Reihenfolge ändert sich, wenn sich Stimmen ansammeln, so dass "oben" von Natur aus mehrdeutig ist.
gung - Wiedereinsetzung von Monica
1

Ich denke, es gibt einen intuitiveren Grund, warum wir nicht mit dem Regularisierungsbegriff multiplizieren können.

Lassen Sie uns unsere Straffunktion auf die reguläre Straffunktion multipliziert mit einem Regularisierungsbegriff, wie Sie vorschlagen, übertragen.

J(θ)=(12(yθXT)(yθXT)T)αθ22

Hier erstellen wir ein globales Minimum der mit . In diesem Fall kann unser Modell hohe Fehler zwischen der Vorhersage und den Daten erzeugen, aber es spielt keine Rolle, wenn die Modellparametergewichte alle Null sind, ist unsere Straffunktion Null .αθ22=0J(θ=0)=0

Da der Term niemals Null sein kann (die Wahrscheinlichkeit, dass es eine Menge θ gibt , es sei denn, unser Modell ist vollständig perfekt Um unser Modell 'perfekt' zu machen, ist dies für reale Daten vernachlässigbar.) Dann sollte unser Modell immer zur Lösung θ = 0 tendieren.(12(yθXT)(yθXT)T)

Dies ist, was es zurückgibt, es sei denn, es bleibt irgendwo in einem lokalen Minimum stecken.

James Fulton
quelle