Stellen wir uns vor, Sie möchten einen Parameter aus einigen beobachteten Eingabe-Ausgabe-Paaren . Nehmen wir an, dass die Ausgaben über in einem linearen Verhältnis zu den Eingaben stehen und dass die Daten durch Rauschen verfälscht werden :β(x1,y1)…,(xN,yN)βϵ
yn=βxn+ϵ,
Dabei ist das Gaußsche Rauschen mit dem Mittelwert und der Varianz . Daraus ergibt sich eine Gaußsche Wahrscheinlichkeit:ϵ0σ2
∏n=1NN(yn|βxn,σ2).
Lassen Sie uns den Parameter regulieren, indem wir den Gaußschen Prior auferlegen wobei ein streng positiver Skalar ist. Wenn wir also die Wahrscheinlichkeit und die Priorität kombinieren, haben wir einfach:βN(β|0,λ−1),λ
∏n=1NN(yn|βxn,σ2)N(β|0,λ−1).
Nehmen wir den Logarithmus des obigen Ausdrucks. Wir lassen einige Konstanten fallen:
∑n=1N−1σ2(yn−βxn)2−λβ2+const.
Wenn wir den obigen Ausdruck in Bezug auf ; maximieren , erhalten wir die sogenannte maximale a-posteriori-Schätzung für ; oder kurz MAP-Schätzung. In diesem Ausdruck wird deutlich, warum der Gaußsche Prior als L2-Regularisierungsterm interpretiert werden kann.ββ
In ähnlicher Weise kann die Beziehung zwischen der L1-Norm und dem Laplace-Prior auf dieselbe Weise verstanden werden. Nehmen Sie anstelle eines Gaußschen Priores einen Laplace-Prior, kombinieren Sie ihn mit Ihrer Wahrscheinlichkeit und nehmen Sie den Logarithmus.
Eine gute Referenz (vielleicht etwas fortgeschritten), die beide Themen ausführlich beschreibt, ist das Paper "Adaptive Sparseness for Supervised Learning", das derzeit online nicht leicht zu finden zu sein scheint. Schauen Sie sich alternativ "Adaptive Sparseness using Jeffreys Prior" an . Eine weitere gute Referenz ist "Über die Bayes'sche Klassifikation mit Laplace-Priors" .
D dimension
Könnenbeta
undsigma
haben Sie in einem linearen Regressionsfall explizite Lösungen? Ich lese PRML und finde Gleichung (1.67) auf Seite 30 und habe keine Ahnung, wie ich sie lösen soll. Höchstwahrscheinlich lösen wirbeta
und setzen dannsigma
den Gradienten auf Null. Im regularisierten kleinsten Quadratlambda
lösen wirbeta
direkt , da einige der Reqularisierungsparameter bekannt sind . Aber wenn wir direkt den MAP lösen, was ist die Reihenfolge der Lösungbeta
,sigma
? Können sie eine explizite Lösung haben oder müssen wir einen iterativen Prozess verwenden?Für ein lineares Modell mit multivariater Normalprior- und multivariater Normalwahrscheinlichkeit erhalten Sie eine multivariate Normal-Posterior-Verteilung, bei der der Mittelwert des Posterior- (und Maximum-Posteriori-Modells) genau dem entspricht, was Sie mit Tikhonov regularisiert erhalten würden ( regularisierte) kleinste Quadrate mit einem geeigneten Regularisierungsparameter.L2
Es ist zu beachten, dass ein grundlegenderer Unterschied darin besteht, dass der Bayesianische Posterior eine Wahrscheinlichkeitsverteilung ist, während die Tikhonov-Lösung der kleinsten Quadrate eine spezifische Punktschätzung ist.
Dies wird in vielen Lehrbüchern über Bayes'sche Methoden für inverse Probleme diskutiert. Siehe zum Beispiel:
http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/
http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/
Wenn Sie eine Laplace-Prior- und eine multivariate Normalwahrscheinlichkeit haben, tritt das Maximum der posterioren Verteilung an einem Punkt auf, den Sie durch Lösen eines regulierten -Problems mit den kleinsten Quadraten erhalten könnten .L1
quelle
Beachten Sie zunächst, dass der Median die L1-Norm minimiert (siehe hier oder hier, um mehr über L1 und L2 zu erfahren).
während der Mittelwert L2 minimiert
Denken Sie jetzt daran, dass der Parameter der Normalverteilungen mit dem Mittelwert der Stichprobe geschätzt werden kann , während der MLE-Schätzer für den Parameter der Laplace-Verteilung der Median ist. Die Verwendung der Normalverteilung entspricht also der L2-Normoptimierung und die Verwendung der Laplace-Verteilung der Verwendung der L1-Optimierung. In der Praxis können Sie sich das so vorstellen, dass der Median für Ausreißer weniger anfällig ist als für Mittelwerte. Wenn Sie die Laplace-Verteilung mit dickerem Schwanz als früher verwenden, ist Ihr Modell weniger anfällig für Ausreißer als für Normalverteilung.μμ μ
Hurley, WJ (2009) Ein induktiver Ansatz zur Berechnung des MLE für die doppelte Exponentialverteilung . Zeitschrift für moderne angewandte statistische Methoden: 8 (2), Artikel 25.
quelle
Für ein Regressionsproblem mit Variablen (ohne Intercept) machen Sie OLS alsk
In einer regulierten Regression mit Strafe tun Sie diesLp
Das können wir gleichwertig machen (Vorzeichenwechsel beachten)
Dies steht in direktem Zusammenhang mit dem Bayes'schen Prinzip von
oder gleichwertig (unter Regularitätsbedingungen)
Nun ist es nicht schwer zu erkennen, welche exponentielle Familienverteilung zu welcher Strafart gehört.
quelle
Um die Äquivalenz genauer zu formulieren:
Das Optimieren der Modellgewichte zur Minimierung einer quadratischen Fehlerverlustfunktion mit L2-Regularisierung entspricht dem Ermitteln der Gewichte, die am wahrscheinlichsten unter einer nach der Bayes-Regel bewerteten posterioren Verteilung liegen, wobei ein unabhängiges Gauß-Gewicht mit dem Mittelwert Null vorausgeht
Beweis:
Die Verlustfunktion wie oben beschrieben wäre gegeben durch
Beachten Sie, dass die Verteilung für einen multivariaten Gaußschen WertN(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(−12(x−μ)⊤Σ−1(x−μ))
Mit der Bayes-Regel haben wir das
Wo wir in der Lage sind, den mehrdimensionalen Guassian in ein Produkt aufzuteilen, weil die Kovarianz ein Vielfaches der Identitätsmatrix ist.
Nimm die negative Log-Wahrscheinlichkeit−log[p(w|D)]=−∑n=1Nlog[N(y(n);fw(x(n)),σ2y)]−∑i=1Klog[N(wi;0,σ2w)]+const.=12σ2y∑n=1N(y(n)−fw(x(n)))2+12σ2w∑i=1Kw2i+const.
Wir können natürlich die Konstante fallen lassen und mit jedem Betrag multiplizieren, ohne die Verlustfunktion grundlegend zu beeinflussen. (Konstante bewirkt nichts, Multiplikation skaliert effektiv die Lernrate. Beeinflusst die Position der Minima nicht.) Wir können also sehen, dass die negative logarithmische Wahrscheinlichkeit der posterioren Verteilung eine äquivalente Verlustfunktion zur L2-Funktion des regulierten quadratischen Fehlerverlusts ist.
Diese Äquivalenz ist allgemein und gilt für jede parametrisierte Funktion von Gewichten - nicht nur für die lineare Regression, wie oben angedeutet.
quelle
Es gibt zwei Merkmale der Bayes'schen Modellierung, die hervorgehoben werden müssen, wenn die Äquivalenz bestimmter bestrafter Maximalwahrscheinlichkeitsschätzungen und der Bayes'schen Verfahren erörtert wird.
quelle