Ist die Tikhonov-Regularisierung die gleiche wie die Ridge-Regression?

Tikhonov-Regularisierung und Gratregression werden häufig als identische Begriffe verwendet. Kann der Unterschied genau angegeben werden?

regression terminology regularization ridge-regression tikhonov-regularization Carl
quelle

Antworten:

Die Tikhonov-Regularisierung ist eine größere Menge als die Kammregression. Hier ist mein Versuch, genau darzulegen, wie sie sich unterscheiden.

Angenommen , wir wollen für eine bekannte Matrix $A$ und einen Vektor $b$ einen Vektor $\mathbf{x}$ so finden, dass:

$A\mathbf{x}=\mathbf{b}$ .

Der Standardansatz ist die gewöhnliche lineare Regression kleinster Quadrate. Wenn jedoch kein $x$ die Gleichung erfüllt oder wenn mehr als ein $x$ tut - das heißt, die Lösung ist nicht eindeutig -, wird das Problem als schlecht gestellt bezeichnet. Ordentliche kleinste Quadrate versuchen, die Summe der quadratischen Residuen zu minimieren, die kompakt geschrieben werden können als:

$\|A\mathbf{x}-\mathbf{b}\|^2$

woist die euklidische Norm. In der Matrixnotation ist die mit bezeichnete Lösung gegeben durch: $\left \| \cdot \right \|$ $\hat{x}$

$\hat{x} = (A^{T}A)^{-1}A^{T}\mathbf{b}$

Die Tikhonov-Regularisierung wird minimiert

$\|A\mathbf{x}-\mathbf{b}\|^2+ \|\Gamma \mathbf{x}\|^2$

für einige geeignet ausgewählte Tikhonov-Matrix . Eine explizite Matrixformlösung, bezeichnet mit , ist gegeben durch: $\Gamma$ $\hat{x}$

$\hat{x} = (A^{T}A+ \Gamma^{T} \Gamma )^{-1}A^{T}{b}$

Der Effekt der Regularisierung kann über die Skala von Matrix variiert werden . Für reduziert sich dies auf die unregelmäßige Lösung der kleinsten Quadrate, vorausgesetzt, dass (A ^T A) ⁻¹ existiert. $\Gamma$ $\Gamma = 0$

Typischerweise werden für die Gratregression zwei Abweichungen von der Tikhonov-Regularisierung beschrieben. Erstens wird die Tikhonov-Matrix durch ein Vielfaches der Identitätsmatrix ersetzt

$\Gamma= \alpha I$ ,

Lösungen mit kleinerer Norm, dh der Norm , den . Dann wird zu führe $L_2$ $\Gamma^{T} \Gamma$ $\alpha^2 I$

$\hat{x} = (A^{T}A+ \alpha^2 I )^{-1}A^{T}{b}$

Schließlich wird für die Ridge-Regression typischerweise angenommen, dass Variablen so skaliert werden, dass die Form einer Korrelationsmatrix hat. und ist der Korrelationsvektor zwischen den Variablen und , zu dem führt $A$ $X^{T}X$ $X^{T}b$ $x$ $b$

$\hat{x} = (X^{T}X+ \alpha^2 I )^{-1}X^{T}{b}$

In dieser Form wird der Lagrange-Multiplikator normalerweise durch , oder ein anderes Symbol ersetzt, behält aber die Eigenschaft $\alpha^2$ $k$ $\lambda$ $\lambda\geq0$

Bei der Formulierung dieser Antwort bestätige ich, dass ich großzügig von Wikipedia und von Ridge eine Schätzung der Übertragungsfunktionsgewichte übernommen habe

Carl
quelle

(+1) Der Vollständigkeit halber sollte erwähnt werden, dass das regulierte System in der praktischen Anwendung typischerweise in der Form , was dann als standardmäßiges lineares Problem der kleinsten Quadrate gelöst werden kann (z. B. über QR / SVD auf , ohne explizit die normalen Gleichungen zu bilden).

[\begin{matrix} A \\ α Γ \end{matrix}] x \approx [\begin{matrix} b \\ 0 \end{matrix}] ⟹ \hat{A} x \approx \hat{b}

$\begin{bmatrix}A\\ \alpha \Gamma\\ \end{bmatrix}x\approx\begin{bmatrix}b\\0\\ \end{bmatrix}\implies \hat{A}x\approx \hat{b}$

\hat{A}

$\hat{A}$

GeoMatt22

Guter Punkt. Ich werde es später hinzufügen.

Carl

Sind das Glätten von Splines und ähnlichen Basiserweiterungsmethoden eine Teilmenge der Tikhonov-Regularisierung?

Sycorax sagt Reinstate Monica

@Sycorax erwarte ich nicht so. Beispielsweise würde ein B-Spline Ableitungen an Endpunkten auf Null setzen und Ableitungen und Größen des Splines mit Daten zwischen Endpunkten abgleichen. Durch die Tikhonov-Regularisierung wird der von Ihnen angegebene Parameterfehler minimiert, indem die Steigung der Anpassung geändert wird. Also verschiedene Dinge.

Carl

Die Tychonov-Regularisierung hat auch eine Formulierung in willkürlichen Dimensionen für (trennbare?) Hilbert-Räume

AIM_BLB

Carl hat eine gründliche Antwort gegeben, die die mathematischen Unterschiede zwischen Tikhonov-Regularisierung und Gratregression gut erklärt. Inspiriert von der historischen Diskussion hier , hielt ich es für nützlich, ein kurzes Beispiel hinzuzufügen, das zeigt, wie nützlich das allgemeinere Tikhonov-Framework sein kann.

Zuerst eine kurze Anmerkung zum Kontext. In der Statistik trat eine Gratregression auf, und während die Regularisierung in Statistik und maschinellem Lernen mittlerweile weit verbreitet ist, war der Ansatz von Tikhonov ursprünglich durch inverse Probleme bei der modellbasierten Datenassimilation (insbesondere in der Geophysik ) motiviert . Das vereinfachte Beispiel unten befindet sich in dieser Kategorie (komplexere Versionen werden für Paläoklima-Rekonstruktionen verwendet ).

Stellen Sie sich vor, wir wollen die Temperaturen in der Vergangenheit auf der Grundlage der heutigen Messungen rekonstruieren . In unserem vereinfachten Modell werden wir diese Temperatur entwickelt sich entsprechend der übernehmen Wärmeleitungsgleichung in 1D mit periodischen Randbedingungen eine einfache (explicit) Finite - Differenzen - Ansatz führt zum diskreten Modell $u[x,t=0]$ $u[x,t=T]$

u_{t} = u_{x x}

$u_t = u_{xx}$

u [x + L, t] = u [x, t]

$u[x+L,t] = u[x,t]$

\frac{Δ u}{Δ t} = \frac{L u}{Δ x^{2}} ⟹ u_{t + 1} = {EIN u}_{t}

$\frac{\Delta\mathbf{u}}{\Delta{t}} = \frac{\mathbf{Lu}}{\Delta{x^2}} \implies \mathbf{u}_{t+1} = \mathbf{Au}_t$ Mathematisch wird die Evolutionsmatrix invertierbar ist , so haben wir jedoch numerisch , Schwierigkeiten treten auf, wenn das Zeitintervall zu lang ist.

A

$\mathbf{A}$

u_{t} = {{EIN}^{- 1} u}_{t + 1}

$\mathbf{u}_t = \mathbf{A^{-1}u}_{t+1}$

T

$T$

Die Tikhonov-Regularisierung kann dieses Problem lösen, indem fügt eine kleine Strafe für die Rauheit .

\begin{aligned} {EIN u}_{t} & \approx u_{t + 1} \\ ω {L u}_{t} & \approx 0 \end{aligned}

$\begin{align} \mathbf{Au}_t &\approx \mathbf{u}_{t+1} \\ \omega\mathbf{Lu}_t &\approx \mathbf{0} \end{align}$

ω^{2} ≪ 1

$\omega^2\ll{1}$

u_{x x}

$u_{xx}$

Nachfolgend finden Sie einen Vergleich der Ergebnisse:

Wir können sehen, dass die ursprüngliche Temperatur ein glattes Profil hat, das durch Diffusion noch weiter geglättet wird, um . Die direkte Inversion kann nicht wiederherstellen und die Lösung zeigt starke "Schachbrett" . Die Tikhonov-Lösung ist jedoch in der Lage, mit ziemlich guter Genauigkeit wiederherzustellen . $u_0$ $u_\mathsf{fwd}$ $u_0$ $u_\mathsf{inv}$ $u_\mathsf{reg}$ $u_0$

Beachten Sie, dass in diesem Beispiel die Gratregression unsere Lösung immer in Richtung einer "Eiszeit" treibt (dh gleichmäßige Nulltemperaturen). Die Tikhonov-Regression ermöglicht uns eine flexiblere physikalisch- basierte Vorbedingung: Hier besagt unsere Strafe im Wesentlichen, dass sich die Rekonstruktion nur langsam entwickeln sollte, dh . $\mathbf{u}$ $u_t\approx{0}$

Matlab-Code für das Beispiel ist unten (kann hier online ausgeführt werden ).

% Tikhonov Regularization Example: Inverse Heat Equation
n=15; t=2e1; w=1e-2; % grid size, # time steps, regularization
L=toeplitz(sparse([-2,1,zeros(1,n-3),1]/2)); % laplacian (periodic BCs)
A=(speye(n)+L)^t; % forward operator (diffusion)
x=(0:n-1)'; u0=sin(2*pi*x/n); % initial condition (periodic & smooth)
ufwd=A*u0; % forward model
uinv=A\ufwd; % inverse model
ureg=[A;w*L]\[ufwd;zeros(n,1)]; % regularized inverse
plot(x,u0,'k.-',x,ufwd,'k:',x,uinv,'r.:',x,ureg,'ro');
set(legend('u_0','u_{fwd}','u_{inv}','u_{reg}'),'box','off');

GeoMatt22
quelle

Alle Komplimente herzlich aufgenommen. Besonders erwähnenswert ist, auch wenn etwas off topic, dass sowohl Tikhonov Regularisierung und Ridge - Regression können für das Targeting physikalische Regressions Ziele verwendet werden. (+1)

Carl

@ Carl das ist sicherlich wahr. Wir könnten es hier sogar verwenden , indem wir die Variablen auf ! (Im Allgemeinen kann jedes Tikhonov-Problem mit einer invertierbaren Tikhonov-Matrix in eine

v = L u

$v=Lu$

Gratregression