Probabilistische Interpretation von Dünnplatten-Glättungssplines

8

TLDR: Haben Dünnplatten-Regressionssplines eine probabilistische / Bayes'sche Interpretation?

Bei gegebenen Eingabe-Ausgabe-Paaren ist ; Ich möchte eine Funktion wie folgt schätzen: wobei eine Kernfunktion ist und ein Merkmalsvektor der Größe . Die Koeffizienten und können durch Lösen von wobei Die Zeilen von \ Phi sind gegeben durch(xi,yi)i=1,...,nf()

f(x)u(x)=ϕ(xi)Tβ+i=1nαik(x,xi),
k(,)ϕ(xi)m<nαiβi
minαRn,βRm1nYΦβKαRn2+λαTKα,
Φϕ(xi)T und, mit einigem Missbrauch Notation, die i,j -te Eintrag der Kernmatrix K ist k(xi,xj) . Dies ergibt
α=λ1(I+λ1K)1(YΦβ)
β={ΦT(I+λ1K)1Φ}1ΦT(I+λ1K)1Y.
Unter der Annahme, dass k(,) eine positive bestimmte Kernelfunktion ist, kann diese Lösung als bester linearer unverzerrter Prädiktor für das folgende Bayes'sche Modell angesehen werden:
y | (β,h())  N(ϕ(x)β+h(x),σ2),
h()  GP(0,τk(,)),
β1,
Dabei bezeichnet σ2/τ=λ und GP einen Gaußschen Prozess. Siehe zum Beispiel https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2665800/

Meine Frage lautet wie folgt. Angenommen, ich lasse k(x,x):=|xx|2ln(|xx|) und ϕ(x)T=(1,x) , dh dünne Plattenverzahnung Regression. Nun ist k(,) keine positive semidefinite Funktion und die obige Interpretation funktioniert nicht. Hat das obige Modell und seine Lösung noch eine probabilistische Interpretation, da für den Fall das k(,) positiv semidefinit ist?

MthQ
quelle
Sie scheinen anzunehmen, dass sich in einem dimensionalen Raum mit oder zumindest, dass die ganze Zahl ist. d d = 2 dxdd=2d
Yves
Ok, was sind die Auswirkungen?
MthQ
2
Dies war nur eine Nebenbemerkung, denn in der Frage könnte man denken, dass Skalare sind. In diesem Fall hat der Kernel von Duchon jedoch die Form mit Ganzzahl und für den üblichen Glättungsspline. Ich denke, dass die probabilistische Interpretation nahezu unverändert bleibt, aber der GP nicht stationär ist: Es handelt sich um eine intrinsische Zufallsfunktion . Für den üblichen Glättungs-Spline stellt sich heraus, dass dies ein integrierter Wiener-Prozess ist. | x - x | 2 m - 1 m m = 2xi|xx|2m1mm=2
Yves
1
@Ja das klingt interessant. Möglicherweise möchten Sie Ihren Kommentar zu einer Antwort erweitern, etwas näher erläutern, was eine intrinsische Zufallsfunktion ist, und das klassische Beispiel für den Glättungsspline hinzufügen. Wenn Sie sich Sorgen machen, zu beweisen, dass der TPS-Kernel zu einem instationären GP führt, kann eine Simulation möglicherweise ein nützlicher Kompromiss sein, insbesondere wenn Sie eine nicht parametrische Schätzung der Varianz der posterioren Vorhersageverteilung hinzufügen.
DeltaIV
@ DeltaIV. Vielen Dank. Ich werde versuchen, es zu tun, noch keine leichte Aufgabe. Ich bin mir ziemlich sicher, dass dies gilt, wenn die Funktionen geeignete Polynome sind, die sich auf den Kernel beziehen, aber dies gilt möglicherweise nicht mehr für beliebige wie im klassischeren GP-Kontext. ϕ jϕjϕj
Yves

Antworten:

5

Das Modell der Frage sei geschrieben als wobei ein nicht beobachteter GP mit dem Index und ein normaler Rauschbegriff mit ist Varianz . Der GP wird normalerweise als zentriert, stationär und nicht deterministisch angenommen. Beachten Sie, dass der Begriff als (deterministischer) GP mit Kernel wobei h(x)xRdεiσ2ϕ(x)βϕ(x)B.

(1)Yi=ϕ(xi)β+h(xi)+εi
h(x)xRdεiσ2ϕ(x)βB B : = ρϕ(x)Bϕ(x)Bist eine Kovarianzmatrix mit unendlichem Wert. In der Tat erhalten wir die Kriging-Gleichungen der Frage , indem wir mit . Dies wird häufig als diffuser Prior für . Ein korrekter Posterior für ergibt sich nur, wenn die Matrix den vollen Rang hat. Das Modell schreibt also ebenso wie wobei ein GP ist . Dieselbe Bayes-Interpretation kann mit Einschränkungen verwendet werden, wenn kein GP mehr ist, sondern ein GP ρ β β Φ Y i = ζ ( x i ) + ε i ζ ( x ) ζ ( x )B:=ρIρββΦ
(2)Yi=ζ(xi)+εi
ζ(x)ζ(x)Intrinsic Random Function (IRF). Die Ableitung findet sich im Buch von G. Wahba. Lesbare Darstellungen des IRF-Konzepts finden sich beispielsweise in dem Buch von N. Cressie und dem unten zitierten Artikel von Mardia et al. IRFs ähneln den bekannten integrierten Prozessen im zeitdiskreten Kontext (wie ARIMA): Ein IRF wird durch eine Art Differenzierungsoperation in einen klassischen GP umgewandelt.

Hier sind zwei Beispiele für IRF für . Betrachten Sie zunächst einen Wiener-Prozess dessen Anfangsbedingung durch eine diffuse Anfangsbedingung ersetzt wird: ist normal mit einer unendlichen Varianz. Sobald ein Wert bekannt ist, kann der IRF ebenso wie der Wiener GP vorhergesagt werden. Zweitens betrachten wir einen integrierten Wiener-Prozess , der durch die Gleichung wobei ist ein Wiener-Prozess. Um einen GP zu erhalten, benötigen wir jetzt zwei skalare Parameter: zwei Werte und fürζ ( x ) ζ ( 0 ) = 0 ζ ( 0 ) ζ ( x ) d 2 ζ ( x ) / d x 2 = d W ( x ) / d x W ( x ) ζ ( x ) ζ ( x ' ) x x ' ζ ( x )d=1ζ(x)ζ(0)=0ζ(0)ζ(x)

d2ζ(x)/dx2=dW(x)/dx
W(x)ζ(x)ζ(x)xxoder die Werte und bei einem ausgewählten . Wir können annehmen, dass die beiden zusätzlichen Parameter gemeinsam Gauß'sch mit einer unendlichen Kovarianzmatrix sind. In beiden Beispielen ist der IRF als GP nahezu fertig, sobald ein geeigneter endlicher Satz von Beobachtungen verfügbar ist. Außerdem haben wir einen Differentialoperator verwendet: und . Der Nullraum ist ein linearer Raum von Funktionen so dass . Es enthält die konstante Funktion ζ(x)x 2 × 2 L : = d / d x L : = d 2 / d x 2 F ϕ ( x ) L ϕ = 0 ϕ 1 ( x ) = 1 ϕ 1 ( x ) = 1 ϕ 2 ( x ) = x ζ ( xdζ(x)/dxx2×2L:=d/dxL:=d2/dx2Fϕ(x)Lϕ=0ϕ1(x)=1im ersten Fall und die Funktionen und im zweiten Fall. Beachten Sie, dass im ersten Beispiel GP für jedes feste im ersten Beispiel ist und in ähnlicher Weise ist im zweiten Fall ein GP.ϕ1(x)=1ϕ2(x)=xδ ζ ( x - δ ) - 2 ζ ( x ) + ζ ( x + δ )ζ(x)ζ(x+δ)δζ(xδ)2ζ(x)+ζ(x+δ)

Betrachten Sie für eine allgemeine Dimension einen linearen Raum von Funktionen, die in . Wir nennen ein Inkrement relativ zu eine endliche Sammlung von Positionen und reellen Gewichten so dass Betrachten Sie als Nullraum unserer Beispiele. Für das erste Beispiel können wir zB mit und beliebig und nehmenF R d F s x iR d s ν i s i = 1dFRdFsxiRdsνiF s = 2 × 1 × 2 [ 1 ,

i=1sνiϕ(xi)=0 for all ϕF.
Fs=2x1x2s = 3 x i ν = [ 1 ,[1,1] . Für das zweite Beispiel können wir s mit gleichem Abstand und . Die Definition eines IRF beinhaltet einen Raum von Funktionen und eine Funktion die bedingt positiv für , was bedeutet, dass gilt, sobald ist ein Inkrement für . Von unds=3xiF g ( x ,ν=[1,2,1]F F s i = 1 s j = 1 ν i ν jg(x,x)F[ ν i ,
i=1sj=1sνiνjg(xi,xj)0
F F g( x ,[νi,xi]i=1sFFL F Lζ=g(x,x) Wir können einen Kovarianzkern erstellen, daher einen GP wie bei Mardia et al. Wir können von einem linearen Differentialoperator und den Nullraum als ; Die IRF hat dann eine Verbindung mit der Gleichung ein Gaußsches Rauschen.LFLζ=

Die Berechnung der Vorhersage des IRF ist nahezu dieselbe wie in der Frage, wobei durch , aber mit dem jetzt eine Basis von . Die zusätzliche Einschränkung muss im Optimierungsproblem hinzugefügt werden, wodurch das gewährt wird . Wir können bei Bedarf noch weitere Basisfunktionen hinzufügen, die nicht in sind. Dies hat den Effekt, dass dem IRF ein deterministischer GP hinzugefügt wird, z. B. g( x ,k(x,x) ϕ i ( x ) F Φ α= 0 α K α0 F ψ( x ) γζ( x )g(x,x)ϕi(x)FΦα=0αKα0Fψ(x)γζ(x) in (2).

Der Dünnplatten-Spline hängt von einer ganzen Zahl so dass , der Raum Polynome mit geringem Grad enthält, wobei die Dimension von und abhängt . Es kann gezeigt werden, dass, wenn die folgende Funktion für dann definiert ein bedingt positives wrt . Die Konstruktion bezieht sich auf einen Differentialoperatorm > 2 d F p ( m ) m d E ( r ) r 0 E ( r ) : = { ( - 1 ) m + 1 + d / 2mm>2dFp(m)mdE(r)r0 g(x,

E(r):={(1)m+1+d/2r2mdlogrd even,r2mdd odd,
g(x,x):=E(xx)FL. Es stellt sich heraus, dass für und der Spline der dünnen Platte nichts anderes ist als der übliche natürliche kubische Spline, der sich auf das obige integrierte Wiener-Beispiel bezieht, mit . (2) ist also nichts anderes als das übliche Glättungs-Spline-Modell. Wenn und der Nullraum die Dimension und wird durch die Funktionen , und .d=1m=2g(x,x)=|xx|3d=2m=2p(m)=31x1x2

Cressie N- Statistik für räumliche Daten . Wiley 1993.

Mardia KV, Kent JT, Goodall CR und Little JA. Kriging und Splines mit abgeleiteten Informationen. Biometrika (1996), 83,1, S. 207-221.

Wahba G Spline-Modelle für Beobachtungsdaten . SIAM 1990.

Wang, Y Glättung von Splines, Methoden und Anwendungen . Chapman and Hall, 2011.

Yves
quelle
Vielen Dank für die Mühe, die Sie investiert haben. Sehr nützlich. Ich habe noch eine zusätzliche Frage. Das Hinzufügen zusätzlicher Basisfunktionen zu (zusätzlich zu den Basisfunktionen von ) ändert also nichts an der Interpretation von . Was mir jedoch aufgefallen ist, ist, dass die in meiner obigen Frage angegebene Lösung immer erfüllt , nicht nur wenn . Wie kann das interpretiert werden? F ζ ( ) α * & Phi; α = 0 φ ( ) Fϕ()Fζ()αΦα=0ϕ()F
MthQ
Ja. In beiden Fällen gibt es Basisfunktionen bei der Approximation von , während nur Beobachtungen verwendet werden. Wir haben also so etwas wie eine rangschwache Regression mit den Koeffizienten und . Da der Teil nicht bestraft wird, neigt er dazu, mehr von der Variation von zu "absorbieren" als der Teil, der lineare Einschränkungen mit sich bringt . Beachten Sie, dass nichts die Verwendung einiger der "Kernel-Shifts" -Funktionen als verbietet . Wenn wir alle verwenden, dann allef ( x ) n β i α j β y α p n x k ( x , x i ) φ j ( x ) α jn+pf(x)nβiαjβyαpnxk(x,xi)ϕj(x)αjsind Null, was sinnvoll erscheint.
Yves