Was sind die Vor- / Nachteile der Verwendung von Splines, geglätteten Splines und Gaußschen Prozessemulatoren?

20

Ich bin daran interessiert, eine Alternative zur Polynominterpolation zu lernen (und zu implementieren).

Es fällt mir jedoch schwer, eine gute Beschreibung zu finden, wie diese Methoden funktionieren, in welcher Beziehung sie zueinander stehen und wie sie miteinander verglichen werden.

Ich würde mich über Ihre Beiträge zu den Vor- / Nachteilen / Bedingungen freuen, unter denen diese Methoden oder Alternativen nützlich wären, aber einige gute Verweise auf Texte, Folien oder Podcasts würden ausreichen.

David LeBauer
quelle
Dies ist in der Tat eine sehr interessante Frage, aber vielleicht (nur vielleicht) besser geeignet für math.stackexchange.com ?
steffen
In The Elements of Statistical Learning von Hastie et al.
NPE
8
Ich denke, dies ist eine durchaus vernünftige Frage zur Berechnungsstatistik.
csgillespie
@csgillespie: Alles, was ich über Splines und Interpolation weiß, habe ich in numerischen / mathematischen Vorlesungen gelernt. Daher bin ich vielleicht ein bisschen voreingenommen;).
Steffen

Antworten:

24

Die grundlegende OLS-Regression ist eine sehr gute Technik zum Anpassen einer Funktion an einen Datensatz. Eine einfache Regression passt jedoch nur auf eine gerade Linie, die für den gesamten möglichen Bereich von konstant ist . Dies ist für eine bestimmte Situation möglicherweise nicht angemessen. Beispielsweise weisen Daten manchmal eine krummlinige Beziehung auf. Dies kann durch Regression von auf eine Transformation von , . Verschiedene Transformationen sind möglich. In Situationen , in denen die Beziehung zwischen und ist monoton , sondern verjüngt sich kontinuierlich aus, ein TransformationsprotokollXYXf(X)XYkann verwendet werden. Eine andere beliebte Wahl ist die Verwendung eines Polynoms, bei dem neue Terme durch Erhöhen von auf eine Reihe von Potenzen (z. B. , usw.) gebildet werden. Diese Strategie ist einfach zu implementieren, und Sie können die Anpassung so interpretieren, dass sie angibt, wie viele Biegungen in Ihren Daten vorhanden sind (wobei die Anzahl der Biegungen der höchsten benötigten Leistung minus 1 entspricht). XX2X3

Regressionen, die auf dem Logarithmus oder einem Exponenten der Kovariate basieren, passen jedoch nur dann optimal, wenn dies die genaue Natur der wahren Beziehung ist. Man kann sich durchaus vorstellen, dass es eine krummlinige Beziehung zwischen und , die sich von den Möglichkeiten unterscheidet, die diese Transformationen bieten. Damit kommen wir zu zwei weiteren Strategien. Der erste Ansatz ist Löss , eine Reihe gewichteter linearer Regressionen, die über ein sich bewegendes Fenster berechnet werden. Dieser Ansatz ist älter und besser für die explorative Datenanalyse geeignet . XY

Der andere Ansatz ist die Verwendung von Splines. Im einfachsten Fall ist ein Spline ein neuer Begriff, der nur für einen Teil des Bereichs von . Beispielsweise kann Bereich von 0 bis 1 liegen, und der Spline-Term kann nur im Bereich von 0,7 bis 1 liegen. In diesem Fall ist 0,7 der Knoten . Ein einfacher linearer Spline-Term würde folgendermaßen berechnet: und werden Sie Ihrem Modell zusätzlich zum ursprünglichen hinzufügenXX

Xspline={0if X.7X.7if X>.7

XBegriff. Das angepasste Modell zeigt einen scharfen Bruch bei 0,7 mit einer geraden Linie von 0 bis 0,7, und die Linie setzt sich mit einer anderen Neigung von 0,7 bis 1 fort. Ein Spline-Term muss jedoch nicht linear sein. Insbesondere wurde festgestellt, dass kubische Splines besonders nützlich sind (dh ). Die scharfe Pause muss auch nicht da sein. Es wurden Algorithmen entwickelt, die die angepassten Parameter so einschränken, dass die erste und die zweite Ableitung an den Knoten übereinstimmen, was es unmöglich macht, die Knoten in der Ausgabe zu erkennen. Das Endergebnis all dessen ist, dass mit nur wenigen Knoten (normalerweise 3-5) an ausgewählten Stellen (welche Software für Sie bestimmen kann) so ziemlich jede reproduzierbar istXspline3Kurve. Darüber hinaus werden die Freiheitsgrade korrekt berechnet, sodass Sie den Ergebnissen vertrauen können. Dies ist jedoch nicht der Fall, wenn Sie sich zuerst Ihre Daten ansehen und sich dann für einen quadratischen Ausdruck entscheiden, weil Sie eine Biegung gesehen haben. Darüber hinaus ist dies alles nur eine weitere (wenn auch kompliziertere) Version des linearen Grundmodells. Alles, was wir mit linearen Modellen erhalten, ist damit verbunden (z. B. Vorhersagen, Residuen, Konfidenzbänder, Tests usw.). Dies sind wesentliche Vorteile.

Die einfachste Einführung in diese Themen, die ich kenne, ist:

gung - Wiedereinsetzung von Monica
quelle
6

Cosma Shalizis Online-Notizen zu seiner Vorlesung Fortgeschrittene Datenanalyse aus elementarer Sicht sind zu diesem Thema ziemlich gut, wenn man Dinge aus einer Perspektive betrachtet, in der Interpolation und Regression zwei Ansätze für dasselbe Problem sind. Ich möchte Ihre Aufmerksamkeit besonders auf die Kapitel über Glättungsmethoden und Splines lenken .

Martin O'Leary
quelle
Ihre Links könnten aktualisiert werden. Ich habe es ausprobiert, aber Sie sollten überprüfen, ob meine vorgeschlagenen Änderungen die von Ihnen beabsichtigten Seiten erreichen.
Gregor