Was ist die statistische Begründung der Interpolation?

16

Angenommen, wir haben zwei Punkte (die folgende Abbildung: schwarze Kreise) und möchten einen Wert für einen dritten Punkt zwischen ihnen finden (Kreuz). In der Tat werden wir es basierend auf unseren experimentellen Ergebnissen, den schwarzen Punkten, schätzen. Am einfachsten ist es, eine Linie zu zeichnen und dann den Wert zu ermitteln (dh lineare Interpolation). Wenn wir Stützpunkte hatten, z. B. als braune Punkte auf beiden Seiten, ziehen wir es vor, von ihnen zu profitieren und eine nichtlineare Kurve (grüne Kurve) anzupassen.

Die Frage ist, was ist die statistische Begründung, um das Rote Kreuz als Lösung zu markieren? Warum sind andere Kreuze (z. B. gelbe) keine Antworten, wo sie sein könnten? Welche Art von Schlussfolgerung oder (?) Treibt uns dazu, die rote zu akzeptieren?

Ich werde meine ursprüngliche Frage auf der Grundlage der Antworten auf diese sehr einfache Frage entwickeln.

Bildbeschreibung hier eingeben

Entwickler
quelle
7
Dies ist eine sehr gut gestellte und interessante Frage. Möglicherweise möchten Sie zwischen Zeitreiheninterpolation und anderen Formen der Interpolation (z. B. Splining oder räumliche Interpolation) unterscheiden, da Zeitreihen inhärent gerichtet sind.
Whuber
1
Mein Dank geht an diesen sehr motivierenden Kommentar.
Entwickler

Antworten:

14

Jede Form der Funktionsanpassung, auch nichtparametrische (die typischerweise Annahmen über die Glätte der betreffenden Kurve macht), beinhaltet Annahmen und damit einen Vertrauenssprung.

Die uralte Lösung der linearen Interpolation funktioniert nur dann, wenn die Daten genau genug sind (wenn Sie einen Kreis genau genug betrachten, sieht er auch flach aus - fragen Sie einfach Columbus) und war sogar machbar vor dem Computerzeitalter (was bei vielen modernen Splines-Lösungen nicht der Fall ist). Es ist sinnvoll anzunehmen, dass die Funktion zwischen den beiden Punkten in derselben (dh linearen) Materie fortbestehen wird, aber es gibt keinen a priori Grund dafür (abgesehen von Kenntnissen über die vorliegenden Konzepte).

Es wird schnell klar, wenn Sie drei (oder mehr) nicht-kolineare Punkte haben (wie wenn Sie die braunen Punkte oben hinzufügen), dass eine lineare Interpolation zwischen jedem von ihnen bald scharfe Ecken in jedem dieser Punkte mit sich bringt, was normalerweise unerwünscht ist. Hier springen die anderen Optionen ein.

Ohne weitere Domänenkenntnisse kann jedoch nicht mit Sicherheit festgestellt werden, dass eine Lösung besser ist als die andere (dazu müsste man den Wert der anderen Punkte kennen und damit den Zweck der Anpassung der Funktion in die Definition außer Kraft setzen erster Platz).

Positiv zu vermerken ist, dass sich unter „Gleichmäßigkeitsbedingungen“ (siehe Annahmen : Wenn wir wissen, dass die Funktion z. B. glatt ist) sowohl die lineare Interpolation als auch die anderen gängigen Lösungen als „vernünftig“ erweisen. Annäherungen. Dennoch: Es sind Annahmen erforderlich, und für diese haben wir in der Regel keine Statistiken.

Nick Sabbe
quelle
Dies ist eine gute Antwort und mein Kandidat, als Antwort markiert zu werden. Ich habe verstanden, dass es keine statistische Rechtfertigung für eine solche gemeinsame Entscheidung gibt, oder?
Entwickler
In der Tat glaube ich, dass es keinen gibt, nein.
Nick Sabbe
2
Einige Literaturstellen (mit Wettbewerben zur Interpolation von Stichproben bekannter Datensätze) bestätigen diese Antwort teilweise, jedoch nicht vollständig. Man kann viel über die räumliche Korrelation der Daten allein durch statistische Analyse der Daten lernen, ohne "Regularitätsbedingungen". Was benötigt wird, ist ein Modell der Daten als Beispiel für eine Realisierung eines stochastischen Prozesses zusammen mit (1) einer ergodischen Hypothese und (in den meisten Fällen) (2) einer Art Stationaritätsannahme. In diesem Rahmen wird die Interpolation zur Vorhersage einer Erwartung, aber auch nicht differenzierbare Kurven sind zulässig.
Whuber
1
@whuber: Ich bin hier weit außerhalb meiner Komfortzone, aber alles, was in Ihrem Kommentar nach "Regelmäßigkeitsbedingungen" steht, lautet wie eine ziemlich solide Menge von Annahmen (Stationarität würde wahrscheinlich eine Regelmäßigkeitsbedingung sein, oder?). Eigentlich denke ich, dass es davon abhängt, ob Ihre Stichprobe in Bezug auf die Unregelmäßigkeiten in der funktionalen Form groß ist ... Können Sie einen Verweis auf ein Papier oder Ähnliches geben, wenn dies nicht der Fall ist?
Nick Sabbe
2
Sie können nichts ohne Annahmen tun, Nick! Regelmäßigkeit (z. B. Glätte der Funktion) ist jedoch nicht erforderlich. Sie kann aus den Daten abgeleitet werden, zumindest auf der Skala, auf der die Funktion abgetastet wird. (Stationarität ist eine viel mildere Annahme als Glätte.) Sie haben Recht, dass größere Proben benötigt werden, aber auch mit 30-50 gut ausgewählten Probenpositionen kann in 2D viel gelernt werden. Die Literatur ist groß; So widmen sich beispielsweise die meisten Themen der mathematischen Geologie diesem Thema . Eine ausführliche Einführung finden Sie unter Cressie's Spatial Statistics.
Whuber
0

Sie können die lineare Gleichung für die Linie der besten Anpassung berechnen (z. B. y = 0,4554x + 0,7525), dies funktioniert jedoch nur, wenn eine beschriftete Achse vorhanden ist. Dies würde Ihnen jedoch nicht die genaue Antwort geben, sondern nur diejenige, die in Bezug auf die anderen Punkte am besten passt.

Claire Winterbourne
quelle
Aber Regression ist keine Interpolation .
Scortchi
1
@Scortchi Ich glaube, Regression kann als Interpolation verstanden werden. Regression als Lösung vorzuschlagen, beantwortet jedoch nicht die Frage, die uns dazu auffordert, zu erklären, warum jede Art von Interpolation gerechtfertigt ist (und fordert uns implizit auf, die Annahmen zu beschreiben, die zur Rechtfertigung erforderlich sind).
Whuber
@whuber: Danke. Ich dachte an Interpolation, zumindest prototypisch, als Join-the-Dots - stats.stackexchange.com/a/33662/17230 .
Scortchi
@Scortchi Dieser Thread befasst sich hauptsächlich mit dem mathematischen Konzept der Interpolation in einer Tabelle. In einem Kommentar zu seiner Frage habe ich auf das konventionelle statistische Verständnis der Interpolation hingewiesen , das sich geringfügig unterscheidet. Regression funktioniert in beiden Welten: Eine Regressionsfunktion kann als mathematischer Interpolator (für eine genau definierte Funktion, die in einer Tabelle abgetastet wird) sowie als statistischer Interpolator (durch statistische Vorhersagen von Werten eines stochastischen Prozesses unter der Bedingung von a) dienen endliche Anzahl von aus diesem Prozess abgeleiteten Werten).
Whuber
1
nn