Wie hängt die Interpolation mit dem Konzept der Regression zusammen?

17

Erklären Sie kurz, was mit Interpolation gemeint ist. Inwiefern hängt das mit dem Konzept der Regression zusammen?

Interpolation ist die Kunst des Lesens zwischen den Zeilen einer Tabelle, und in der Elementarmathematik bezeichnet der Begriff gewöhnlich den Prozess des Berechnens der Zwischenwerte einer Funktion aus einer Menge gegebener oder tabellarischer Werte dieser Funktion.

Ich kann die zweite Frage nicht beantworten. Bitte helfen Sie

Argha
quelle
4
Die Regression zielt darauf ab , eine Funktion zu identifizieren , um den erwarteten Wert von (die abhängige Variable) bei X (die unabhängigen Variablen) zu beschreiben. Die Interpolation verwendet die Regression, um den Wert von Y bei gegebenen Werten von X vorherzusagen . Der Unterschied ist geringfügig, tritt jedoch bei Modellen in den Vordergrund, bei denen die Y -Werte korreliert sind, da sich die vorhergesagten Werte normalerweise von ihren Regressionswerten unterscheiden . Weder die Regression noch die Vorhersage gelten direkt für die Interpolation in mathematischen Tabellen, von denen normalerweise angenommen wird, dass sie keinen zufälligen Fehler aufweisen, aber ihre Algorithmen können weiterhin verwendet werden. Y.XY.XY.
whuber
2
Ist das Arbeit für eine Klasse?
Glen_b -Reinstate Monica

Antworten:

23

Der Hauptunterschied zwischen Interpolation und Regression ist die Definition des Problems, das sie lösen.

Wenn Sie Datenpunkte angeben, suchen Sie beim Interpolieren nach einer Funktion mit einer vordefinierten Form, deren Werte genau den angegebenen entsprechen. Das bedeutet, dass Sie bei gegebenen Paaren ( x i , y i ) nach F einer vordefinierten Form suchen , die F ( x i ) = y i erfüllt . Ich denke, am häufigsten wird F als Polynom, Spline (Polynome niedrigen Grades in Intervallen zwischen gegebenen Punkten) gewählt.n(xich,yich)FF(xich)=yichF

Wenn Sie eine Regression durchführen, suchen Sie nach einer Funktion, die einige Kosten minimiert, normalerweise die Summe der Fehlerquadrate. Sie benötigen die Funktion nicht, um die genauen Werte an bestimmten Punkten zu haben, Sie möchten nur eine gute Annäherung. Im Allgemeinen erfüllt Ihre gefundene Funktion möglicherweise nicht F ( x i ) = y i für einen Datenpunkt, aber die Kostenfunktion, dh n i = 1 ( F ( x i ) - y i ) 2 , ist die kleinstmögliche aller Funktionen der gegebenen Form.FF(xich)=yichich=1n(F(xich)-yich)2

Ein gutes Beispiel dafür, warum Sie nur approximieren statt interpolieren möchten, sind die Kurse an der Börse. Sie können Preise in einigen letzten Zeiteinheiten nehmen und versuchen, sie zu interpolieren, um eine Vorhersage des Preises in der nächsten Zeiteinheit zu erhalten. Dies ist eher eine schlechte Idee, denn es gibt keinen Grund zu der Annahme, dass die Beziehungen zwischen den Preisen durch ein Polynom genau ausgedrückt werden können. Aber eine lineare Regression könnte den Trick machen, da die Kurse eine gewisse "Steigung" aufweisen und eine lineare Funktion zumindest lokal eine gute Annäherung sein könnte (Hinweis: Es ist nicht so einfach, aber eine Regression ist definitiv eine bessere Idee als eine Interpolation in diesem Fall ).k

sjm.majewski
quelle
Gute Antwort. Ich würde hinzufügen, dass bei der Regression ein statistisches Modell dahintersteckt, das die Beziehung zwischen und X in Bezug auf eine bestimmte Verteilung definiert, wobei wir den Mittelwert (oder den Median oder Quantile usw. in verschiedenen Arten der Regression) schätzen, z. B. Statistiken .stackexchange.com / questions / 173660 /…Y.X
Tim
Wäre das von Ihnen beschriebene Beispiel nicht eher eine Extrapolation als eine Interpolation?
bi_scholar
6

Die beiden vorherigen Antworten haben die Beziehung zwischen linearer Interpolation und linearer Regression (oder sogar allgemeiner Interpolation und polynomialer Regression) erklärt. Eine wichtige Verbindung ist jedoch, dass Sie nach dem Anpassen eines Regressionsmodells damit zwischen den angegebenen Datenpunkten interpolieren können.

Michael R. Chernick
quelle
Wenn ich also beispielsweise die Größe gegen das Geschlecht zurückgebe, kann ich interpolieren, um die erwartete Größe eines halben Mannes und einer halben Frau zu ermitteln! Dieses phantasievolle Beispiel hebt den grundlegenden Fehler in dieser Antwort hervor, bei dem angenommen wird, dass alle Regressoren in einem Regressionsmodell kontinuierliche Variablen sein müssen.
Whuber
2
Meine Antwort gilt, wenn alle Prädiktorvariablen stetig sind.
Michael R. Chernick
4

Hoffentlich kommt dies mit einem einfachen Beispiel und einer Visualisierung recht schnell.

Angenommen, Sie haben die folgenden Daten:

X  Y
1  6
10 15
20 25
30 35
40 45
50 55

Wir können Regression verwenden, um Y als Antwort auf X zu modellieren. Verwenden von R: lm(y ~ x)

Die Ergebnisse sind ein Achsenabschnitt von 5 und ein Koeffizient für x von 1. Dies bedeutet, dass ein beliebiges Y für ein gegebenes X als X + 5 berechnet werden kann. Als Bild können Sie dies folgendermaßen sehen:

Bildbeschreibung hier eingeben

Beachten Sie, dass Sie einen Wert erhalten können, unabhängig davon, ob ich einen Wertpunkt für angegeben habe oder nicht, wenn Sie an einer beliebigen Stelle entlang der X-Achse eine Linie bis zur angepassten Linie und dann eine Linie über die Y-Achse gezogen haben Y. Die Regression glättet Bereiche ohne Daten, indem die zugrunde liegende Beziehung geschätzt wird.

Fomite
quelle
2

Der grundlegende Unterschied zwischen s / w-Interpolation und Regression lautet wie folgt: Interpolation: Angenommen, es gibt n Punkte (z. B. 10 Datenpunkte). Bei der Interpolation wird die Kurve, die durch alle Datenpunkte (hier 10 Datenpunkte) verläuft, mit a angepasst Grad des Polynoms (Anzahl der Datenpunkte -1; hier ist es 9). Wie bei der Regression werden nicht alle Datenpunkte nur für die Kurvenanpassung benötigt.

Im Allgemeinen ist die Reihenfolge von Interpolation und Regression (1, 2 oder 3). Wenn die Reihenfolge größer als 3 ist, werden mehr Oszillationen in der Kurve sichtbar.

user30339
quelle
2
Dies impliziert, dass die Interpolation auf Polynomen basiert, aber es gibt mehrere andere Methoden, wie z. B. kubische Spline, stückweise kubische Hermite, nächster Nachbar usw.
Nick Cox
@Nick Obwohl Sie richtig liegen, ist es merkwürdig, dass jede Methode, die Sie benennen, tatsächlich auf Polynomen basiert! Der vielleicht einfachste und bekannteste nichtpolynomielle Interpolator ist die inverse Distanzgewichtung (IDW).
Whuber
@whuber Einverstanden; Wenn Polynome mit Einschränkungen angewendet werden können, qualifizieren sich die meisten Methoden, z. B. nächster Nachbar = stückweise Konstante usw.
Nick Cox
2

Regression ist der Prozess, um die Linie der besten Anpassung zu finden [1]. Bei der Interpolation wird der Wert einer Variablen anhand der Best-Fit-Linie aus dem Wert einer anderen Variablen geschätzt, vorausgesetzt, der von Ihnen verwendete Wert liegt im Bereich Ihrer Daten. Wenn es außerhalb des Bereichs liegt, würden Sie Extrapolation [1] verwenden.

[1] http://mathhelpforum.com/advanced-applied-math/182558-interpolation-vs-regression.html

Razan Paul
quelle
2
Diese Antwort unterscheidet Interpolation nicht von Extrapolation. Halten Sie sie für dasselbe? Übrigens sind Mathematikforen (und sogar Lehrbücher und Aufsätze) im Allgemeinen keine guten Informationsquellen zu statistischen Themen, da sie sich in der Regel auf enge mathematische Bedeutungen konzentrieren, die zwar korrekt und nützlich in rein mathematischen Anwendungen sind, aber möglicherweise nicht weiter verbreitet sind .
Whuber
1

Bei Interpolation oder Spline-Anpassung erhalten wir numerische Daten (interpoliert zwischen jedem Paar von Originaldaten) von größerer Größe, die beim Zeichnen den Effekt einer glatten Kurve erzeugen. Tatsächlich wird zwischen jedem Paar von Originaldaten ein anderes Polynom angepasst, daher ist die gesamte Kurve nach der Interpolation eine stückweise kontinuierliche Kurve, wobei jedes Stück aus einem anderen Polynom gebildet wird.

Wenn nach einer parametrischen Darstellung der ursprünglichen numerischen Daten gesucht wird, muss eine Regression durchgeführt werden. Sie können auch versuchen, ein hochgradiges Polynom an den Spline anzupassen. In jedem Fall wird die Darstellung eine Annäherung sein. Sie können auch überprüfen, wie genau die Annäherung ist.

Karnika
quelle
Offenbar hatten Sie noch keine Gelegenheit, den Kommentar von Nick Cox zu lesen , der darauf hinweist, dass nicht alle Interpolatoren (lokale) Polynome sind.
Whuber
0

Sowohl die Regression als auch die Interpolation werden verwendet, um Werte einer Variablen (Y) für einen gegebenen Wert einer anderen Variablen (X) vorherzusagen. In der Regression können wir jeden Wert der abhängigen Variablen (Y) für einen gegebenen Wert der unabhängigen Variablen (X) vorhersagen, auch wenn er außerhalb des tabellarischen Wertebereichs liegt. Bei der Interpolation können wir jedoch nur die Werte der abhängigen Variablen vorhersagen (Y) für einen Wert der unabhängigen Variablen (X), der innerhalb des Bereichs gegebener Werte von X liegt.

Kounteyo Roy Chowdhury
quelle
0

Bei der Interpolation wird eine Anzahl von Punkten zwischen x = a und x = b genau an ein Interpolationspolynom angepasst. Die Interpolation kann verwendet werden, um den ungefähren Wert (oder den fehlenden Wert) von y in der Domäne x = [a, b] mit einer besseren Genauigkeit als die Regressionstechnik zu finden.

Andererseits ist die Regression ein Prozess, bei dem eine Anzahl von Punkten an eine Kurve angepasst wird, die mit einem minimalen Fehlerquadrat durch oder in der Nähe der Punkte verläuft. Die Regression approximiert den Wert von y in der Domäne x = [a, b] nicht so genau wie die Interpolation. Die Regression liefert jedoch bessere Vorhersagen als die Interpolation für die Werte von y in der Domäne zwischen x = (- unendlich, a) und x = ( b, + unendlich).

Zusammenfassend bietet die Interpolation eine bessere Genauigkeit des Werts von y innerhalb der Domäne eines bekannten x-Bereichs, während die Regression bessere Vorhersagen von y in der Domäne unterhalb und außerhalb des bekannten Bereichs von x liefert.

NFM Noor
quelle
3
Es ist keine Definition der Interpolation, dass ein Polynom verwendet wird. Andere glatte Funktionen könnten angemessen sein.
Nick Cox
3
Es gibt andere Probleme mit Ihren Ansprüchen. Beispielsweise kann die Regression genauer sein als die Interpolation. Die statistische Unterscheidung zwischen den beiden Verfahren unterscheidet sich erheblich von Ihrer Darstellung: Weitere Beiträge finden Sie in diesem Thread.
Whuber