Extrapolation v. Interpolation

28

Was ist der Unterschied zwischen Extrapolation und Interpolation und wie werden diese Begriffe am genauesten verwendet?

Zum Beispiel habe ich eine Aussage in einer Arbeit gesehen, in der Interpolation verwendet wurde als:

Die Prozedur interpoliert die Form der geschätzten Funktion zwischen den Bin-Punkten.

Ein Satz, der sowohl Extrapolation als auch Interpolation verwendet, ist zum Beispiel:

Im vorherigen Schritt haben wir die interpolierte Funktion mithilfe der Kernel-Methode auf den linken und rechten Temperaturschwanz extrapoliert.

Kann jemand eine klare und einfache Methode zur Unterscheidung und Anleitung zur korrekten Verwendung dieser Begriffe mit einem Beispiel bereitstellen?

Frank Swanton
quelle
1
Mögliches Duplikat von Was ist falsch an der Extrapolation?
usεr11852 sagt Reinstate Monic
@ usεr11852 Ich denke, die beiden Fragen decken einen ähnlichen Bereich ab, sind aber unterschiedlich, da hier der Kontrast zur Interpolation gefragt wird.
mkt - Setzen Sie Monica
Wurde diese Unterscheidung zwischen Interpolation und Extrapolation in einer allgemein vereinbarten Weise (z. B. über konvexe Hüllen) rigoros formalisiert, oder unterliegen diese Begriffe noch der menschlichen Beurteilung und Interpretation?
Nick Alger

Antworten:

51

So fügen Sie eine visuelle Erklärung hinzu: Betrachten wir einige Punkte, die Sie modellieren möchten.

Bildbeschreibung hier eingeben

Sie sehen so aus, als könnten sie mit einer geraden Linie gut beschrieben werden, sodass Sie eine lineare Regression an sie anpassen:

Bildbeschreibung hier eingeben

Mit dieser Regressionslinie können Sie sowohl interpolieren (erwartete Werte zwischen Ihren Datenpunkten generieren) als auch extrapolieren (erwartete Werte außerhalb des Bereichs Ihrer Datenpunkte generieren). Ich habe die Extrapolation in Rot und den größten Interpolationsbereich in Blau hervorgehoben. Klar, auch die winzigen Bereiche zwischen den Punkten werden interpoliert, aber ich hebe hier nur den großen hervor.

Bildbeschreibung hier eingeben

Warum ist Extrapolation im Allgemeinen ein größeres Problem? Weil Sie sich in der Regel über die Form der Beziehung außerhalb des Bereichs Ihrer Daten weniger sicher sind. Überlegen Sie, was passieren kann, wenn Sie weitere Datenpunkte (hohle Kreise) erfassen:

Bildbeschreibung hier eingeben

Es stellt sich heraus, dass die Beziehung mit Ihrer hypothetischen Beziehung doch nicht gut aufgenommen wurde. Die Vorhersagen in der extrapolierten Region sind weit entfernt. Selbst wenn Sie die genaue Funktion, die diese nichtlineare Beziehung beschreibt, richtig erraten haben, reichten Ihre Daten nicht aus, um die Nichtlinearität gut zu erfassen, sodass Sie möglicherweise noch ziemlich weit weg waren. Beachten Sie, dass dies nicht nur ein Problem für die lineare Regression ist, sondern für jede Beziehung - daher wird die Extrapolation als gefährlich angesehen.

Vorhersagen im interpolierten Bereich sind auch aufgrund der fehlenden Nichtlinearität der Anpassung falsch, ihr Vorhersagefehler ist jedoch viel geringer. Es gibt keine Garantie, dass Sie keine unerwartete Beziehung zwischen Ihren Punkten (dh dem Interpolationsbereich) haben, aber es ist im Allgemeinen weniger wahrscheinlich.


Ich werde hinzufügen, dass Extrapolation nicht immer eine schreckliche Idee ist - wenn Sie ein kleines Stück außerhalb des Bereichs Ihrer Daten extrapolieren, werden Sie wahrscheinlich nicht sehr falsch liegen (obwohl es möglich ist!). Ältere Menschen, die kein gutes wissenschaftliches Modell der Welt hatten, hätten nicht viel falsch gelegen, wenn sie vorausgesagt hätten, dass die Sonne am nächsten Tag und am nächsten Tag wieder aufgehen würde (auch wenn dies einen Tag in der Zukunft scheitern wird).

Und manchmal kann eine Extrapolation sogar informativ sein - zum Beispiel waren einfache kurzfristige Extrapolationen des exponentiellen Anstiegs des atmosphärischen in den letzten Jahrzehnten ziemlich genau. Wenn Sie ein Student wären, der nicht über wissenschaftliches Fachwissen verfügt, aber eine grobe, kurzfristige Prognose wünscht, hätte dies zu ziemlich vernünftigen Ergebnissen geführt. Aber je weiter Sie von Ihren Daten entfernt sind, desto wahrscheinlicher ist es, dass Ihre Vorhersage fehlschlägt und katastrophal ausfällt, wie in diesem großartigen Thread beschrieben: Was ist falsch an der Extrapolation? (Danke an @JMisnotastatistician, der mich daran erinnert hat).2

Bearbeitung basierend auf Kommentaren: Ob interpolierend oder extrapolierend, es ist immer am besten, eine Theorie zu haben, um die Erwartungen zu begründen. Wenn eine theoretische Modellierung durchgeführt werden muss, ist das Risiko durch Interpolation in der Regel geringer als das durch Extrapolation. Mit zunehmender Größe der Lücke zwischen den Datenpunkten wird jedoch auch die Interpolation immer risikobehafteter.

mkt - Setzen Sie Monica wieder ein
quelle
5
Ich mag Ihre Antwort und halte sie für komplementär zu meiner und in keiner Weise für konkurrierend. Ein kleiner Punkt, der für einige Leser wichtig ist, ist jedoch, dass es für viele Menschen schwierig ist, Rot und Grün visuell zu unterscheiden.
Nick Cox
1
@NickCox Guter Punkt, danke, dass du das angesprochen hast - ich habe jetzt das Farbschema geändert.
mkt - Setzen Sie Monica
1
@leftaroundabout Mein Punkt war, dass das Keeling-Kurvenmuster so stark ist, dass Extrapolationen, die Wirtschaft und Physik ignorieren, auf der Skala von Jahren bis zu einigen Jahrzehnten noch einigermaßen genau sind. Ich habe die letzten Jahrzehnte genau deshalb notiert, weil dies die Zeitskala ist, auf der wir hochauflösende Messungen durchgeführt haben. Dies ist ein Beispiel, in dem Extrapolation nicht zu einem schlimmen Fehler geführt hätte, und ich denke, das ist erwähnenswert. Ich denke, es würde vorsätzliches Fehllesen erfordern, um zu behaupten, diese Antwort befürworte eine theoriefreie Extrapolation.
mkt - Setzen Sie Monica
1
Dementsprechend habe ich in dieser Antwort Talebs "Truthahn-Beispiel" als Warnung für Leute angegeben, die Extrapolation verwenden.
JM ist
1
Extrapolation ist besonders problematisch, wenn Sie Überanpassung haben; Wenn Sie beispielsweise bei einem Polynom-Modell den Datensatz deutlich überschreiten, wird der Term höchster Ordnung in die Luft gejagt.
Kumulierung
21

Im Wesentlichen ist Interpolation eine Operation innerhalb des Datenträgers oder zwischen vorhandenen bekannten Datenpunkten; Extrapolation geht über die Datenunterstützung hinaus . Ansonsten lautet das Kriterium: Wo sind die fehlenden Werte?

Ein Grund für die Unterscheidung ist, dass die Extrapolation in der Regel schwieriger und sogar gefährlicher ist, wenn nicht sogar in der Praxis. Dies ist nicht immer der Fall: Zum Beispiel können Flussfluten die Messmittel für die Einleitung oder sogar die Stufe (vertikale Ebene) überfordern und ein Loch in die Messaufzeichnung reißen. Unter diesen Umständen ist auch die Interpolation der Entladung oder des Stadiums schwierig und es hilft nicht viel, sich in der Datenunterstützung zu befinden.

Auf lange Sicht ersetzt die qualitative Veränderung gewöhnlich die quantitative Veränderung. Um 1900 gab es große Bedenken, dass das Wachstum des Pferdeverkehrs die Städte mit größtenteils unerwünschten Exkrementen überfluten würde. Das Exponential an Exkrementen wurde von der Brennkraftmaschine und ihren unterschiedlichen Exponentialen abgelöst.

Ein Trend ist ein Trend ist ein Trend,
aber die Frage ist, wird es sich biegen?
Wird es seinen Kurs
durch eine unvorhergesehene Kraft ändern
und vorzeitig zu einem Ende kommen?

- Alexander Cairncross

Cairncross, A. 1969. Wirtschaftsprognose. The Economic Journal , 79: 797 & ndash; 812. doi: 10.2307 / 2229792 (Zitat auf S.797)

Nick Cox
quelle
1
Gute Antwort. Die Interpretation ist genau dort im Namen - Interpolation = nach innen glätten, Extrapolation = nach außen glätten.
Nuclear Wang
1
IMO das ist die richtige Antwort. Die „Datenunterstützung“ ist das entscheidende Kriterium. Auch wenn der gewünschte Punkt zwischen zwei gemessenen liegt, liegt er möglicherweise immer noch außerhalb der Datenunterstützung. Wenn Sie zum Beispiel Wohlstandsdaten für Menschen in der römischen Antike und aus der Neuzeit haben, aber nicht dazwischen, dann wäre eine Interpolation in das Mittelalter sehr problematisch. Ich würde das Extrapolation nennen. OTOH: Wenn Sie Daten nur spärlich, aber gleichmäßig über die gesamte Zeitspanne verteilt haben, ist eine Interpolation auf ein bestimmtes Jahr viel plausibler.
links um den
1
@leftaroundabout Nur weil die Interpolation über eine große Datenlücke erfolgen kann, wird sie nicht extrapoliert. Sie verwechseln die Zweckmäßigkeit des Verfahrens mit dem Verfahren selbst. Manchmal ist Interpolation auch eine schlechte Idee.
mkt - Setzen Sie Monica
1
@mkt: Ich werde zur Seite mit leftaroundabout , dass sein erstes Beispiel könnte Extrapolation betrachtet werden, da Interpolation vs Extrapolation nicht wirklich so gut definiert ist , wie wir denken möchten. Eine einfache Transformation von Variablen kann Interpolation in Extrapolation umwandeln. In seinem Beispiel bedeutet die Verwendung von Entfernungsfunktionen anstelle von roher Zeit, dass wir in roher Zeit interpolieren, in Entfernungen extrapolieren ... und die Verwendung roher Zeiten wahrscheinlich eine schlechte Idee wäre.
Cliff AB
1
Das ist meine Antwort. Ich habe nicht das Bedürfnis, es zu qualifizieren. Eine breite Unterscheidung zwischen Interpolation und Extrapolation schließt nicht aus, dass es ein wenig schwierig ist, zu entscheiden, was unternommen wird. Wenn Sie ein großes Loch in der Mitte des Datenraums haben, kann die Beschriftung in beide Richtungen erfolgen. Wie einige Witzbolde betonten, macht die Tatsache, dass das Ende des Tages und der Beginn der Nacht ineinander übergehen, die Unterscheidung zwischen Tag und Nacht weder sinnlos noch nutzlos.
Nick Cox
12

TL; DR-Version:

  • Die Interpolation erfolgt zwischen vorhandenen Datenpunkten.
  • Eine zusätzliche Polation findet darüber hinaus statt.

Mnemonik: in Terpolation => in Seite.

FWIW: Das Präfix bedeutet zwischen und Extra bedeutet darüber hinaus . Denken Sie auch an inter Staatsstraßen , die zwischen den Staaten zu gehen, oder zusätzliche Erdbewohner von jenseits unseres Planeten.

AC
quelle
1

Beispiel:

Studie: Willst du eine einfache lineare Regression auf die Größe auf das Alter für Mädchen im Alter von 6-15 Jahren passen. Die Stichprobengröße beträgt 100, das Alter wird berechnet nach (Messdatum - Geburtsdatum) / 365,25.

Nach der Datenerfassung ist das Modell fit und erhält die Schätzung des Abschnitts b0 und der Steigung b1. es bedeutet, dass wir E (Größe | Alter) = b0 + b1 * Alter haben.

Wenn Sie die Durchschnittsgröße für das Alter von 13 Jahren ermitteln möchten, stellen Sie fest, dass Ihre Stichprobe von 100 Mädchen kein 13-jähriges Mädchen enthält. Eines davon ist 12,83 Jahre alt und eines ist 13,24 Jahre alt.

Jetzt stecken Sie age = 13 in die Formel E (height | age) = b0 + b1 * age. Dies wird als Interpolation bezeichnet, da der Bereich Ihrer Daten, der für die Anpassung an das Modell verwendet wird, 13 Jahre alt ist.

Wenn Sie die Durchschnittsgröße für das 30. Lebensjahr ermitteln und diese Formel verwenden möchten, wird dies als Extrapolation bezeichnet, da das 30. Lebensjahr außerhalb des von Ihren Daten abgedeckten Altersbereichs liegt.

Wenn das Modell mehrere Kovariaten hat, müssen Sie vorsichtig sein, da es schwierig ist, den Rahmen zu ziehen, der von den Daten abgedeckt wird.

In der Statistik befürworten wir keine Hochrechnung.

user158565
quelle
"In der Statistik befürworten wir keine Extrapolation." Ein großer Teil der Zeitreihenanalyse macht genau das ....
Nick Cox