Was ist der Unterschied zwischen Extrapolation und Interpolation und wie werden diese Begriffe am genauesten verwendet?
Zum Beispiel habe ich eine Aussage in einer Arbeit gesehen, in der Interpolation verwendet wurde als:
Die Prozedur interpoliert die Form der geschätzten Funktion zwischen den Bin-Punkten.
Ein Satz, der sowohl Extrapolation als auch Interpolation verwendet, ist zum Beispiel:
Im vorherigen Schritt haben wir die interpolierte Funktion mithilfe der Kernel-Methode auf den linken und rechten Temperaturschwanz extrapoliert.
Kann jemand eine klare und einfache Methode zur Unterscheidung und Anleitung zur korrekten Verwendung dieser Begriffe mit einem Beispiel bereitstellen?
terminology
interpolation
extrapolation
Frank Swanton
quelle
quelle
Antworten:
So fügen Sie eine visuelle Erklärung hinzu: Betrachten wir einige Punkte, die Sie modellieren möchten.
Sie sehen so aus, als könnten sie mit einer geraden Linie gut beschrieben werden, sodass Sie eine lineare Regression an sie anpassen:
Mit dieser Regressionslinie können Sie sowohl interpolieren (erwartete Werte zwischen Ihren Datenpunkten generieren) als auch extrapolieren (erwartete Werte außerhalb des Bereichs Ihrer Datenpunkte generieren). Ich habe die Extrapolation in Rot und den größten Interpolationsbereich in Blau hervorgehoben. Klar, auch die winzigen Bereiche zwischen den Punkten werden interpoliert, aber ich hebe hier nur den großen hervor.
Warum ist Extrapolation im Allgemeinen ein größeres Problem? Weil Sie sich in der Regel über die Form der Beziehung außerhalb des Bereichs Ihrer Daten weniger sicher sind. Überlegen Sie, was passieren kann, wenn Sie weitere Datenpunkte (hohle Kreise) erfassen:
Es stellt sich heraus, dass die Beziehung mit Ihrer hypothetischen Beziehung doch nicht gut aufgenommen wurde. Die Vorhersagen in der extrapolierten Region sind weit entfernt. Selbst wenn Sie die genaue Funktion, die diese nichtlineare Beziehung beschreibt, richtig erraten haben, reichten Ihre Daten nicht aus, um die Nichtlinearität gut zu erfassen, sodass Sie möglicherweise noch ziemlich weit weg waren. Beachten Sie, dass dies nicht nur ein Problem für die lineare Regression ist, sondern für jede Beziehung - daher wird die Extrapolation als gefährlich angesehen.
Vorhersagen im interpolierten Bereich sind auch aufgrund der fehlenden Nichtlinearität der Anpassung falsch, ihr Vorhersagefehler ist jedoch viel geringer. Es gibt keine Garantie, dass Sie keine unerwartete Beziehung zwischen Ihren Punkten (dh dem Interpolationsbereich) haben, aber es ist im Allgemeinen weniger wahrscheinlich.
Ich werde hinzufügen, dass Extrapolation nicht immer eine schreckliche Idee ist - wenn Sie ein kleines Stück außerhalb des Bereichs Ihrer Daten extrapolieren, werden Sie wahrscheinlich nicht sehr falsch liegen (obwohl es möglich ist!). Ältere Menschen, die kein gutes wissenschaftliches Modell der Welt hatten, hätten nicht viel falsch gelegen, wenn sie vorausgesagt hätten, dass die Sonne am nächsten Tag und am nächsten Tag wieder aufgehen würde (auch wenn dies einen Tag in der Zukunft scheitern wird).
Und manchmal kann eine Extrapolation sogar informativ sein - zum Beispiel waren einfache kurzfristige Extrapolationen des exponentiellen Anstiegs des atmosphärischen in den letzten Jahrzehnten ziemlich genau. Wenn Sie ein Student wären, der nicht über wissenschaftliches Fachwissen verfügt, aber eine grobe, kurzfristige Prognose wünscht, hätte dies zu ziemlich vernünftigen Ergebnissen geführt. Aber je weiter Sie von Ihren Daten entfernt sind, desto wahrscheinlicher ist es, dass Ihre Vorhersage fehlschlägt und katastrophal ausfällt, wie in diesem großartigen Thread beschrieben: Was ist falsch an der Extrapolation? (Danke an @JMisnotastatistician, der mich daran erinnert hat).2
Bearbeitung basierend auf Kommentaren: Ob interpolierend oder extrapolierend, es ist immer am besten, eine Theorie zu haben, um die Erwartungen zu begründen. Wenn eine theoretische Modellierung durchgeführt werden muss, ist das Risiko durch Interpolation in der Regel geringer als das durch Extrapolation. Mit zunehmender Größe der Lücke zwischen den Datenpunkten wird jedoch auch die Interpolation immer risikobehafteter.
quelle
Im Wesentlichen ist Interpolation eine Operation innerhalb des Datenträgers oder zwischen vorhandenen bekannten Datenpunkten; Extrapolation geht über die Datenunterstützung hinaus . Ansonsten lautet das Kriterium: Wo sind die fehlenden Werte?
Ein Grund für die Unterscheidung ist, dass die Extrapolation in der Regel schwieriger und sogar gefährlicher ist, wenn nicht sogar in der Praxis. Dies ist nicht immer der Fall: Zum Beispiel können Flussfluten die Messmittel für die Einleitung oder sogar die Stufe (vertikale Ebene) überfordern und ein Loch in die Messaufzeichnung reißen. Unter diesen Umständen ist auch die Interpolation der Entladung oder des Stadiums schwierig und es hilft nicht viel, sich in der Datenunterstützung zu befinden.
Auf lange Sicht ersetzt die qualitative Veränderung gewöhnlich die quantitative Veränderung. Um 1900 gab es große Bedenken, dass das Wachstum des Pferdeverkehrs die Städte mit größtenteils unerwünschten Exkrementen überfluten würde. Das Exponential an Exkrementen wurde von der Brennkraftmaschine und ihren unterschiedlichen Exponentialen abgelöst.
quelle
TL; DR-Version:
Mnemonik: in Terpolation => in Seite.
FWIW: Das Präfix bedeutet zwischen und Extra bedeutet darüber hinaus . Denken Sie auch an inter Staatsstraßen , die zwischen den Staaten zu gehen, oder zusätzliche Erdbewohner von jenseits unseres Planeten.
quelle
Beispiel:
Studie: Willst du eine einfache lineare Regression auf die Größe auf das Alter für Mädchen im Alter von 6-15 Jahren passen. Die Stichprobengröße beträgt 100, das Alter wird berechnet nach (Messdatum - Geburtsdatum) / 365,25.
Nach der Datenerfassung ist das Modell fit und erhält die Schätzung des Abschnitts b0 und der Steigung b1. es bedeutet, dass wir E (Größe | Alter) = b0 + b1 * Alter haben.
Wenn Sie die Durchschnittsgröße für das Alter von 13 Jahren ermitteln möchten, stellen Sie fest, dass Ihre Stichprobe von 100 Mädchen kein 13-jähriges Mädchen enthält. Eines davon ist 12,83 Jahre alt und eines ist 13,24 Jahre alt.
Jetzt stecken Sie age = 13 in die Formel E (height | age) = b0 + b1 * age. Dies wird als Interpolation bezeichnet, da der Bereich Ihrer Daten, der für die Anpassung an das Modell verwendet wird, 13 Jahre alt ist.
Wenn Sie die Durchschnittsgröße für das 30. Lebensjahr ermitteln und diese Formel verwenden möchten, wird dies als Extrapolation bezeichnet, da das 30. Lebensjahr außerhalb des von Ihren Daten abgedeckten Altersbereichs liegt.
Wenn das Modell mehrere Kovariaten hat, müssen Sie vorsichtig sein, da es schwierig ist, den Rahmen zu ziehen, der von den Daten abgedeckt wird.
In der Statistik befürworten wir keine Hochrechnung.
quelle