Ich erinnere mich, als Student in Statistikkursen gesessen zu haben, warum Hochrechnung eine schlechte Idee war. Darüber hinaus gibt es eine Vielzahl von Online-Quellen, die dies kommentieren. Es gibt auch eine Erwähnung hier .
Kann mir jemand helfen zu verstehen, warum Extrapolation eine schlechte Idee ist? Wenn ja, wie kommt es, dass Prognosetechniken nicht statistisch ungültig sind?
regression
time-series
forecasting
EIN MANN
quelle
quelle
Antworten:
Ein Regressionsmodell wird häufig zur Extrapolation verwendet, dh zur Vorhersage der Reaktion auf eine Eingabe, die außerhalb des Bereichs der Werte der Prädiktorvariablen liegt, die zum Anpassen des Modells verwendet wird. Die mit der Extrapolation verbundene Gefahr ist in der folgenden Abbildung dargestellt.
Das Regressionsmodell ist ein "konstruktionsbedingtes" Interpolationsmodell und sollte nicht für die Extrapolation verwendet werden, es sei denn, dies ist ordnungsgemäß begründet.
quelle
Dieser xkcd-Comic erklärt alles.
Anhand der Datenpunkte, die Cueball (der Mann mit dem Stock) hat, hat er extrapoliert, dass die Frau Ende nächsten Monats "vier Dutzend" Ehemänner haben wird, und diese Extrapolation verwendet, um zum Abschluss des Kaufs der Hochzeitstorte in loser Schüttung zu gelangen.
Edit 3: Für diejenigen von euch, die sagen "er hat nicht genug Datenpunkte", hier ist ein weiterer xkcd-Comic :
Hier wird die Verwendung des Wortes "nachhaltig" im Laufe der Zeit in einem Semi-Log-Diagramm dargestellt, und durch Extrapolation der Datenpunkte erhalten wir unzumutbare Schätzungen darüber, wie oft das Wort "nachhaltig" in Zukunft vorkommen wird.
Edit 2: Für diejenigen unter Ihnen, die sagen "Sie brauchen auch alle früheren Datenpunkte", noch ein xkcd-Comic:
Hier haben wir alle vergangenen Datenpunkte, aber wir können die Auflösung von Google Earth nicht genau vorhersagen. Beachten Sie, dass dies auch ein Semi-Log-Diagramm ist.
Edit: Manchmal sind sogar die stärksten Korrelationen (in diesem Fall r = 0,9979) einfach falsch.
Wenn Sie ohne weitere Belege extrapolieren, bedeutet ein Verstoß gegen die Korrelation keine Kausalität . eine weitere große Sünde in der Welt der Statistik.
Wenn Sie jedoch X mit Y extrapolieren, müssen Sie sicherstellen, dass Sie X mit nur Y genau vorhersagen können (genug, um Ihre Anforderungen zu erfüllen). Fast immer gibt es mehrere Faktoren als Auswirkung X.
Ich möchte einen Link zu einer anderen Antwort teilen , die dies mit den Worten von Nassim Nicholas Taleb erklärt.
quelle
"Vorhersagen sind sehr schwierig, besonders wenn es um die Zukunft geht." Das Zitat wird vielen Menschen in irgendeiner Form zugeschrieben . Ich beschränke mich in der folgenden "Extrapolation" auf "Vorhersage außerhalb des bekannten Bereichs" und in einer eindimensionalen Umgebung auf die Extrapolation von einer bekannten Vergangenheit in eine unbekannte Zukunft.
Also, was ist los mit der Hochrechnung. Erstens ist es nicht einfach, die Vergangenheit zu modellieren . Zweitens ist es schwer zu wissen, ob ein Modell aus der Vergangenheit für die Zukunft verwendet werden kann . Hinter beiden Behauptungen verbergen sich tiefe Fragen zur Kausalität oder Ergodizität, zum Ausreichen von Erklärungsvariablen usw., die durchaus fallabhängig sind. Was falsch ist, ist, dass es schwierig ist, ein einzelnes Extrapolationsschema zu wählen, das in verschiedenen Kontexten ohne viele zusätzliche Informationen gut funktioniert.
Prognosen können jedoch teilweise korrigiert werden. Neben anderen Antworten können einige Zutaten bei der praktischen Extrapolation hilfreich sein:
Vor kurzem war ich an einem Projekt zur Extrapolation von Werten für die Kommunikation von Simulationssubsystemen in einer Echtzeitumgebung beteiligt. Das Dogma in diesem Bereich war, dass Extrapolation Instabilität verursachen kann. Wir haben tatsächlich festgestellt, dass das Kombinieren der beiden oben genannten Inhaltsstoffe sehr effizient ist, ohne erkennbare Instabilität (ohne einen formalen Beweis, der noch vorliegt und derzeit geprüft wird ). Und die Extrapolation arbeitete mit einfachen Polynomen mit einem sehr geringen Rechenaufwand, wobei die meisten Operationen im Voraus berechnet und in Nachschlagetabellen gespeichert wurden.
Schließlich ist, wie Extrapolation lustiges Zeichnen nahelegt, der folgende Effekt der linearen Regression:
quelle
Obwohl die Anpassung eines Modells " gut " sein kann, muss die Extrapolation über den Datenbereich hinaus mit Skepsis behandelt werden. Der Grund dafür ist, dass in vielen Fällen die Extrapolation (leider und unvermeidlich) auf nicht testbaren Annahmen über das Verhalten der Daten beruht, die über ihre beobachtete Unterstützung hinausgehen.
Eine zusätzliche Einschränkung besteht darin, dass viele nicht parametrische Schätztechniken eine native Extrapolation nicht zulassen. Dieses Problem macht sich insbesondere bei der Glättung von Keilen bemerkbar, bei der keine Knoten mehr vorhanden sind, um den eingepassten Keil zu verankern.
Lassen Sie mich betonen, dass Extrapolation alles andere als böse ist. Beispielsweise sind numerische Methoden, die in der Statistik weit verbreitet sind (z. B. das Delta-Quadrat-Verfahren von Aitken und die Richardson-Extrapolation ), im Wesentlichen Extrapolationsschemata, die auf der Idee basieren, dass das zugrunde liegende Verhalten der für die beobachteten Daten analysierten Funktion über die Unterstützung der Funktion hinweg stabil bleibt.
quelle
Im Gegensatz zu anderen Antworten würde ich sagen, dass Extrapolation nichts Falsches ist, sofern sie nicht sinnlos verwendet wird. Beachten Sie zunächst, dass Hochrechnung ist :
... es ist also ein sehr weiter Begriff, und viele verschiedene Methoden, die von der einfachen linearen Extrapolation über die lineare Regression bis zur polynomialen Regression oder sogar einige fortgeschrittene Zeitreihen-Prognosemethoden reichen , passen zu dieser Definition. Tatsächlich hängen Extrapolation, Vorhersage und Prognose eng zusammen. In Statistiken , die wir oft machen Vorhersagen und Prognosen . Dies ist auch der Link, auf den Sie verweisen:
Viele Extrapolationsmethoden werden verwendet, um Vorhersagen zu treffen. Darüber hinaus funktionieren einige einfache Methoden oft recht gut mit kleinen Stichproben. Daher können die komplizierten Methoden bevorzugt werden. Das Problem ist, wie in anderen Antworten bemerkt, wenn Sie die Extrapolationsmethode nicht richtig anwenden.
Beispielsweise zeigen viele Studien, dass das Alter der sexuellen Initiation in westlichen Ländern mit der Zeit abnimmt. Sehen Sie sich eine Handlung an, die sich in den USA unter dem Alter des ersten Geschlechtsverkehrs befindet. Wenn wir blindlings die lineare Regression verwenden, um das Alter des ersten Geschlechtsverkehrs vorherzusagen, würden wir voraussagen, dass es in einigen Jahren unter Null geht (dementsprechend, wenn die erste Ehe und die erste Geburt irgendwann nach dem Tod stattfinden) Ein-Jahres-Prognose, dann würde ich vermuten, dass eine lineare Regression zu ziemlich genauen kurzfristigen Prognosen für den Trend führen würde.
(Quelle guttmacher.org )
Alle Modelle sind falsch , Extrapolation ist auch falsch, da Sie dadurch keine genauen Vorhersagen treffen können. Wie bei anderen mathematisch / statistischen Tools können Sie damit ungefähre Vorhersagen treffen . Inwieweit sie genau sind, hängt von der Qualität der Daten ab, über die Sie verfügen, und zwar unter Verwendung von Methoden, die für Ihr Problem geeignet sind, von den Annahmen, die Sie bei der Definition Ihres Modells getroffen haben, sowie von vielen anderen Faktoren. Das heißt aber nicht, dass wir solche Methoden nicht anwenden können. Wir können, aber wir müssen uns an ihre Grenzen erinnern und sollten ihre Qualität für ein bestimmtes Problem bewerten .
quelle
Ich mag das Beispiel von Nassim Taleb (das eine Adaption eines früheren Beispiels von Bertrand Russell war):
Einige mathematische Analoga sind die folgenden:
Die Kenntnis der ersten paar Taylor-Koeffizienten einer Funktion garantiert nicht immer, dass die nachfolgenden Koeffizienten Ihrem angenommenen Muster folgen.
Die Kenntnis der Anfangsbedingungen einer Differentialgleichung garantiert nicht immer die Kenntnis ihres asymptotischen Verhaltens (z. B. Lorenz-Gleichungen, die manchmal in den sogenannten "Schmetterlingseffekt" verzerrt sind).
Hier ist ein netter MO-Thread zu diesem Thema.
quelle
Denken Sie über die folgende Geschichte nach, wenn Sie so wollen.
Ich erinnere mich auch, in einem Statistikkurs gesessen zu haben, und der Professor sagte, Extrapolation sei eine schlechte Idee. Dann sagte er uns in der nächsten Stunde, es sei wieder eine schlechte Idee. Tatsächlich sagte er es zweimal.
Ich war für den Rest des Semesters krank, aber ich war mir sicher, dass ich nicht viel Material verpasst haben konnte, denn bis zur letzten Woche musste der Typ sicherlich nichts anderes getan haben, als den Leuten immer wieder zu erzählen, wie eine Hochrechnung eine schlechte Idee war .
Seltsamerweise habe ich bei der Prüfung nicht sehr gut abgeschnitten.
quelle
Die Frage ist nicht nur statistisch, sondern auch erkenntnistheoretisch. Extrapolation ist eine der Arten, wie wir etwas über die Natur lernen. Es ist eine Form der Induktion . Angenommen, wir haben Daten zur elektrischen Leitfähigkeit eines Materials in einem Temperaturbereich von 0 bis 20 Grad Celsius. Was können wir über die Leitfähigkeit bei 40 Grad Celsius sagen?
Dies hängt eng mit der Inferenz kleiner Stichproben zusammen: Was können wir über die gesamte Population aus Messungen an einer kleinen Stichprobe sagen? Dies wurde von Gosset als Guiness begonnen , der Student-T-Distributionen entwickelte. Vor ihm haben sich Statistiker keine Gedanken über kleine Stichproben gemacht, vorausgesetzt, die Stichprobengröße kann immer groß sein. Er war in Guinnes und musste sich mit Bierproben befassen, um zu entscheiden, was mit der gesamten Partie Bier geschehen sollte, um es zu versenden.
In der Praxis (Wirtschaft), im Ingenieurwesen und in den Naturwissenschaften müssen wir also immer in gewisser Weise extrapolieren. Es könnte sein, dass kleine Proben auf große extrapoliert werden oder dass ein begrenzter Bereich von Eingabebedingungen auf einen größeren Bereich von Bedingungen übertragen wird, von dem, was im Beschleuniger vor sich geht, bis zu dem, was in Milliarden von Kilometern Entfernung mit einem Schwarzen Loch passiert ist. Dies ist jedoch in der Wissenschaft besonders wichtig Wie wir wirklich lernen, indem wir die Diskrepanzen zwischen unseren Hochrechnungsschätzungen und den tatsächlichen Messungen untersuchen. Oft finden wir neue Phänomene, wenn die Abweichungen groß oder konsistent sind.
daher sage ich, dass es kein Problem mit der Extrapolation gibt. Das müssen wir jeden Tag tun. Es ist nur schwer.
quelle
Extrapolation selbst ist nicht unbedingt böse, aber es ist ein Prozess, der zu Schlussfolgerungen führt, die unvernünftiger sind, als Sie es mit Interpolation erreichen.
Betrachten Sie für die ultimative Hochrechnung das Manhattan-Projekt. Die dortigen Physiker waren gezwungen, mit extrem kleinen Tests zu arbeiten, bevor sie die reale Sache konstruierten. Sie hatten einfach nicht genug Uran, um es für Tests zu verschwenden. Sie taten das Beste, was sie konnten, und sie waren schlau. Als der letzte Test stattfand, wurde entschieden, dass jeder Wissenschaftler entscheiden würde, wie weit er von der Explosion entfernt sein wollte, als sie losging. Es gab erhebliche Meinungsverschiedenheiten darüber, inwieweit "sicher" ist, da jeder Wissenschaftler wusste, dass er weit von seinen Tests entfernt extrapoliert. Es gab sogar eine nicht triviale Überlegung, dass sie die Atmosphäre mit der Atombombe in Brand setzen könnten, ein Thema, das auch mit erheblicher Extrapolation behoben werden musste!
quelle
Viele gute Antworten hier, ich möchte nur versuchen, das, was ich als Kern des Problems sehe, zusammenzufassen: Es ist gefährlich, über den Datenerzeugungsprozess hinaus zu extrapolieren, der die Schätzungsstichprobe ausgelöst hat. Dies wird manchmal als "Strukturwandel" bezeichnet.
Für die Prognose werden Annahmen zugrunde gelegt. Die Hauptannahme besteht darin, dass der Datenerzeugungsprozess (so gut wie kein wesentlicher Unterschied besteht) dem entspricht, der die Stichprobe erzeugt hat (mit Ausnahme der rhs-Variablen, deren Änderungen Sie explizit im Modell berücksichtigen). . Wenn eine strukturelle Änderung eintritt (z. B. Thanksgiving in Talebs Beispiel), sind alle Wetten ungültig.
quelle