Regression verwenden, um außerhalb des Datenbereichs zu projizieren ok? nie ok? manchmal ok?

9

Was halten Sie von der Verwendung von Regression für Projekte außerhalb des Datenbereichs? Wenn wir sicher sind, dass es einer linearen oder Potenzmodellform folgt, könnte das Modell dann nicht über den Datenbereich hinaus nützlich sein? Zum Beispiel habe ich das Volumen vom Preis getrieben. Wir sollten in der Lage sein, Preise außerhalb des Datenbereichs zu prognostizieren, glaube ich. Ihre Gedanken?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92
Johnson Jason
quelle
1
Hängt davon ab, wie gut Ihre Annahmen außerhalb des Datenbereichs gelten. Die Vorhersage von für nicht beobachtete x ist der ganze Grund, warum Sie überhaupt eine Regression durchführen. yx
Ben
3
Selbst wenn Sie wirklich, wirklich sicher sind, dass die lineare Beziehung über den Bereich der Prädiktoren in Ihrer Stichprobe von n Beobachtungen hinausgeht , gibt es einen Term in der Varianz der vorhergesagten Antwort für eine neue Beobachtung x - nämlich ( x - ˉ x ) 2x1,,xnnx(x- -x¯)2ichn(xich- -x¯)2
Ben Ich stimme eher zu. Ist es nicht der springende Punkt, y für nicht beobachtete X vorherzusagen? Sonst warum überhaupt eine Regression? Vielleicht könnte es verantwortlich sein, ein Limit dafür festzulegen, wie weit ich mich von dem beobachteten Datenbereich entfernen darf. Sicherlich wären 10% sicher .. nein?
Johnson Jason
Mein Lieblingsmaßstab zu diesem Thema ist bmj.com/content/317/7155/409 .
Carlo Lazzaro
@ Ben, @ Johnson - Vielleicht ein Streit. Es gibt eine andere Verwendung für die Regression. Es kann verwendet werden, um zu erklären, anstatt vorherzusagen. Ich denke, besonders in den Sozialwissenschaften ist dies eine wichtige Anwendung der Regression. Ich habe viele Argumente gelesen wie Wir denken, dass (Variablen) A Effekt Ergebnis B, wir führen eine Regression durch, stellen fest, dass das 95% -Konfidenzintervall der Koeffizienten von A keine 0 enthält, und wir schließen daraus, dass es gibt eine Beziehung der Form A verursacht B. Übrigens ist das nichts, was ich jemals mache!
meh

Antworten:

13

X.

H.=X.(X.T.X.)- -1X.

H.0<H.ichich<1, ich=1,,nH.ichich

H.new,new=xnewT.(X.T.X.)- -1xnew

H.new,new

Ich bin nicht sicher, welche Software Sie verwenden, aber fast alle geben die Hutmatrix mit dem richtigen Befehl zurück. Ich schlage vor, Sie werfen einen Blick darauf, bevor Sie sich entscheiden.

JohnK
quelle
Gut gemacht, JohnK, das ist sehr hilfreich. Zu Ihrer Information Ich verwende die Excel-Regression.
Johnson Jason
9

Der Vorhersagefehler nimmt quadratisch mit dem Abstand vom Mittelwert zu. Mit der Regressionsgleichung und den Ergebnissen können Sie die Größe des Fehlers über den beobachteten Datenbereich messen, und das Modell ist nur über denselben Bereich ausreichend.

Außerhalb dieses Bereichs können viele Dinge passieren. Erstens wird die Vorhersage aufgrund der Zunahme des Vorhersagefehlers immer schlechter.

Zweitens kann das Modell vollständig ausfallen. Der einfachste Weg, dies zu erkennen, besteht darin, ein Modell zu projizieren, das den Preis mit der Zeit in Beziehung setzt: Sie können keine Vorhersagen für eine negative Zeit treffen.

Drittens kann die lineare Beziehung unzureichend sein. In Ihrem Beispiel gibt es mit ziemlicher Sicherheit Skaleneffekte, die sich sehr bemerkbar machen würden, wenn Sie versuchen, weit außerhalb des Bereichs der beobachteten Werte vorherzusagen.

Ein humorvolles Beispiel für diesen Effekt findet sich in einem der Werke von Mark Twain , in dem er versucht, die Länge des Mississippi im Laufe der Zeit zu modellieren - es war ziemlich windig und verkürzte sich jedes Jahr aufgrund der Erosion einiger von den Kurven sowie von Menschen gemachten Abkürzungen - und "sagt" voraus, dass in so vielen Jahren die Entfernung zwischen Kairo, Illinois und New Orleans auf ungefähr eine Meile und drei Viertel geschrumpft sein wird).

Beachten Sie schließlich, dass der Bereich der beobachteten Werte sehr kompliziert sein kann, wenn Sie mehr als eine Prädiktorvariable haben. (Aufgrund von Korrelationen zwischen den Prädiktoren können Sie häufig nicht einfach das Feld nehmen, das durch die Maxima und Minima in jedem Prädiktor definiert ist.)

user3697176
quelle
1
(+1) Obwohl zu sagen ist, dass das Modell nur über den Bereich der beobachteten Daten angemessen ist, ist es ein bisschen stark - es ist so, dass die Probleme, die Sie beschreiben, immer mehr in Bezug darauf, je weiter Sie davon entfernt sind.
Scortchi - Monica wieder einsetzen
Gibt es also eine Lösung dafür, wie weit ein sicherer Abstand vom beobachteten Datenbereich entfernt ist? Weniger als 1 Standardabweichung in Ordnung?
Johnson Jason
1
@ Scortchi. Punkt genommen. In den meisten Situationen erfolgt die Verschlechterung des Modells allmählich. Gelegentlich gibt es jedoch harte Grenzen, und der Versuch, darüber hinauszugehen, wird Kummer verursachen.
user3697176
1
@ JohnsonJason: Es macht keinen Sinn, nach einer Faustregel zu suchen. Sie können Vorhersageintervalle einfach berechnen, vorausgesetzt, Ihr Modell kann extrapoliert werden. Inwieweit Sie der Extrapolation vertrauen können, hängt vom Fachwissen ab: Was akzeptabel ist, variiert von Fall zu Fall.
Scortchi - Monica wieder einsetzen
1
Hervorragende Punkte (+1). Es ist jedoch kein logisches Problem, den Preis für eine negative Zeit vorherzusagen. Das eigentliche Problem ist, wenn Sie für eine bestimmte Zeit einen negativen Preis vorhersagen (normalerweise in der Vergangenheit, in der Praxis). Oft bedeutet dies, dass das Modell qualitativ falsch ist, da die Extrapolation eine Linie (oder Kurve) zu weit streckt. Eine logarithmische Verknüpfungsfunktion impliziert beispielsweise immer positive Vorhersagen.
Nick Cox
4

Sie können keine datengesteuerten Entscheidungen für Bereiche treffen, in denen Sie keine Daten haben. Ende der Geschichte. Die Daten können sehr gut eine lineare Form unterstützen, für deren Bereich Ihre Daten erfasst werden. Sie haben jedoch keine datengesteuerten Gründe zu der Annahme, dass diese Form außerhalb Ihres Bereichs weiterhin linear ist. Es könnte jede Form unter der Sonne sein!

Du könntest davon ausgehen, dass die lineare Form außerhalb Ihres Datenbereichs fortgesetzt wird. Dies ist jedoch eine subjektive Annahme, die von den von Ihnen gesammelten Daten nicht unterstützt wird. Ich würde vorschlagen, einen Fachexperten zu konsultieren, um anhand seines Fachwissens zu prüfen, wie sicher diese Annahme ist.

TrynnaDoStat
quelle
2
Also, was
Johnson Jason
2
Ich denke, der Punkt ist, dass Sie immer noch innerhalb des Bereichs vorhersagen können. Es ist einfach nicht ratsam, außerhalb des Bereichs vorherzusagen. Vermutlich würden die meisten neuen Datenpunkte innerhalb des Bereichs liegen, so dass das Modell die meiste Zeit nützlich bleiben würde
Ryan Zotti