Was halten Sie von der Verwendung von Regression für Projekte außerhalb des Datenbereichs? Wenn wir sicher sind, dass es einer linearen oder Potenzmodellform folgt, könnte das Modell dann nicht über den Datenbereich hinaus nützlich sein? Zum Beispiel habe ich das Volumen vom Preis getrieben. Wir sollten in der Lage sein, Preise außerhalb des Datenbereichs zu prognostizieren, glaube ich. Ihre Gedanken?
VOL PRICE
3044 4.97
2549 4.97
3131 4.98
2708 4.98
2860 4.98
2907 4.98
3107 4.98
3194 4.98
2753 4.98
3228 4.98
3019 4.98
3077 4.99
2597 4.99
2706 4.99
3000 4.99
3022 4.99
3084 4.99
3973 4.99
3675 4.99
3065 4.99
3407 4.99
2359 4.99
2802 4.99
2589 4.99
2476 4.99
2387 5
3265 5
2039 5.14
1842 5.15
2660 5.37
1796 5.46
1734 5.46
1881 5.46
2204 5.58
1477 5.77
1620 5.84
1909 5.87
1744 5.87
1247 5.87
1848 5.88
1641 5.88
1758 5.88
1718 5.88
1656 5.88
1822 5.88
1556 5.89
1643 5.9
1850 5.91
1901 5.91
1837 5.91
1773 5.92
1729 5.92
regression
dataset
linear-model
Johnson Jason
quelle
quelle
Antworten:
Ich bin nicht sicher, welche Software Sie verwenden, aber fast alle geben die Hutmatrix mit dem richtigen Befehl zurück. Ich schlage vor, Sie werfen einen Blick darauf, bevor Sie sich entscheiden.
quelle
Der Vorhersagefehler nimmt quadratisch mit dem Abstand vom Mittelwert zu. Mit der Regressionsgleichung und den Ergebnissen können Sie die Größe des Fehlers über den beobachteten Datenbereich messen, und das Modell ist nur über denselben Bereich ausreichend.
Außerhalb dieses Bereichs können viele Dinge passieren. Erstens wird die Vorhersage aufgrund der Zunahme des Vorhersagefehlers immer schlechter.
Zweitens kann das Modell vollständig ausfallen. Der einfachste Weg, dies zu erkennen, besteht darin, ein Modell zu projizieren, das den Preis mit der Zeit in Beziehung setzt: Sie können keine Vorhersagen für eine negative Zeit treffen.
Drittens kann die lineare Beziehung unzureichend sein. In Ihrem Beispiel gibt es mit ziemlicher Sicherheit Skaleneffekte, die sich sehr bemerkbar machen würden, wenn Sie versuchen, weit außerhalb des Bereichs der beobachteten Werte vorherzusagen.
Ein humorvolles Beispiel für diesen Effekt findet sich in einem der Werke von Mark Twain , in dem er versucht, die Länge des Mississippi im Laufe der Zeit zu modellieren - es war ziemlich windig und verkürzte sich jedes Jahr aufgrund der Erosion einiger von den Kurven sowie von Menschen gemachten Abkürzungen - und "sagt" voraus, dass in so vielen Jahren die Entfernung zwischen Kairo, Illinois und New Orleans auf ungefähr eine Meile und drei Viertel geschrumpft sein wird).
Beachten Sie schließlich, dass der Bereich der beobachteten Werte sehr kompliziert sein kann, wenn Sie mehr als eine Prädiktorvariable haben. (Aufgrund von Korrelationen zwischen den Prädiktoren können Sie häufig nicht einfach das Feld nehmen, das durch die Maxima und Minima in jedem Prädiktor definiert ist.)
quelle
Sie können keine datengesteuerten Entscheidungen für Bereiche treffen, in denen Sie keine Daten haben. Ende der Geschichte. Die Daten können sehr gut eine lineare Form unterstützen, für deren Bereich Ihre Daten erfasst werden. Sie haben jedoch keine datengesteuerten Gründe zu der Annahme, dass diese Form außerhalb Ihres Bereichs weiterhin linear ist. Es könnte jede Form unter der Sonne sein!
Du könntest davon ausgehen, dass die lineare Form außerhalb Ihres Datenbereichs fortgesetzt wird. Dies ist jedoch eine subjektive Annahme, die von den von Ihnen gesammelten Daten nicht unterstützt wird. Ich würde vorschlagen, einen Fachexperten zu konsultieren, um anhand seines Fachwissens zu prüfen, wie sicher diese Annahme ist.
quelle