Ich habe einen Abschluss in Wirtschaftswissenschaften und studiere derzeit einen Master in Datentechnik. Während ich die lineare Regression (LR) und dann die Zeitreihenanalyse (TS) studierte, kam mir eine Frage in den Sinn. Warum eine völlig neue Methode erstellen, dh Zeitreihen (ARIMA), anstatt mehrere lineare Regressionen zu verwenden und verzögerte Variablen hinzuzufügen (wobei die Reihenfolge der Verzögerungen mit ACF und PACF bestimmt wird)? Deshalb schlug der Lehrer vor, dass ich einen kleinen Aufsatz über das Thema schreibe. Ich würde nicht mit leeren Händen nach Hilfe suchen, also recherchierte ich zu diesem Thema.
Ich wusste bereits, dass bei Verwendung von LR die OLS-Regression falsch ist, wenn die Gauß-Markov-Annahmen verletzt werden, und dass dies bei Verwendung von Zeitreihendaten (Autokorrelation usw.) der Fall ist. (Eine andere Frage dazu ist die Annahme des GM, dass die unabhängigen Variablen normal verteilt sein sollten - oder nur die abhängige Variable, die von den unabhängigen abhängig ist?)
Ich weiß auch, dass bei der Verwendung einer verteilten Verzögerungsregression, die ich hier vorschlage, und der Verwendung von OLS zur Schätzung von Parametern Multikollinearität zwischen Variablen (offensichtlich) auftreten kann, sodass Schätzungen falsch wären.
In einem ähnlichen Beitrag über TS und LR sagte @IrishStat:
Ein Regressionsmodell ist ein spezieller Fall eines Übertragungsfunktionsmodells, das auch als dynamisches Regressionsmodell oder XARMAX-Modell bezeichnet wird. Der hervorstechende Punkt ist die Modellidentifikation in Zeitreihen, dh die geeigneten Unterschiede, die geeigneten Verzögerungen der X, die geeignete ARIMA-Struktur, die geeignete Identifizierung nicht spezifizierter deterministischer Strukturen wie Impulse, Pegelverschiebungen, lokale Zeittrends, saisonale Impulse und Inkorporation Änderungen von Parametern oder Fehlervarianz müssen berücksichtigt werden.
(Ich habe auch seinen Artikel in Autobox über Box Jenkins vs LR gelesen.) Aber dies löst meine Frage immer noch nicht (oder zumindest klärt es nicht die unterschiedlichen Mechanismen von RL und TS für mich).
Es ist offensichtlich, dass auch bei verzögerten Variablen OLS-Probleme auftreten und diese weder effizient noch korrekt sind. Bestehen diese Probleme jedoch bei maximaler Wahrscheinlichkeit weiterhin? Ich habe gelesen, dass ARIMA durch die maximale Wahrscheinlichkeit geschätzt wird. Wenn also LR mit Verzögerungen mit ML anstelle von OLS geschätzt wird, liefert dies die "richtigen" Koeffizienten (nehmen wir an, dass wir auch verzögerte Fehlerterme einschließen, wie ein MA der Ordnung q).
Kurz gesagt, ist das Problem OLS? Ist das Problem mit ML gelöst?
Antworten:
Die Normalitätsannahme wird manchmal für Modellfehler aufgerufen, nicht für die unabhängigen Variablen. Normalität ist jedoch weder für die Konsistenz und Effizienz des OLS-Schätzers noch für das Gauß-Markov-Theorem erforderlich. In einem Wikipedia- Artikel zum Gauß-Markov-Theorem heißt es ausdrücklich: "Die Fehler müssen nicht normal sein."
Ein hohes Maß an Multikollinearität bedeutet eine überhöhte Varianz des OLS-Schätzers. Der OLS-Schätzer ist jedoch immer noch BLAU, solange die Multikollinearität nicht perfekt ist. Somit sieht deine Aussage nicht richtig aus.
Ein AR-Modell kann sowohl mit OLS als auch mit ML geschätzt werden. Beide Methoden liefern konsistente Schätzer. MA- und ARMA-Modelle können von OLS nicht geschätzt werden, daher ist ML die Hauptwahl. wieder ist es konsistent. Die andere interessante Eigenschaft ist Effizienz, und hier bin ich nicht ganz sicher (aber klar, die Informationen sollten irgendwo verfügbar sein, da die Frage ziemlich normal ist). Ich würde versuchen, "Korrektheit" zu kommentieren, aber ich bin mir nicht sicher, was Sie damit meinen.
quelle
Das ist eine gute Frage. Der wirkliche Unterschied zwischen ARIMA-Modellen und multipler linearer Regression liegt in Ihrer Fehlerstruktur. Sie können die unabhängigen Variablen in einem Modell mit mehreren linearen Regressionen so bearbeiten, dass sie zu Ihren Zeitreihendaten passen. Dies ist das, was @IrishStat sagt. Danach müssen Sie jedoch ARIMA-Fehler in Ihr multiples Regressionsmodell integrieren, um korrekte Koeffizienten und Testergebnisse zu erhalten. Ein großartiges kostenloses Buch dazu ist: https://www.otexts.org/fpp/9/1 . Ich habe den Abschnitt verknüpft, in dem die Kombination von ARIMA und mehreren Regressionsmodellen erläutert wird.
quelle
Gute Frage, ich habe tatsächlich beides in meinem Tagesjob als Data Scientist aufgebaut. Zeitreihenmodelle sind einfach zu erstellen (mit dem Prognosepaket in R können Sie eines in weniger als 5 Sekunden erstellen), genauso oder genauer als Regressionsmodelle usw. Im Allgemeinen sollte immer eine Zeitreihe erstellt werden, dann eine Regression. Es gibt auch philosophische Implikationen von Zeitreihen. Wenn Sie vorhersagen können, ohne etwas zu wissen, was bedeutet das dann?
Meine Einstellung zu Darlington. 1) "Die Regression ist viel flexibler und leistungsfähiger und führt zu besseren Modellen. Dieser Punkt wird an zahlreichen Stellen während der Arbeit entwickelt."
Nein, ganz im Gegenteil. Regressionsmodelle machen weit mehr Annahmen als Zeitreihenmodelle. Je weniger Annahmen gemacht werden, desto wahrscheinlicher ist es, dem Erdbeben standzuhalten (Regimewechsel). Darüber hinaus reagieren Zeitreihenmodelle schneller auf plötzliche Verschiebungen.
2) "Regression ist viel einfacher zu meistern als ARIMA, zumindest für diejenigen, die bereits mit der Verwendung von Regression in anderen Bereichen vertraut sind." Das ist Zirkelschluss.
3) "Regression" verwendet einen "geschlossenen" Berechnungsalgorithmus, der im Wesentlichen Ergebnisse liefert, wenn dies überhaupt möglich ist, während ARIMA und viele andere Methoden iterative Algorithmen verwenden, die häufig keine Lösung finden "Auf Daten, die der Regressionsmethode kein Problem gaben."
Regression gibt Ihnen eine Antwort, aber ist es die richtige Antwort? Was bedeutet es, wenn ich lineare Regressions- und maschinelle Lernmodelle aufbaue und alle zu dem gleichen Ergebnis kommen?
Zusammenfassend kann man also sagen, dass Regression und Zeitreihen dieselbe Frage beantworten können, und dass Zeitreihen technisch gesehen eine Regression sind (wenn auch eine automatische Regression). Zeitreihenmodelle sind weniger komplex und daher robuster als Regressionsmodelle. Wenn Sie über Spezialisierung nachdenken, sind TS-Modelle auf Prognosen spezialisiert, während Regression auf Verständnis spezialisiert ist. Es läuft darauf hinaus, ob Sie erklären oder vorhersagen möchten.
quelle
Wenn man bedenkt, dass der tiefste Unterschied zwischen Übertragungsfunktionen und linearer Mehrfachregression (in ihrer üblichen Verwendung) in ihren Zielen liegt, sind Mehrfachregressionen darauf ausgerichtet, die wichtigsten beobachtbaren kausalen Determinanten der abhängigen Variablen zu finden, während Übertragungsfunktionen lediglich die Auswirkung auf eine abhängige Variable vorhersagen möchten Variable der Variation einer bestimmten exogenen Variablen ... Zusammenfassend ist die multiple Regression auf eine erschöpfende Erklärung und Transferfunktion zur Vorhersage sehr spezifischer Effekte ausgerichtet ...
quelle