Was ist / sind die "mechanischen" Unterschiede zwischen multipler linearer Regression mit Verzögerungen und Zeitreihen?

13

Ich habe einen Abschluss in Wirtschaftswissenschaften und studiere derzeit einen Master in Datentechnik. Während ich die lineare Regression (LR) und dann die Zeitreihenanalyse (TS) studierte, kam mir eine Frage in den Sinn. Warum eine völlig neue Methode erstellen, dh Zeitreihen (ARIMA), anstatt mehrere lineare Regressionen zu verwenden und verzögerte Variablen hinzuzufügen (wobei die Reihenfolge der Verzögerungen mit ACF und PACF bestimmt wird)? Deshalb schlug der Lehrer vor, dass ich einen kleinen Aufsatz über das Thema schreibe. Ich würde nicht mit leeren Händen nach Hilfe suchen, also recherchierte ich zu diesem Thema.

Ich wusste bereits, dass bei Verwendung von LR die OLS-Regression falsch ist, wenn die Gauß-Markov-Annahmen verletzt werden, und dass dies bei Verwendung von Zeitreihendaten (Autokorrelation usw.) der Fall ist. (Eine andere Frage dazu ist die Annahme des GM, dass die unabhängigen Variablen normal verteilt sein sollten - oder nur die abhängige Variable, die von den unabhängigen abhängig ist?)

Ich weiß auch, dass bei der Verwendung einer verteilten Verzögerungsregression, die ich hier vorschlage, und der Verwendung von OLS zur Schätzung von Parametern Multikollinearität zwischen Variablen (offensichtlich) auftreten kann, sodass Schätzungen falsch wären.

In einem ähnlichen Beitrag über TS und LR sagte @IrishStat:

Ein Regressionsmodell ist ein spezieller Fall eines Übertragungsfunktionsmodells, das auch als dynamisches Regressionsmodell oder XARMAX-Modell bezeichnet wird. Der hervorstechende Punkt ist die Modellidentifikation in Zeitreihen, dh die geeigneten Unterschiede, die geeigneten Verzögerungen der X, die geeignete ARIMA-Struktur, die geeignete Identifizierung nicht spezifizierter deterministischer Strukturen wie Impulse, Pegelverschiebungen, lokale Zeittrends, saisonale Impulse und Inkorporation Änderungen von Parametern oder Fehlervarianz müssen berücksichtigt werden.

(Ich habe auch seinen Artikel in Autobox über Box Jenkins vs LR gelesen.) Aber dies löst meine Frage immer noch nicht (oder zumindest klärt es nicht die unterschiedlichen Mechanismen von RL und TS für mich).

Es ist offensichtlich, dass auch bei verzögerten Variablen OLS-Probleme auftreten und diese weder effizient noch korrekt sind. Bestehen diese Probleme jedoch bei maximaler Wahrscheinlichkeit weiterhin? Ich habe gelesen, dass ARIMA durch die maximale Wahrscheinlichkeit geschätzt wird. Wenn also LR mit Verzögerungen mit ML anstelle von OLS geschätzt wird, liefert dies die "richtigen" Koeffizienten (nehmen wir an, dass wir auch verzögerte Fehlerterme einschließen, wie ein MA der Ordnung q).

Kurz gesagt, ist das Problem OLS? Ist das Problem mit ML gelöst?

Miguel M.
quelle
4
Unheimliche Ähnlichkeit mit John Maynard Keynes.
Nick Cox
Hi @NickCox, ja, er ist mein Lieblingsökonom, ich denke, er war ein erstaunlicher Mann und in vielerlei Hinsicht äußerst talentiert ... irgendeine Hilfe bei meiner Frage? Ich versuche herauszufinden, warum das verzögerte Modell nicht mit der OLS-Schätzung funktioniert und ob es mit der Maximalwahrscheinlichkeitsschätzung korrekt schätzt. Ich verstehe, dass das beste Modell eine Übertragungsfunktion ist und studiere sie derzeit. Die theoretische Frage zu OLS bleibt jedoch bestehen. Wenn keine Autokorrelation vorhanden wäre, weil die Verzögerungen sie beseitigen (nehmen Sie auch an, dass Multicoll nicht vorhanden ist), würde es funktionieren? oder gibt es noch und zugrunde liegenden
Miguel M.
@NickCox ... Wirkung / Verletzung von Gaußschen Annahmen, mit denen OLS nicht arbeiten kann und die mit dieser Methode nicht angepasst werden können? Wie Sie sehen, bin ich ein bisschen verloren, wenn es zu lang ist, um zu antworten, bitte, wenn Sie einen Vortrag halten können, der mich vielleicht auch aufklären würde
Miguel M.
1
In Bezug auf die Mechanik möchte ich vorschlagen, dass das ARMA-Modell für den Benutzer die vorgeschlagene (entsprechend differenzierte) X-Variable die Nichtstationarität widerspiegelt. Wenn der Filter auf BEIDE entsprechend differenzierten Reihen angewendet wird, kann das resultierende Reihenpaar häufig über Kreuzkorrelationsverfahren untersucht werden Daraus ergibt sich eine vorgeschlagene Verzögerungsstruktur (Verständnis). Diese Verzögerungsstruktur kann dann auf die entsprechend differenzierten Originalserien angewendet werden, um einen Vorschlag für die nicht spezifizierten / Hintergrundserien (den vorläufigen Fehlerprozess) zu erhalten. Dieser Fehlerprozess kann dann untersucht werden, um das entsprechende ARMA zu erhalten.
IrishStat
@IrishStat also bitte lassen Sie mich umformulieren, was Sie gerade gesagt haben. Lassen Sie uns die abhängige Variable Yt und die unabhängige Variable Xt haben, wir unterscheiden sowohl Yt als auch Xt, bis wir in beiden Stationarität haben, und dann können wir die Kreuzkorrelationsfunktion anwenden, um die Verzögerungsstruktur herauszufinden. Danach bilden wir Yt zu Xt zurück und untersuchen den Fehlerausdruck. Wenn wir die ARMA-Struktur im Fehlerbegriff finden, wenden wir sie im Modell an, bis wir weißes Rauschen haben, richtig? Aber meine Frage ist immer noch, ist das letzte Modell über OLS ausgestattet? Wenn nein, warum nicht und nach welcher Methode?
Miguel M.

Antworten:

8

Warum eine völlig neue Methode erstellen, dh Zeitreihen (ARIMA), anstatt mehrere lineare Regressionen zu verwenden und verzögerte Variablen hinzuzufügen (wobei die Reihenfolge der Verzögerungen mit ACF und PACF bestimmt wird)?

β^OLS=(XX)1XyXund daher ist der OLS-Schätzer nicht durchführbar.

Eine GM-Annahme ist, dass die unabhängigen Variablen normalverteilt sein sollten. oder nur die abhängige Variable, die von den unabhängigen abhängig ist?

Die Normalitätsannahme wird manchmal für Modellfehler aufgerufen, nicht für die unabhängigen Variablen. Normalität ist jedoch weder für die Konsistenz und Effizienz des OLS-Schätzers noch für das Gauß-Markov-Theorem erforderlich. In einem Wikipedia- Artikel zum Gauß-Markov-Theorem heißt es ausdrücklich: "Die Fehler müssen nicht normal sein."

Multikollinearität zwischen Variablen kann (offensichtlich) auftreten, sodass Schätzungen falsch wären.

Ein hohes Maß an Multikollinearität bedeutet eine überhöhte Varianz des OLS-Schätzers. Der OLS-Schätzer ist jedoch immer noch BLAU, solange die Multikollinearität nicht perfekt ist. Somit sieht deine Aussage nicht richtig aus.

Es ist offensichtlich, dass auch bei verzögerten Variablen OLS-Probleme auftreten und diese weder effizient noch korrekt sind. Bestehen diese Probleme jedoch bei maximaler Wahrscheinlichkeit weiterhin?

Ein AR-Modell kann sowohl mit OLS als auch mit ML geschätzt werden. Beide Methoden liefern konsistente Schätzer. MA- und ARMA-Modelle können von OLS nicht geschätzt werden, daher ist ML die Hauptwahl. wieder ist es konsistent. Die andere interessante Eigenschaft ist Effizienz, und hier bin ich nicht ganz sicher (aber klar, die Informationen sollten irgendwo verfügbar sein, da die Frage ziemlich normal ist). Ich würde versuchen, "Korrektheit" zu kommentieren, aber ich bin mir nicht sicher, was Sie damit meinen.

Richard Hardy
quelle
Hallo Herr Hardy, vielen Dank für die Antwort. In Bezug auf die beobachteten und nicht beobachteten Werte, nur um es zusammenzufassen. In ARIMA und Zeitreihen (genauer gesagt XARIMAX) verwenden wir einen "dynamischen" Ansatz, da wir den Vorhersagefehler verwenden, und in der linearen Regression verwenden wir sie nicht - aber wir könnten sie trotzdem verwenden. Ich verstehe dann das Thema hier nicht. Oder, wie @IrishStat sagt, der einzige Unterschied ist der Weg zur Identifizierung und zur Modellrevision?
Miguel M.
Und was ist mit der Schätzung, ist OLS (wieder) korrekt, wenn verzögerte Fehler in das Modell aufgenommen werden? In Bezug auf Multicolinearität habe ich gemeint, dass die geschätzten Koeffizienten möglicherweise nicht korrekt sind, da ihre Schätzung eine große Varianz aufweist. Mit der richtigen Methode meinte ich, wenn die Verwendung von OLS unvoreingenommene und effiziente Schätzungen im Vergleich zu ML ergibt, wenn die vorgeschlagenen verzögerten Modelle verwendet werden.
Miguel M.
@ MiguelM, ich reise jetzt, ich werde versuchen, später wiederzukommen.
Richard Hardy
1
In Bezug auf "In der linearen Regression verwenden wir sie nicht - aber wir könnten sie trotzdem verwenden": Wir beobachten diese Variablen nicht und können sie daher aufgrund der dortigen Mechanismen nicht im Rahmen der linearen Regression verwenden (wie ich in der Antwort bemerkte, der Schätzer ist nicht realisierbar); Sie können jedoch im ARIMA-Framework verwendet werden. In Bezug auf "Ist OLS (wieder) korrekt, wenn verzögerte Fehler in das Modell einbezogen werden?" Sollte dies zutreffen. In Bezug auf "Korrektheit" sollten beide einwandfrei funktionieren, wenn das Modell korrekt spezifiziert ist und sowohl OLS als auch ML durchführbar sind. Bei falscher Angabe neigen die Dinge dazu, schief zu gehen.
Richard Hardy
1
y=β0+β1x+εxy=β0+β1x+εx
5

Das ist eine gute Frage. Der wirkliche Unterschied zwischen ARIMA-Modellen und multipler linearer Regression liegt in Ihrer Fehlerstruktur. Sie können die unabhängigen Variablen in einem Modell mit mehreren linearen Regressionen so bearbeiten, dass sie zu Ihren Zeitreihendaten passen. Dies ist das, was @IrishStat sagt. Danach müssen Sie jedoch ARIMA-Fehler in Ihr multiples Regressionsmodell integrieren, um korrekte Koeffizienten und Testergebnisse zu erhalten. Ein großartiges kostenloses Buch dazu ist: https://www.otexts.org/fpp/9/1 . Ich habe den Abschnitt verknüpft, in dem die Kombination von ARIMA und mehreren Regressionsmodellen erläutert wird.

LindsayL
quelle
1

Gute Frage, ich habe tatsächlich beides in meinem Tagesjob als Data Scientist aufgebaut. Zeitreihenmodelle sind einfach zu erstellen (mit dem Prognosepaket in R können Sie eines in weniger als 5 Sekunden erstellen), genauso oder genauer als Regressionsmodelle usw. Im Allgemeinen sollte immer eine Zeitreihe erstellt werden, dann eine Regression. Es gibt auch philosophische Implikationen von Zeitreihen. Wenn Sie vorhersagen können, ohne etwas zu wissen, was bedeutet das dann?

Meine Einstellung zu Darlington. 1) "Die Regression ist viel flexibler und leistungsfähiger und führt zu besseren Modellen. Dieser Punkt wird an zahlreichen Stellen während der Arbeit entwickelt."

Nein, ganz im Gegenteil. Regressionsmodelle machen weit mehr Annahmen als Zeitreihenmodelle. Je weniger Annahmen gemacht werden, desto wahrscheinlicher ist es, dem Erdbeben standzuhalten (Regimewechsel). Darüber hinaus reagieren Zeitreihenmodelle schneller auf plötzliche Verschiebungen.

2) "Regression ist viel einfacher zu meistern als ARIMA, zumindest für diejenigen, die bereits mit der Verwendung von Regression in anderen Bereichen vertraut sind." Das ist Zirkelschluss.

3) "Regression" verwendet einen "geschlossenen" Berechnungsalgorithmus, der im Wesentlichen Ergebnisse liefert, wenn dies überhaupt möglich ist, während ARIMA und viele andere Methoden iterative Algorithmen verwenden, die häufig keine Lösung finden "Auf Daten, die der Regressionsmethode kein Problem gaben."

Regression gibt Ihnen eine Antwort, aber ist es die richtige Antwort? Was bedeutet es, wenn ich lineare Regressions- und maschinelle Lernmodelle aufbaue und alle zu dem gleichen Ergebnis kommen?

Zusammenfassend kann man also sagen, dass Regression und Zeitreihen dieselbe Frage beantworten können, und dass Zeitreihen technisch gesehen eine Regression sind (wenn auch eine automatische Regression). Zeitreihenmodelle sind weniger komplex und daher robuster als Regressionsmodelle. Wenn Sie über Spezialisierung nachdenken, sind TS-Modelle auf Prognosen spezialisiert, während Regression auf Verständnis spezialisiert ist. Es läuft darauf hinaus, ob Sie erklären oder vorhersagen möchten.

Verstecktes Markov-Modell
quelle
1
"Zeitreihenmodelle sind weniger komplex und daher robuster als Regressionsmodelle" .... Was Sie sagen wollten, war "ARIMA-Modelle sind weniger komplex und daher robuster als Regressionsmodelle". Das Einbeziehen von ARIMA und Regression wird als Übertragungsfunktionsmodelle bezeichnet. Dies ist dann die kluge Wahl, bei der sowohl das Verständnis (Regression) als auch unbekannte / nicht spezifizierte Hintergrundfaktoren (ARIMA) kombiniert werden.
IrishStat
2
@IrishStat Hallo Herr Reilly, ich habe Ihre Antworten auf mehrere Posts hier in stackexchange gelesen und auch viele Artikel in Autobox sowie die Links für den PSU-Zeitreihenkurs gelesen, aber ich weiß es immer noch nicht Verstehe, warum (oder ob) eine lineare Regression (mit OLS), mit der Verwendung von verzögerten Variablen und verzögerten Fehlerausdrücken, wenn nötig, nicht funktionieren würde
Miguel M.
@IrishStat Funktioniert die OLS-Methode nicht?
Miguel M.
1
Um Ihren Standpunkt zu erläutern, wäre das Ziel Granger-Kausalität. Selbst wenn beispielsweise ein Koeffizient statistisch signifikant ist, muss er für die Verbesserung der Prognosegenauigkeit nicht unbedingt signifikant sein. In meiner Forschung habe ich festgestellt, dass die Regressionsmodelle (linear, Lasso usw.) dazu neigen, zu sagen, dass die Dinge wichtiger sind als sie tatsächlich sind, während der Zufallswald dazu neigt, sie herabzustufen und die wahren Hebel zu identifizieren. Zufällige Gesamtstrukturen weisen außerdem die gleiche Genauigkeit auf, die von der Stichprobe abweicht wie lineare Modelle. Der einzige Nachteil ist, dass Sie die tatsächlichen Koeffizienten nicht ermitteln können.
Hidden Markov Model
2
@MiguelM. Es könnte sicherlich arbeiten , weil eine Übertragungsfunktion ein Polynom Distributed Liegt Modell bei der Einstellung für Impulse (einmal Anomalien) Ich denke , der Hauptunterschied ist der Weg zur Identifikation und Modellüberarbeitung Strategien empirisch erfassten Pegelverschiebungen / Zeittrends / saisonale Impulse vielleicht darunter ist
IrishStat
0

Wenn man bedenkt, dass der tiefste Unterschied zwischen Übertragungsfunktionen und linearer Mehrfachregression (in ihrer üblichen Verwendung) in ihren Zielen liegt, sind Mehrfachregressionen darauf ausgerichtet, die wichtigsten beobachtbaren kausalen Determinanten der abhängigen Variablen zu finden, während Übertragungsfunktionen lediglich die Auswirkung auf eine abhängige Variable vorhersagen möchten Variable der Variation einer bestimmten exogenen Variablen ... Zusammenfassend ist die multiple Regression auf eine erschöpfende Erklärung und Transferfunktion zur Vorhersage sehr spezifischer Effekte ausgerichtet ...

Rodolfo
quelle
Ich halte das nicht für richtig, da beide Methoden tatsächlich interpretierbare Koeffizienten liefern. Außerdem stützen sich Übertragungsfunktionen stark auf die Kausalanalyse und können solche besser unterscheiden als multiple lineare Regression. Dieser Beitrag fragt auch nach den mechanischen / methodischen Unterschieden zwischen diesen beiden Methoden
Miguel M.