Übliche Regression vs. Regression, wenn Variablen differenziert werden

13

Ich versuche nur zu verstehen, welche Beziehung zwischen einer normalen multiplen / einfachen Regression und einer multiplen / einfachen Regression besteht, wenn die Variablen differenziert werden.

Zum Beispiel analysiere ich die Beziehung zwischen Einlagensaldo ( ) und Marktzinsen ( R T ). Wenn ich eine einfache lineare Regression durchführe, ist die Korrelation negativ und ziemlich signifikant (ungefähr -.74) log und Differenz der abhängigen Variablen und die Differenz der unabhängigen Variablen, so ist meine Gleichung jetzt dYTRT wird mit d zurückgegangendln(YT) , meine Korrelationen und R ^ 2 sind überhaupt nicht signifikant ( R 2 = .004 ).dR(T)R2=.004

Ich habe mich nur gefragt, ob dieses niedrige überhaupt etwas bedeutet. Bedeutet dies, dass mein Modell nicht gut passt, oder ignoriere ich die R 2, wenn ich differenzierte Daten betrachte? Ich weiß aus den Daten, dass es eine signifikante Korrelation zwischen den beiden ursprünglichen Variablen gibt, aber für mein Modell muss ich die Variablen differenziert betrachten, um mich zu fragen, wie ich vorgehen soll.R2R2

Alex
quelle

Antworten:

16

Die einfache Version ist, dass zwei Variablen, die dazu neigen, sich im Laufe der Zeit in eine Richtung zu ändern, korreliert zu sein scheinen, unabhängig davon, ob eine Verbindung zwischen ihnen besteht oder nicht. Betrachten Sie die folgenden Variablen:

set.seed(1)
time = seq(from=1, to=100, by=1)
x  = .5 + .3*time +        rnorm(100)
y1 =  3 + .3*time +        rnorm(100)
y2 =  7 + .1*time + .8*x + rnorm(100)

ist nur eine Funktion der Zeit, ebenso wie y 1 . y 2 ist eine Funktion von Zeit und x . Der Punkt ist, anhand des Codes zu erkennen, dass es wirklich eine Beziehung zwischen x und y 2 gibt und dass es keine Beziehung zwischen x und y 1 gibt . Schauen Sie sich nun die folgende Abbildung an, alle drei Linien sehen sich schrecklich ähnlich, nicht wahr?xy1y2xxy2xy1

Bildbeschreibung hier eingeben

In der Tat, der - Wert für die Beziehung zwischen x und y 1 beträgt 98%, und die R 2 für x und y 2 ist , 99%. Aber wir wissen, dass es keine reale Beziehung zwischen x und y 1 gibt , wohingegen es zwischen x und y 2 gibtR2xy1R2xy2xy1xy2Wie unterscheiden wir also das Reale vom bloßen Schein? Hier kommt die Differenzierung ins Spiel. Für zwei der Variablen ist dies nicht sehr informativ, da beide im Laufe der Zeit ansteigen. Aber sagt uns das, wenn man einen bestimmten Betrag ansteigt, wie viel der andere ansteigt? Durch Differenzierung können wir diese Frage beantworten. Beachten Sie die folgenden zwei Abbildungen, Streudiagramme, die ich nach dem Unterscheiden aller drei Variablen erstellt habe.

Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben

xy2R2=.43xy1R2=.07R2

Einige andere Punkte: In den Abbildungen stelle ich fest, dass es sich um gleichzeitige Änderungen handelt. Daran ist nichts auszusetzen, und es ergibt sich aus der Art und Weise, wie ich das Problem angestellt habe, aber normalerweise sind die Leute an Effekten mit einer gewissen Verzögerung interessiert. (Das heißt, eine Änderung zu einem bestimmten Zeitpunkt führt zu einer späteren Änderung.) Zweitens erwähnen Sie, dass Sie das Protokoll einer Ihrer Serien führen. Durch die Protokollierung werden Ihre Daten einfach von Level zu Rate gewechselt. Wenn Sie also einen Unterschied machen, sehen Sie eher Änderungen der Raten als Änderungen der Pegel. Das ist sehr verbreitet, aber ich habe dieses Element nicht in meine Demonstration aufgenommen. Es ist orthogonal zu den Themen, die ich besprochen habe. Zuletzt möchte ich anerkennen, dass Zeitreihendaten oft komplizierter sind, als es meine Demonstration zulässt.

gung - Wiedereinsetzung von Monica
quelle
10

@gung bietet eine nette Antwort, aber ich möchte ein paar Vorbehalte zu dem einbringen, was Sie vorschlagen.

Die Differenzierung wird meistens verwendet, um das Problem der Einheitswurzeln zu bekämpfen, beispielsweise wenn der Prozess AR (1) mit einem Korrelationskoeffizienten von 1 ist insbesondere weist es keine serielle Korrelation auf, wie @gung oben zeigt. Wenn der Fehlerterm jedoch eine serielle Korrelation mit einem Korrelationskoeffizienten von weniger als 1 im Absolutwert aufweist, führt die Verwendung der Differenzierung zum Entfernen eines linearen Zeittrends zu Fehlern mit einer sehr komplizierten Struktur. In diesem Fall ist es schwierig, genaue Standardfehler zu erhalten und gültige Schlussfolgerungen zu ziehen.

Aus diesem Grund ist es am besten, zuerst nach einer Unit-Root zu suchen und diese durch Differenzierung zu beheben, wenn eine gefunden wird. Prüfen Sie als Nächstes, ob ein linearer Zeittrend vorliegt. Beheben Sie dieses Problem, indem Sie rückgängig machen. Ohne letzteres sind Sie offen für das ausgelassene Variablentyp-Problem, das @gung gut illustriert.

Charlie
quelle
1
+1 Dies ist eine schöne Ergänzung zu meiner Antwort. Ich habe versucht, meine Antwort einfach und intuitiv zu halten. Es ist jedoch sicher richtig, dass es komplexere Aspekte gibt, als ich besprochen habe, und dass sie sehr wichtig sein können. Ich hätte das in meinem letzten Absatz anerkennen sollen. Danke, dass du mich ehrlich hältst.
gung - Wiedereinsetzung von Monica
1

Wenn das Ziel darin besteht, die Beziehung zwischen zwei oder mehr Reihen zu bilden / zu identifizieren, muss möglicherweise die stationäre X-Variable gefiltert werden, um sie in Rauschen umzuwandeln. Dies ist ein zweistufiger Prozess, der Differenzierung und der ARMA-Struktur. Um die Objektivität beizubehalten und eine Modellspezifikationsverzerrung zu vermeiden, sollte man nicht den Filter annehmen, sondern diesen Filter unter Verwendung der Autokorrelation der stationären X-Reihe konstruieren. Dann nimmt man die Y-Reihe und wendet alle erforderlichen Differenzierungsoperatoren an, um sie stationär zu machen, und wendet dann den zuvor entwickelten Filter auf das stationäre Y an. Diese Prozedur hat nur ein einziges Ziel und besteht darin, die Beziehung zwischen Y und X zu identifizieren. Man sollte niemals zu Schlussfolgerungen über die erforderlichen differenzierenden Operatoren springen. der ARMA-Filter und die Beziehung zwischen den Variablen, es sei denn, man ist ein Ökonometriker, der das Modell kennt, bevor er die Daten beobachtet, oder man spricht direkt mit dem Allmächtigen. Eine sorgfältige Analyse in Bezug auf die Normalität der Fehleranforderung ist erforderlich, um zu glauben, dass ein statistischer Test berechnet werden kann. Die Berechnung der F-Tests / T-Tests ist notwendig, aber nicht ausreichend. Zusammenfassend schlage ich vor, dass Sie das Thema "Identifizieren eines Übertragungsfunktionsmodells" weiterverfolgen. Andere und ich haben dieses Thema mehrmals angesprochen. Wenn Sie möchten, können Sie einige der Antworten auf Fragen lesen, die mit dem Tag "Zeitreihe" versehen sind. Wie Yogi sagte "Sie können viel beobachten, indem Sie einfach lesen / zuschauen". Manchmal können nette und einfache Antworten Sie in die Irre führen und möglicherweise überkomplizierte / konservative Antworten wie meine erfordern möglicherweise ein besseres Verständnis der Modellierung von Zeitreihendaten. Wie einmal gesagt wurde "Toto, wir sind nicht mehr in Kansas (dh Querschnittsdaten)!"

IrishStat
quelle