Ich interessiere mich für die Beziehung zwischen zwei Zeitreihenvariablen: und . Die beiden Variablen sind miteinander verwandt, und aus der Theorie ist nicht ersichtlich, welche die andere verursacht.
Angesichts dessen habe ich keinen guten Grund, die lineare Regression gegenüber vorzuziehen .
Offensichtlich gibt es eine Beziehung zwischen und , obwohl ich mich an genügend Statistiken erinnere, um zu verstehen, dass nicht wahr ist. Oder ist es vielleicht gar nicht so nah? Ich bin ein bisschen dunstig.
Das Problem ist zu entscheiden, wie viel von man gegen halten soll .
Ich denke darüber nach, den Durchschnitt von und als Absicherungsverhältnis zu verwenden.
Ist der Durchschnitt von und ein sinnvolles Konzept?
Und als sekundäre Frage (vielleicht sollte dies ein anderer Beitrag sein), wie kann man angemessen damit umgehen, dass die beiden Variablen miteinander in Beziehung stehen - was bedeutet, dass es wirklich keine unabhängige und abhängige Variable gibt?
quelle
Antworten:
Um die Verbindung zwischen beiden Darstellungen zu sehen, nehmen Sie einen bivariaten Normalenvektor: mit den Bedingungen und Das bedeutet das(X.1X.2) ∼ N.( (μ1μ2) , (σ21ρσ1σ2ρσ1σ2σ22) ) X.1∣X.2=x2∼ N.(μ1+ ρσ1σ2(x2- -μ2) , ( 1 -ρ2)σ21) X.2∣X.1=x1∼ N.(μ2+ ρσ2σ1(x1- -μ1) , ( 1 -ρ2)σ22) X.1=(μ1- ρσ1σ2μ2)α+ρσ1σ2βX.2+1 -ρ2- -- -- -- -- -√σ1ϵ1
und
was bedeutet, dass (a) nicht und (b) Die Verbindung zwischen den beiden Regressionen hängt von der gemeinsamen Verteilung von .X.2=(μ2- ρσ2σ1μ1)κ+ρσ2σ1γX.1+1 -ρ2- -- -- -- -- -√σ2ϵ2 γ 1 / β (X.1,X.2)
quelle
Aus einem Kommentar konvertiert .....
Die genauen Werte von und finden Sie in meiner Antwort auf den Effekt des Wechsels von Antworten und erklärenden Variablen in einer einfachen linearen Regression , und wie Sie vermuten, ist nicht der Kehrwert von und der Mittelwertbildung von und (oder die Mittelung von und ) ist nicht der richtige Weg. Eine bildliche Ansicht dessen, was und minimieren, ist in Elvis 'Antwort enthaltenβ γ β γ β γ β 1 / γ β γ Auf dieselbe Frage und in der Antwort führt er eine Regression der "kleinsten Rechtecke" ein, nach der Sie möglicherweise suchen. Die Kommentare nach Elvis 'Antwort sollten nicht vernachlässigt werden. Sie beziehen diese Regression der "kleinsten Rechtecke" auf andere, zuvor untersuchte Techniken. Beachten Sie insbesondere, dass Moderator chl darauf hinweist, dass diese Methode von Interesse ist, wenn nicht klar ist, welche die Prädiktorvariable und welche die Antwortvariable ist.
quelle
Wie Xi'an in seiner Antwort feststellteβ und γ sind miteinander verbunden, indem sie sich auf die bedingten Mittel beziehen X.| Y. und Y.| X. (die sich wiederum auf eine einzelne gemeinsame Verteilung beziehen ) diese sind nicht symmetrisch in dem Sinne, dassβ≠ 1 / γ . Dies ist auch nicht der Fall, wenn Sie das Wahre "kennen" würdenσ und ρ anstatt Schätzungen zu verwenden. Du hastβ=ρX.Y.σY.σX. und γ=ρX.Y.σX.σY.
oder man könnte sagen
Siehe auch einfache lineare Regression auf Wikipedia zur Berechnung derβ und γ .
Es ist dieser Korrelationsterm, der die Symmetrie irgendwie stört. Wenn dieβ und γ wäre einfach das Verhältnis der Standardabweichung σY./.σX. und σX./.σY. dann wären sie tatsächlich umgekehrt. DasρX.Y. Begriff kann als Änderung einer Art Regression zum Mittelwert angesehen werden .
Ist eine Regressionsgerade die richtige Methode?
Sie fragen sich vielleicht, ob Sie diese bedingten Wahrscheinlichkeiten und Regressionslinien benötigen, um Ihre Verhältnisse von zu bestimmenX. und Y. . Mir ist unklar, wie Sie eine Regressionslinie bei der Berechnung eines optimalen Verhältnisses verwenden möchten.
Im Folgenden finden Sie eine alternative Methode zur Berechnung des Verhältnisses. Diese Methode hat Symmetrie (dh wenn Sie X und Y wechseln, erhalten Sie das gleiche Verhältnis).
Alternative
Sagen wir, die Renditen von AnleihenX. und Y. werden nach einer multivariaten Normalverteilung verteilt† mit Korrelation ρX.Y. und Standardabweichungen σX. und σY. dann die Rendite einer Absicherung, die die Summe von ist X. und Y. wird normal verteilt:
wurden0 ≤ α ≤ 1 und mit
Das Maximum des MittelwertsμH. wird bei ... sein α = 0 oder α = 1 oder nicht vorhanden, wenn μX.=μY. .
Das Minimum der Varianzσ2H. wird bei ... sein α = 1 -σ2X.- -ρX.Y.σX.σY.σ2X.+σ2Y.- 2ρX.Y.σX.σY.=σ2Y.- -ρX.Y.σX.σY.σ2X.+σ2Y.- 2ρX.Y.σX.σY.
Das Optimum liegt irgendwo zwischen diesen beiden Extremen und hängt davon ab, wie Sie Verluste und Gewinne vergleichen möchten
Beachten Sie, dass jetzt eine Symmetrie zwischen bestehtα und 1 - α . Es spielt keine Rolle, ob Sie die Absicherung verwendenH.=α1X.+ ( 1 -α1) Y. oder die Hecke H.=α2Y.+ ( 1 -α2) X. . Sie erhalten die gleichen Verhältnisse in Bezug aufα1= 1 -α2 .
Minimaler Varianzfall und Beziehung zu Hauptkomponenten
Im Fall der minimalen Varianz (hier müssen Sie eigentlich keine multivariate Normalverteilung annehmen) erhalten Sie das folgende Absicherungsverhältnis als optimalα1 - α=v a r ( Y.) - c o v ( X., Y.)v a r ( X.) - c o v ( X., Y.) was in Form der Regressionskoeffizienten ausgedrückt werden kann β= c o v ( X., Y.) / v a r ( X.) und γ= c o v ( X., Y.) / v a r ( Y.) und ist wie folgt α1 - α=1 - β1 - γ
In einer Situation mit mehr als zwei Variablen / Aktien / Anleihen können Sie dies auf die letzte (kleinste Eigenwert-) Hauptkomponente verallgemeinern.
Varianten
Das Modell kann verbessert werden, indem andere Verteilungen als die multivariate Normalverteilung verwendet werden. Sie können die Zeit auch in ein komplexeres Modell integrieren, um zukünftige Werte / Verteilungen für das Paar besser vorhersagen zu könnenX., Y. .
quelle
Vielleicht könnte der Ansatz der "Granger-Kausalität" helfen. Dies würde Ihnen helfen, zu beurteilen, ob X ein guter Prädiktor für Y ist oder ob X besser für Y ist. Mit anderen Worten, es zeigt Ihnen, ob Beta oder Gamma ernst zu nehmen sind. Wenn Sie sich mit Zeitreihendaten befassen, erfahren Sie auch, wie viel von der Geschichte von X für die Vorhersage von Y zählt (oder umgekehrt).
Wikipedia gibt eine einfache Erklärung: Eine Zeitreihe X wird als Granger-Ursache Y bezeichnet, wenn sie gezeigt werden kann, normalerweise durch eine Reihe von t-Tests und F-Tests an verzögerten Werten von X (und mit verzögerten Werten von Y ebenfalls eingeschlossen). , dass diese X-Werte statistisch signifikante Informationen über zukünftige Werte von Y liefern.
Was Sie tun, ist Folgendes:
Fahren Sie fort, unabhängig von der Länge des Verlaufs. Überprüfen Sie die Signifikanz der F-Statistik für jede Regression. Machen Sie dasselbe in umgekehrter Reihenfolge (also regressieren Sie jetzt die vergangenen Werte von X und Y auf X (t)) und sehen Sie, welche Regressionen signifikante F-Werte haben.
Ein sehr einfaches Beispiel mit R-Code finden Sie hier . Die Granger-Kausalität wurde kritisiert, weil sie (in einigen Fällen) die Kausalität nicht tatsächlich feststellte. Es scheint jedoch, dass es bei Ihrer Anwendung wirklich um "prädiktive Kausalität" geht, und genau dafür ist der Granger-Kausalitätsansatz gedacht.
Der Punkt ist, dass der Ansatz Ihnen sagt, ob X Y vorhersagt oder ob Y X vorhersagt (so dass Sie nicht länger versucht wären, die beiden Regressionskoeffizienten künstlich - und falsch - zusammenzusetzen) und Ihnen eine bessere Vorhersage gibt (wie Sie wird wissen, wie viel Geschichte von X und Y Sie wissen müssen, um Y) vorherzusagen, was für Absicherungszwecke nützlich ist, richtig?
quelle