Parallele gerade Linien auf Residuum vs. angepasstem Diagramm

8

Ich habe ein Problem mit multipler Regression, das ich mit einer einfachen multiplen Regression zu lösen versucht habe:

model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)

Dies scheint die 85% der Varianz (gemäß R-Quadrat) zu erklären, die ziemlich gut zu sein scheint.

Was mich jedoch beunruhigt, ist die seltsam aussehende Handlung Residuals vs Fitted, siehe unten:

Geben Sie hier die Bildbeschreibung ein

Ich vermute, der Grund, warum wir solche parallelen Linien haben, ist, dass der Y-Wert nur 10 eindeutige Werte hat, die ungefähr 160 X-Werten entsprechen.

Vielleicht sollte ich in diesem Fall eine andere Art der Regression verwenden?

Bearbeiten : Ich habe im folgenden Artikel ein ähnliches Verhalten gesehen. Beachten Sie, dass es sich nur um ein einseitiges Papier handelt. Wenn Sie eine Vorschau anzeigen, können Sie alles lesen. Ich denke, es erklärt ziemlich gut, warum ich dieses Verhalten beobachte, aber ich bin mir immer noch nicht sicher, ob eine andere Regression hier besser funktionieren würde?

Edit2: Das beste Beispiel für unseren Fall ist die Änderung der Zinssätze. Die FED kündigt alle paar Monate einen neuen Zinssatz an (wir wissen nicht wann und wie oft). In der Zwischenzeit erfassen wir täglich unsere unabhängigen Variablen (wie tägliche Inflationsrate, Börsendaten usw.). Infolgedessen werden wir eine Situation haben, in der wir viele Messungen für einen Zinssatz durchführen können.

Datageek
quelle
1
Sie brauchen mit ziemlicher Sicherheit eine andere Form der Regression. Wenn die Y-Daten ordinal sind (was ich vermute), möchten Sie wahrscheinlich eine ordinale logistische Regression. Ein RPaket, das dies tut, ist ordinal, aber es gibt auch andere
Peter Flom
Tatsächlich ist das Y der Preis, den wir vorhersagen wollen und der sich alle paar Monate ändert. Wir haben Wochenrekordervariablen (X) für den entsprechenden Preis (Y), der sich alle paar Monate ändert. Würde die logistische Regression in diesem Fall funktionieren, wenn wir den zukünftigen Preis nicht kennen?
Datageek
2
Sie haben Recht mit der Erklärung; Ihre Referenz hat es geschafft. Ihre Situation sieht jedoch ungewöhnlich aus: Es scheint, dass Sie nur etwa zehn unabhängige Antworten haben (die auf einer kontinuierlichen Skala liegen, nicht auf einer diskreten), aber Sie verwenden mehrere erklärende Variablen, die sich im Laufe der Zeit ändern. Dies ist keine Situation, die von den meisten Regressionstechniken in Betracht gezogen wird. Weitere Informationen darüber, was diese Variablen bedeuten und wie sie gemessen werden, können uns dabei helfen, einen guten analytischen Ansatz zu finden.
whuber

Antworten:

4

Ein mögliches Modell ist eine "gerundete" oder "zensierte" Variable: Lassen Sie Ihre 10 beobachteten Werte sein. Man könnte annehmen, dass es eine latente Variable die den "realen" Preis darstellt, den Sie nicht vollständig kennen. Sie können jedoch (mit , wenn Sie diesen Notationsmissbrauch verzeihen). Wenn Sie bereit sind, eine Aussage über die Verteilung von Z in jedem dieser Intervalle zu riskieren, wird eine Bayes'sche Regression trivial. Eine Schätzung der maximalen Wahrscheinlichkeit erfordert etwas mehr Arbeit (aber nicht viel, soweit ich das beurteilen kann). Analoga dieses Problems werden von Gelman & Hill (2007) behandelt.y1,y10ZYi=yjyj1Ziyj+1y0=,y11=+

Emmanuel Charpentier
quelle
1
Das ist eine gute Idee. Es kümmert sich um das Phänomen, aber ich frage mich, ob es ein größeres Problem übersehen könnte: Selbst wenn die Preise als zensiert angesehen werden können, sind sie höchstwahrscheinlich stark seriell korreliert.
whuber
Ich habe das CensReg R-Paket ausprobiert, konnte es aber nicht zum Laufen bringen. Es ist jedoch möglich, dass ich Ihre Idee nicht verstanden habe. Die Sache ist, dass wir alle abhängigen Variablen kennen, so dass wir keine Situation haben, in der Y = 0 (zensiert) ist. Es ist nur so, dass das Y einige Monate lang stabil bleibt. Ich habe gerade eine weitere Bearbeitung vorgenommen, damit dies hoffentlich unseren Anwendungsfall besser erklärt.
Datageek
1
Radek, ich denke die Idee ist folgende: Angenommen, der Preis hängt von der Zeit ab, ändert sich aber nur zu diskreten Zeiten . Wir verstehen dies als Manifestation einer nicht beobachteten zugrunde liegenden Variablen (des "realen Preises") und hoffen, dass zwischen den Zeiten und immer zwischen und liegt . Tatsächlich betrachten wir den beobachteten Preis zu jedem Zeitpunkt in diesem Intervall als wie sowohl links als auch rechts von und zensiert.Y(t)t1,t2,Z(t)titi+1 Z(t)Y(ti)Y(ti+1)tZ(t)Y(ti)Y(ti+1). (Ich muss "Hoffnung" betonen: Dies ist die "riskante Aussage", auf die Bezug genommen wird.)
whuber
1
whuber: du hast recht. Der ursprüngliche Beitrag spielte nicht auf eine Zeitreihe an, also habe ich das übersehen. Ich denke, um die Frage zu beantworten, müssen wir zwei Aussagen riskieren : eine über die Verteilung von in den Intervallen und eine über die Form des zeitlichen Modells dh die Funktion f, die an bindet . In einem BUGS-Modell würden diese beiden Aspekte in Aussagen über ausgedrückt . Nicht mehr so ​​einfach ...( y j - 1 , y j + 1 Z ( t ) f ( Z ( 1 ) , Z ( 2 , ... , Z ( t - 1 ) ) ZZ(yj1,yj+1Z(t)f(Z(1),Z(2,,Z(t1))Z
Emmanuel Charpentier