Ich habe ein Problem mit multipler Regression, das ich mit einer einfachen multiplen Regression zu lösen versucht habe:
model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)
Dies scheint die 85% der Varianz (gemäß R-Quadrat) zu erklären, die ziemlich gut zu sein scheint.
Was mich jedoch beunruhigt, ist die seltsam aussehende Handlung Residuals vs Fitted, siehe unten:
Ich vermute, der Grund, warum wir solche parallelen Linien haben, ist, dass der Y-Wert nur 10 eindeutige Werte hat, die ungefähr 160 X-Werten entsprechen.
Vielleicht sollte ich in diesem Fall eine andere Art der Regression verwenden?
Bearbeiten : Ich habe im folgenden Artikel ein ähnliches Verhalten gesehen. Beachten Sie, dass es sich nur um ein einseitiges Papier handelt. Wenn Sie eine Vorschau anzeigen, können Sie alles lesen. Ich denke, es erklärt ziemlich gut, warum ich dieses Verhalten beobachte, aber ich bin mir immer noch nicht sicher, ob eine andere Regression hier besser funktionieren würde?
Edit2: Das beste Beispiel für unseren Fall ist die Änderung der Zinssätze. Die FED kündigt alle paar Monate einen neuen Zinssatz an (wir wissen nicht wann und wie oft). In der Zwischenzeit erfassen wir täglich unsere unabhängigen Variablen (wie tägliche Inflationsrate, Börsendaten usw.). Infolgedessen werden wir eine Situation haben, in der wir viele Messungen für einen Zinssatz durchführen können.
quelle
R
Paket, das dies tut, istordinal
, aber es gibt auch andereAntworten:
Ein mögliches Modell ist eine "gerundete" oder "zensierte" Variable: Lassen Sie Ihre 10 beobachteten Werte sein. Man könnte annehmen, dass es eine latente Variable die den "realen" Preis darstellt, den Sie nicht vollständig kennen. Sie können jedoch (mit , wenn Sie diesen Notationsmissbrauch verzeihen). Wenn Sie bereit sind, eine Aussage über die Verteilung von Z in jedem dieser Intervalle zu riskieren, wird eine Bayes'sche Regression trivial. Eine Schätzung der maximalen Wahrscheinlichkeit erfordert etwas mehr Arbeit (aber nicht viel, soweit ich das beurteilen kann). Analoga dieses Problems werden von Gelman & Hill (2007) behandelt.y1,…y10 Z Yi=yj⇒yj−1≤Zi≤yj+1 y0=−∞,y11=+∞
quelle