Zufällige Waldregression - Residuen korrelieren mit der Reaktion

9

Ich versuche, die Random Forest-Regression zu verwenden. Ich habe eine Antwortvariable:

y = rnorm(10000, mean=0, sd=3)

Und ein paar Prädiktorvariablen (die nur die Antwort mit zusätzlichem Rauschen sind):

x = data.frame(v1=y + rnorm(10000, mean=0, sd=3), v2=y + rnorm(10000, mean=0, sd=3), v3=y + rnorm(10000, mean=0, sd=3))

Ich baue den zufälligen Wald:

r = randomForest(x, y)

Das Modell ist gut und erklärt ~ 73% der Varianz. Wenn ich mir jedoch die Residuen ansehe:

plot(y, y - r$predicted)

Anstatt um Null zentriert zu sein, werden die Residuen mit der Antwortvariablen korreliert

Anstatt um Null zentriert zu sein, werden sie mit der Antwortvariablen korreliert. Es scheint, dass das Modell dies korrigieren sollte. Vielleicht ist dieses Verhalten, da jede OOB-Vorhersage ein Durchschnitt ist, eine Art "Regression zum Mittelwert"? Weiß jemand warum das passiert? Kann ich etwas dagegen tun?

Ich versuche ein Modell zu erstellen und die Residuen zu verwenden, um etwas abzuschätzen. Im Moment sind sie nutzlos, weil sie nur den Wert widerspiegeln, den ich vorhersagen möchte. Wenn jemand helfen kann, würde ich es wirklich schätzen!

adn bps
quelle
"schief" hat in der Statistik eine besondere Bedeutung. Es könnte besser sein, den Titel so etwas wie "Zufällige Waldregression - Residuen korrelieren mit der Antwort" zu machen. Ich werde diese Änderung vornehmen, aber wenn Sie möchten, dass etwas anderes angezeigt wird, können Sie sie jederzeit erneut bearbeiten.
Glen_b -State Monica
Ich denke, Residuendiagramme werden für angepasste Werte (x) gegen Residuen (y-yhat) aufgezeichnet.
Seema Mudgil
Sie möchten die Modellreste auf dem y als Funktion der vorhergesagten Werte des Modells auf dem x darstellen. Hier sollte keine Korrelation bestehen, und wenn dies der Fall ist, verletzen Sie die Annahme der Homoskedastizität bei OLS.
Colin

Antworten:

8

Genau das sollten Sie erwarten.

Sie sehen genau dasselbe mit einem gewöhnlichen Regressionsmodell. wenn das Modell hatR.2höher als 0 werden Residuen mit der Antwort korreliert. Es sind die angepassten Werte, mit denen die Residuen nicht korreliert sind.

Insbesondere erfasst jede Regression alle Variationen in yDas erklären die Prädiktoren. Das zu tun bedeutet dasy^ ist nicht mit dem Residuum korreliert - denn wenn es nicht unkorreliert wäre, würde es eine nicht erfasste Variation geben, die die xkönnte erfassen. Als Ergebnis der Erfassung alles, was diexWenn im Regressionsmodell erfasst werden kann, muss eine Korrelation der Residuen mit dem tatsächlichen vorhanden sein y Werte:

Cov(y,y- -y^)=Cov(y- -y^,y- -y^)+Cov(y^,y- -y^)=Var(y- -y^)+0=σ2

- Da diese Kovarianz positiv ist, wird die Korrelation sein.

Die Regularisierung ändert die Dinge etwas, aber die gleiche Korrelation erscheint.

[Die Komponente von yDas, was das Modell nicht erfasst, auch wenn es nur reines Rauschen ist, korreliert offensichtlich mit sich selbst . Das ist wirklich alles was wir hier sehen]

Eine solche Korrelation wird in jeder der Regressionen vorhanden sein, und so wird die Korrelation auf den zufälligen Wald als Ganzes übertragen.

Hier gibt es nichts zu reparieren, das soll es eigentlich tun. Sie sehen es auch dann, wenn Sie genau zu dem Modell passen, das Ihre Daten generiert hat.

 x = rbeta(1000,1.8,1.8)*20+5     # make some x variable
 y = 0.8+0.3*x+rnorm(1000,0,1.5)  # simulate a regression model
 lmfit = lm(y~x)                  # fit the true regression model
 plot(y,lmfit$residual)           # voila!                             $
 cor(y,lmfit$residual)

Geben Sie hier die Bildbeschreibung ein

In diesem Beispiel wird eine Korrelation in der Nähe von 70% angezeigt.

Wenn Sie die Varianz des Rauschausdrucks erhöhen (andere Dinge sind gleich), ist die Korrelation sogar stärker . Versuchen Sie das Obige mit mehr Lärm:

 y = 0.8+0.3*x+rnorm(1000,0,2.5)  # simulate a regression model

und sehen was passiert!

Es kann sein, dass Sie eine weitere Frage stellen möchten, die das ursprüngliche Problem erklärt, das Sie lösen wollten, da Ihre Entscheidung, wie Sie vorgehen möchten, möglicherweise nicht ideal war (es ist schwer zu sagen, was hier ist).

Glen_b -State Monica
quelle