Diagonale gerade Linien in Residuen gegen angepasste Werte zeichnen für multiple Regression

11

Ich beobachte seltsame Muster in Residuen für meine Daten: Geben Sie hier die Bildbeschreibung ein

[EDIT] Hier sind die partiellen Regressionsdiagramme für die beiden Variablen:

http://i.imgur.com/Lh36l.png

http://i.imgur.com/akMjB.png

[EDIT2] Das PP-Diagramm wurde hinzugefügt http://i.imgur.com/pCKFA.png

Die Verteilung scheint in Ordnung zu sein (siehe unten), aber ich habe keine Ahnung, woher diese gerade Linie kommen könnte. Irgendwelche Ideen? Geben Sie hier die Bildbeschreibung ein

[UPDATE 31.07]

Es stellte sich heraus, dass Sie absolut Recht hatten. Ich hatte Fälle, in denen die Anzahl der Retweets tatsächlich 0 war, und diese ~ 15 Fälle führten zu diesen seltsamen Restmustern.

Die Residuen sehen jetzt viel besser aus: http://i.imgur.com/XGas9.png

Ich habe auch die partiellen Regressionen mit einer Lösslinie versehen. http://i.imgur.com/Jcr2M.png http://i.imgur.com/eb376.png

Plotti
quelle
Könnten Sie auch die angepasste Linie hinzufügen, die auf den Originaldaten dargestellt ist?
MånsT
Außerdem sagen die Untertitel der Figuren "Community: Anime" und "Community: Astrologie", was zu implizieren scheint, dass diese Handlungen aus verschiedenen Datensätzen stammen ...
MånsT
Ich erinnere mich, dass ich diese Art von Mustern in meinen Residuen gesehen habe, wenn meine abhängigen Variablen kategorisch oder "nicht kontinuierlich genug" sind.
König
Ich habe die richtige PP - Plot und die Teilgrundstücke der beiden IV hinzugefügt
plotti

Antworten:

23

Es scheint, dass Ihre abhängige Variable in einigen Teilbereichen konstant ist oder genau linear von den Prädiktoren abhängt. Lassen Sie uns zwei korrelierte Variablen haben, X und Y (Y ist abhängig). Das Streudiagramm befindet sich links.

Geben Sie hier die Bildbeschreibung ein

Kehren wir als Beispiel zur ersten ("konstanten") Möglichkeit zurück. Rekodieren Sie alle Y-Werte vom niedrigsten auf -0,5 auf einen einzelnen Wert -1 (siehe Bild in der Mitte). Regressiere Y auf X und zeichne Residuenstreuung, dh drehe das zentrale Bild so, dass die Vorhersagelinie jetzt horizontal ist. Ähnelt es Ihrem Bild?

ttnphns
quelle
6
Das ist forensische Statistik von ihrer besten Seite! Ein großes +1.
Michael R. Chernick
Es stellte sich heraus, dass Sie absolut Recht hatten. Ich hatte Fälle, in denen die Anzahl der Retweets tatsächlich 0 war, und diese ~ 15 Fälle führten zu diesen seltsamen Restmustern. i.imgur.com/XGas9.png
Plotti
4

Es ist nicht überraschend, dass Sie das Muster nicht im Histogramm sehen. Das ungerade Muster erstreckt sich über einen beträchtlichen Teil des Bereichs des Histogramms und repräsentiert nur einige Datenpunkte in jedem Bin. Sie müssen wirklich herausfinden, um welche Datenpunkte es sich handelt, und sie betrachten. Sie können die vorhergesagten Werte und Residuen verwenden, um sie leicht zu finden. Sobald Sie die Werte gefunden haben, untersuchen Sie, warum diese besonders sein könnten.

Allerdings ist dieses spezielle Muster nur deshalb besonders, weil es lang ist. Wenn Sie sich Ihr Residuen-Diagramm und Ihr Quantil-Diagramm genau ansehen, werden Sie feststellen, dass es sich wiederholt, es sich jedoch um kleinere Sequenzen handelt. Vielleicht ist es wirklich nur eine Anomalie. Oder vielleicht ist es wirklich ein Muster, das sich wiederholt. Sie müssen jedoch herausfinden, wo sich die Rohdaten befinden, und sie untersuchen, um die Hoffnung zu haben, sie überhaupt zu verstehen.

Um Ihnen ein wenig zu helfen, schlägt das Quantil-Quantil-Diagramm vor, dass Sie eine Reihe identischer Residuen haben. Es ist möglich, dass es sich um einen Codierungsfehler handelt. Ich kann etwas Ähnliches in R erzeugen mit ...

x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)

Beachten Sie die flachen zwei flachen Punkte in der Linie. Es scheint jedoch komplexer zu sein, da impliziert wird, dass die identischen Residuen auf eine Reihe von Prädiktoren stoßen.

John
quelle
3

Es sieht so aus, als ob Sie verwenden R. Wenn ja, beachten Sie, dass Sie Punkte auf einem Streudiagramm mit ? Identifizieren können . Ich denke, hier sind mehrere Dinge im Gange. Erstens haben Sie einen sehr einflussreichen Punkt in der Handlung von LN_RT_vol_in ~ LN_AT_vol_in(dem hervorgehobenen) bei ungefähr (.2, 1.5). Dies ist sehr wahrscheinlich das standardisierte Residuum, das etwa -3,7 beträgt. Der Effekt dieses Punkts besteht darin, die Regressionslinie zu glätten und sie horizontaler zu neigen als die scharf nach oben gerichtete Linie, die Sie sonst erhalten hätten. Dies hat zur Folge, dass alle Ihre Residuen relativ zu dem Ort gegen den Uhrzeigersinn gedreht werden, an dem sie sich sonst innerhalb des residual ~ predictedDiagramms befunden hätten (zumindest wenn Sie an diese Kovariate denken und die andere ignorieren).

Die scheinbare gerade Linie der Residuen, die Sie sehen, ist jedoch immer noch vorhanden, da sie irgendwo in der dreidimensionalen Wolke Ihrer Originaldaten vorhanden sind. Sie können in beiden Randplots schwer zu finden sein. Sie können die Funktion identify () verwenden, um zu helfen, und Sie können auch das rgl- Paket verwenden, um ein dynamisches 3D- Streudiagramm zu erstellen, das Sie mit Ihrer Maus frei drehen können. Beachten Sie jedoch, dass die Residuen der geraden Linie in ihrem vorhergesagten Wert alle unter 0 liegen und Residuen unter 0 haben (dh sie liegen unter der angepassten Regressionslinie). Das gibt Ihnen einen großen Hinweis darauf, wo Sie suchen müssen. Schauen Sie sich noch einmal Ihre Handlung von anLN_RT_vol_in ~ LN_AT_vol_inIch glaube, ich kann sie sehen. Es gibt eine ziemlich gerade Ansammlung von Punkten, die diagonal nach unten und links von ungefähr (-.01, -1.00) am unteren Rand der Punktwolke in dieser Region verlaufen. Ich vermute, das sind die fraglichen Punkte.

Mit anderen Worten, die Residuen sehen so aus, weil sie sich bereits irgendwo im Datenraum so befinden. Im Wesentlichen schlägt @ttnphns dies vor, aber ich denke nicht, dass es in einer der ursprünglichen Dimensionen eine Konstante ist - es ist eine Konstante in einer Dimension in einem Winkel zu Ihren ursprünglichen Achsen. Ich stimme @MichaelChernick ferner zu, dass diese scheinbare Geradheit in der Restdarstellung wahrscheinlich harmlos ist, Ihre Daten jedoch nicht wirklich normal sind. Sie sind jedoch etwas normal und Sie scheinen eine anständige Anzahl von Daten zu haben, so dass das CLT Sie möglicherweise abdeckt, aber Sie möchten möglicherweise nur für den Fall einen Bootstrap durchführen. Schließlich würde ich mir Sorgen machen, dass dieser Ausreißer Ihre Ergebnisse beeinflusst. Ein robuster Ansatz ist wahrscheinlich angebracht.

gung - Monica wieder einsetzen
quelle
1
Kann Ihre Aussage it's a constant in a dimension at an angle to your original axesmit meiner vergleichbar sein is exactly linearly dependent on the predictor(s)oder meinen Sie etwas anderes?
ttnphns
@ttnphns, ich habe diesen Teil Ihrer Antwort verpasst, als ich ihn überflogen habe. Ich habe die "Konstante" gesehen und die Punkte in Ihrer Handlung gesehen, und das habe ich weggenommen. Ja, "es ist eine Konstante in einer Dimension ..." ist logisch gleichbedeutend mit "ist genau linear abhängig ...". Mir ist jetzt klar, dass mein Kernpunkt weitgehend der gleiche ist wie Ihr (+1), obwohl ich denke, dass einige meiner anderen Punkte (welche Daten wahrscheinlich der Schuldige sind, R-Strategien, robuste Ansätze usw.) noch etwas zur Diskussion beitragen.
Gung - Reinstate Monica
Sicher, Ihre Antwort hat viel zu mir beigetragen.
ttnphns
1

Ich würde nicht unbedingt sagen, dass das Histogramm in Ordnung ist. Die visuelle Überlagerung der am besten passenden Normalen mit einem Histogramm kann trügerisch sein, und Ihr Histogramm kann empfindlich auf die Wahl der Behälterbreite reagieren. Das normale Wahrscheinlichkeitsdiagramm scheint eine große Abweichung vom Normalen anzuzeigen, und selbst wenn ich das Histogramm betrachte, scheint es für mein Auge eine leichte Schiefe zu sein (höhere Häufigkeit im [0, + 0,5] -Behälter im Vergleich zum [-0,5,0] -Behälter). und schwere Kurtosis (zu große Häufigkeit in den Intervallen [-4, -3,5] und [2,5, 3]).

In Bezug auf das Muster, das Sie sehen, kann es von der selektiven Erkundung durch das Streudiagramm stammen. Es sieht so aus, als ob Sie, wenn Sie noch mehr jagen, zwei oder drei weitere Linien finden, die fast parallel zu der sind, die Sie ausgewählt haben. Ich denke, Sie lesen zu viel darüber. Aber die Nichtnormalität ist ein echtes Problem. Sie haben einen sehr großen Ausreißer mit einem Rest von fast -4. Kommen diese Residuen aus einer Anpassung der kleinsten Quadrate? Ich bin damit einverstanden, dass es aufschlussreich sein könnte, die angepasste Linie auf einem Streudiagramm der Daten zu betrachten.

Michael R. Chernick
quelle
Ich habe die
Teilhandlungen
1
Ich würde gerne das Grundlegendste sehen, die angepasste Linie, die durch ein Streudiagramm der Daten verläuft.
Michael R. Chernick