Plot.lm () interpretieren

89

Ich hatte eine Frage zur Interpretation der durch plot (lm) in R erzeugten Graphen. Ich habe mich gefragt, ob Sie mir sagen können, wie die Diagramme für die Skalenposition und die Hebelwirkung für die verbleibenden Graphen zu interpretieren sind. Über Kommentare würde ich mich freuen. Grundkenntnisse in Statistik, Regression und Ökonometrie voraussetzen.

Gast
quelle
haben Sie einen Blick hat hier ?
user603
6
und hier (ab Seite 72), hier .
COOLSerdash

Antworten:

139

Wie in der Dokumentation angegeben , plot.lm()können 6 verschiedene Diagramme zurückgegeben werden:

[1] eine Darstellung von Residuen gegen angepasste Werte, [2] eine Darstellung der Skalenposition von Quadrat (| Residuen |) gegen angepasste Werte, [3] eine Darstellung der normalen QQ, [4] eine Darstellung der Cook-Abstände gegen Zeilenbeschriftungen, [5] eine Darstellung von Residuen gegen Hebel und [6] eine Darstellung von Cooks Abständen gegen Hebel / (1-Hebel). Standardmäßig werden die ersten drei und fünf bereitgestellt. ( meine Nummerierung )

Plots [1] , [2] , [3] und [5] werden standardmäßig zurückgegeben. Die Interpretation [1] wird hier im CV erörtert: Interpretation von Residuen gegen angepasste Diagramme zur Überprüfung der Annahmen eines linearen Modells . Ich habe die Annahme der Homoskedastizität und die Diagramme, anhand derer Sie sie beurteilen können (einschließlich der Diagramme zur Skalenlokalisierung [2] ), hier erklärt: Was bedeutet es, eine konstante Varianz in einem linearen Regressionsmodell zu haben? Ich habe QQ-Diagramme [3] im CV hier besprochen : QQ-Diagramm stimmt nicht mit Histogramm überein und hier: PP-Diagramme vs. QQ-Diagramme . Auch hier gibt es eine sehr gute Übersicht: Wie interpretiere ich einen QQ-Plot? Was also bleibt, ist in erster Linie nur das Verständnis [5] , der Resthebel-Plot.

Um dies zu verstehen, müssen wir drei Dinge verstehen:

  • Hebelwirkung,
  • standardisierte Residuen und
  • Cooks Entfernung.

Um die Hebelwirkung zu verstehen , müssen Sie erkennen, dass die Regression der gewöhnlichen kleinsten Quadrate auf eine Linie passt, die durch die Mitte Ihrer Daten verläuft . Die Linie kann flach oder steil geneigt sein, aber es wird wie ein um diesen Punkt schwenkt Hebel an einem Drehpunkt . Wir können diese Analogie wörtlich nehmen: Da OLS versucht, die vertikalen Abstände zwischen den Daten und der Linie * zu minimieren, drücken / ziehen die Datenpunkte, die weiter außen in Richtung der Extreme von liegen, stärker auf den Hebel (dh die Regressionslinie) ); Sie haben mehr Hebel . Ein Ergebnis davon könnte seinX(X¯, Y¯)XSeien Sie, dass die Ergebnisse, die Sie erhalten, von einigen Datenpunkten bestimmt werden. Das ist es, was diese Handlung Ihnen beim Bestimmen helfen soll.

Ein weiteres Ergebnis der Tatsache, dass weiter hinten auf Punkte eine größere Hebelwirkung haben, besteht darin, dass sie tendenziell näher an der Regressionslinie liegen (oder genauer: die Regressionslinie ist so angepasst, dass sie näher an ihnen liegt ) als Punkte, die sich in der Nähe von . Mit anderen Worten, der Rest kann Standardabweichung an verschiedenen Punkten unterscheidet (auch wenn die Fehlerstandardabweichung ist konstant). Um dies zu korrigieren, werden Residuen häufig so standardisiert , dass sie eine konstante Varianz aufweisen (vorausgesetzt, der zugrunde liegende Datenerzeugungsprozess ist natürlich homoskedastisch). ˉ X XXX¯X

Eine Möglichkeit zu überlegen, ob die von Ihnen erzielten Ergebnisse von einem bestimmten Datenpunkt abhängen oder nicht, besteht darin, zu berechnen, wie weit sich die vorhergesagten Werte für Ihre Daten verschieben würden, wenn Ihr Modell ohne den betreffenden Datenpunkt angepasst wäre. Diese berechnete Gesamtentfernung wird als Cook-Entfernung bezeichnet . Glücklicherweise müssen Sie Ihr Regressionsmodell nicht mal wiederholen , um herauszufinden, wie weit sich die vorhergesagten Werte bewegen werden. Cooks D ist eine Funktion der Hebelwirkung und des standardisierten Residuums, die jedem Datenpunkt zugeordnet sind. N

Berücksichtigen Sie vor diesem Hintergrund die Diagramme, die mit vier verschiedenen Situationen verbunden sind:

  1. Ein Datensatz, in dem alles in Ordnung ist
  2. Ein Datensatz mit einem hochhebeligen, aber niedrig standardisierten Restpunkt
  3. Ein Datensatz mit einem niedrigen Hebel, aber einem hohen standardisierten Restpunkt
  4. Ein Datensatz mit einem hochhebeligen, hochstandardisierten Restpunkt

Bildbeschreibung hier eingeben Bildbeschreibung hier eingeben

Die Diagramme auf der linken Seite zeigen die Daten, die Mitte der Daten mit einem blauen Punkt, den zugrunde liegenden Datenerzeugungsprozess mit einer gestrichelten grauen Linie, das Modell mit einer blauen Linie und besonderer Punkt mit einem roten Punkt. Auf der rechten Seite befinden sich die entsprechenden Resthebel-Diagramme. Der besondere Punkt ist . Das Modell ist vor allem im vierten Fall stark verzerrt, wenn ein Punkt mit hoher Hebelwirkung und einem großen (negativen) standardisierten Residuum vorliegt. Als Referenz sind hier die Werte aufgeführt, die den speziellen Punkten zugeordnet sind: (X¯, Y¯)21

                              leverage std.residual   cooks.d
high leverage,  low residual 0.3814234    0.0014559 0.0000007
low leverage,  high residual 0.0476191    3.4456341 0.2968102
high leverage, high residual 0.3814234   -3.8086475 4.4722437

Unten ist der Code, mit dem ich diese Diagramme erstellt habe:

set.seed(20)

x1 = rnorm(20, mean=20, sd=3)
y1 = 5 + .5*x1 + rnorm(20)

x2 = c(x1, 30);        y2 = c(y1, 20.8)
x3 = c(x1, 19.44);     y3 = c(y1, 20.8)
x4 = c(x1, 30);        y4 = c(y1, 10)

* Um zu verstehen, wie die OLS-Regression versucht, die Linie zu finden, die die vertikalen Abstände zwischen den Daten und der Linie minimiert, lesen Sie meine Antwort hier: Was ist der Unterschied zwischen der linearen Regression für y mit x und x mit y?

gung
quelle
Gute Antwort, die in alle Schreibrichtungen zeigt, um mehr zu lernen. (Ich muss mich wundern, warum es so wenige vollständige UND eindeutige Erklärungen für diese Handlungen gibt)
Theforestecologist
Obwohl hier ist ein Beispiel für eine kurze konsolidierte Erklärung für jede Parzelle.
theforestecologist