Was erklärt ein Diagramm mit hinzugefügten Variablen (partielle Regression) in einer multiplen Regression?

Ich habe ein Modell des Datasets "Filme" und habe die Regression verwendet:

model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)

Welches gab die Ausgabe:

Bildbeschreibung hier eingeben

Jetzt habe ich das erste Mal versucht, etwas mit dem Namen "Plot mit hinzugefügter Variablen" zu bearbeiten, und die folgende Ausgabe erhalten:

avPlots(model, id.n=2, id.cex=0.7)

Variable Plot hinzugefügt

Das Problem ist, dass ich versucht habe, das Diagramm der hinzugefügten Variablen mit Google zu verstehen, aber ich konnte seine Tiefe nicht verstehen. Als ich das Diagramm sah, verstand ich, dass seine Art der Darstellung des Schräglaufs auf jeder der Eingabevariablen im Zusammenhang mit der Ausgabe stand.

Kann ich ein bisschen mehr Details erfahren, wie es die Normalisierung der Daten rechtfertigt?

regression data-visualization multiple-regression scatterplot Abhishek Choudhary
quelle

@Silverfish hat eine nette Antwort auf Ihre Frage gegeben. Aufgrund der kleinen Details zur Vorgehensweise mit Ihrem bestimmten Dataset scheint ein lineares Modell eine sehr schlechte Idee zu sein. Stimmen ist offensichtlich eine stark verzerrte nicht negative Variable, so dass so etwas wie ein Poisson-Modell angezeigt wird. Siehe z. B. blog.stata.com/tag/poisson-regression. Beachten Sie, dass ein solches Modell Sie nicht dazu verpflichtet, anzunehmen , dass die Randverteilung der Antwort genau Poisson ist.

Nick Cox

Eine Möglichkeit zu erkennen, dass das lineare Modell schlecht funktioniert, besteht darin, dass es negative Werte für einen erheblichen Teil der Fälle vorhersagt. Siehe den Bereich links von angepasst auf der ersten Restkurve.

= 0

$= 0$

Nick Cox

Dank Nick Cox, hier habe ich festgestellt, dass es eine stark verzerrte, nicht negative Natur gibt. Ich muss das Poisson-Modell in Betracht ziehen. Gibt es also einen Link, der mir eine genaue Vorstellung davon gibt, welches Modell in welchem Szenario basierend auf dem Datensatz verwendet werden soll, und den ich ausprobiert habe? Polynom-Regression für meinen Datensatz, wird das hier eine richtige Wahl sein ...

Abhishek Choudhary

Ich habe bereits einen Link angegeben, der wiederum weitere Verweise enthält. Entschuldigung, aber ich verstehe die zweite Hälfte Ihrer Frage in Bezug auf "Szenario basierend auf Datensatz" und "Polynom-Regression" nicht. Ich vermute, Sie müssen eine neue Frage mit viel mehr Details stellen.

Nick Cox

Welches Paket haben Sie installiert, damit R die Funktion erkennt avPlots?

Isa

Zur Veranschaulichung nehme ich ein weniger komplexes Regressionsmodell $Y = \beta_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon$ wobei die Prädiktorvariablen $X_2$ und $X_3$ korreliert sein können. Nehmen wir an, die Hänge $\beta_2$ und $\beta_3$ beide positiv sind , so können wir , dass (i) sagen $Y$ zunimmt , wenn $X_2$ zunimmt, wenn $X_3$ konstant gehalten wird, da $\beta_2$ positiv ist ; (ii) $Y$ steigt mit zunehmendem $X_3$ , wenn $X_2$ konstant gehalten wird, da $\beta_3$ positiv ist.

Beachten Sie, dass es wichtig ist, mehrere Regressionskoeffizienten zu interpretieren, indem Sie berücksichtigen, was passiert, wenn die anderen Variablen konstant gehalten werden ("ceteris paribus"). Angenommen, ich habe gerade $Y$ gegen $X_2$ mit einem Modell $Y = \beta_1' + \beta_2' X_2 + \epsilon'$ . Mein Schätzwert für die Steigungskoeffizienten $\beta_2'$ , das die Wirkung auf misst $Y$ eine eine Einheit Erhöhung $X_2$ ohne Halt $X_3$ Konstante ist , kann aus meiner Schätzung abweichen $\beta_2$ aus der multiplen Regression - das misst auch die Wirkung auf der $Y$ einer eine Einheit Erhöhung der $X_2$ , aber es tut halten $X_3$ konstant. Das Problem mit meiner Schätzung $\hat{\beta_2'}$ ist, dass es unter einer Verzerrung durch weggelassene Variablen leidet, wenn $X_2$ und $X_3$ korreliert sind.

Stellen Sie sich zu verstehen, warum $X_2$ und $X_3$ negativ korreliert sind. Wenn ich nun $X_2$ um eine Einheiterhöhe, weiß ich, dass der Mittelwert von $Y$ zunehmen sollte, da $\beta_2 > 0$ . Aber wie $X_2$ zunimmt, wenn wir nicht halten $X_3$ konstant dann $X_3$ neigt dazu, abzunehmen, und da $\beta_3 > 0$ wird dies dazu neigenden Mittelwert der reduzieren $Y$ . Wenn ich also zulasse, wirdder Gesamteffekt einer Erhöhung von $X_2$ eine Einheitgeringer ausfallen $X_3$ zu variieren, daher $\beta_2' < \beta_2$ . Die Situation wird schlimmer, je stärker $X_2$ und $X_3$ korreliert sind und je größer die Auswirkung von $X_3$ auf $\beta_3$ - in einem wirklich schweren Fall können wir sogar $\beta_2' < 0$ , obwohl wir wissen, dass ceteris paribus, $X_2$ hat einen positiven Einfluss auf $Y$ !

Hoffentlich können Sie jetzt sehen, warum Sie ein Diagramm von zeichnen $Y$ gegen $X_2$ ein schlechter Weg ist, um die Beziehung zwischen $Y$ und $X_2$ in Ihrem Modell zu visualisieren . In meinem Beispiel würde Ihr Auge auf eine Linie mit der besten Übereinstimmung mit der Steigung $\hat{\beta_2'}$ , die nicht die $\hat{\beta_2}$ aus Ihrem Regressionsmodell widerspiegelt . Im schlimmsten Fall kann Ihr Modell vorhersagen, dass $Y$ zunimmt, wenn $X_2$ zunimmt (wobei andere Variablen konstant gehalten werden), und die Punkte in der Grafik dennoch darauf hindeuten, dass $Y$ abnimmt, wenn $X_2$ zunimmt.

Das Problem ist, dass in der einfachen Grafik von $Y$ gegen $X_2$ die anderen Variablen nicht konstant gehalten werden. Dies ist die entscheidende Einsicht in den Nutzen eines Plots mit hinzugefügten Variablen (auch als partieller Regressionsplot bezeichnet) - es verwendet den Frisch-Waugh-Lovell-Satz, um den Effekt anderer Prädiktoren "herauszufiltern". Die horizontalen und vertikalen Achsen auf dem Plot lassen sich möglicherweise am einfachsten verstehen * als " $X_2$ nach Berücksichtigung anderer Prädiktoren" und " $Y$ nach Berücksichtigung anderer Prädiktoren". Sie können nun die Beziehung zwischen $Y$ und $X_2$ nachdem alle anderen Prädiktoren berücksichtigt wurden. So spiegelt beispielsweise die Steigung, die Sie in jedem Diagramm sehen können, jetzt die partiellen Regressionskoeffizienten Ihres ursprünglichen multiplen Regressionsmodells wider.

Ein Großteil des Werts eines Diagramms mit hinzugefügten Variablen befindet sich in der Regressionsdiagnose, zumal die Residuen im Diagramm mit hinzugefügten Variablen genau die Residuen der ursprünglichen multiplen Regression sind. Dies bedeutet, dass Ausreißer und Heteroskedastizität auf ähnliche Weise identifiziert werden können wie bei der Betrachtung des Diagramms eines einfachen statt eines multiplen Regressionsmodells. Einflusspunkte können ebenfalls angezeigt werden - dies ist bei der multiplen Regression hilfreich, da einige Einflusspunkte in den Originaldaten nicht offensichtlich sind, bevor Sie die anderen Variablen berücksichtigen. In meinem Beispiel sieht ein mäßig großer $X_2$ -Wert in der Datentabelle möglicherweise nicht unangebracht aus, aber wenn der $X_3$ -Wert trotz $X_2$ und groß ist $X_3$ negativ korreliert ist, dann ist die Kombination selten. "Berücksichtigt man andere Prädiktoren", ist dieser $X_2$ -Wert ungewöhnlich groß und sticht in Ihrem Diagramm mit hinzugefügten Variablen stärker hervor.

$*$ Technisch gesehen sind dies die Residuen aus zwei weiteren Mehrfachregressionen: Die Residuen aus der Regression von $Y$ gegen alle Prädiktoren außer $X_2$ auf der vertikalen Achse, während die Residuen aus der Regression von $X_2$ gegen alle anderen Prädiktoren auf der horizontalen Achse liegen. Dies ist wirklich, was die Legenden von " $Y$ gegeben anderen" und " $X_2$ gegeben anderen" Ihnen sagen. Da das mittlere Residuum dieser beiden Regressionen Null ist, ist der mittlere Punkt von ( $X_2$ bei anderen, $Y$ Andere gegeben) wird nur (0, 0) sein, was erklärt, warum die Regressionslinie im Diagramm der hinzugefügten Variablen immer durch den Ursprung verläuft. Aber ich stelle oft fest, dass das Erwähnen der Achsen nur Reste von anderen Regressionen sind, die die Leute verwirren (nicht überraschend vielleicht, da wir jetzt über vier verschiedene Regressionen sprechen!), Also habe ich versucht, mich nicht mit der Sache zu befassen. Begreife sie als " $X_2$ gegebene andere" und " $Y$ gegebene andere" und es sollte dir gut gehen.

Silberfisch
quelle

Sie sind sich nicht sicher, wie Sie das fragen sollen, aber gibt es etwas, das wirklich über die Trends in den Handlungen gesagt werden kann? Zum Beispiel hängt die Anpassungsgüte jedes Trends davon ab, wie unabhängig die einzelnen Prädiktoren sind, oder so ähnlich?

Naught101

Gibt es eine Methode, um die Einheiten der Residuen auf der horizontalen und vertikalen Achse in Einheiten der zugrunde liegenden Variablen zu übersetzen?

Nicholas G

Dies ist eine hervorragende Antwort. Aber gibt es einen Tippfehler in Ihrem ersten Absatz (Prädiktorvariablen)? Sollten sie X2 und X3 sein?

Detly

@detly Danke, geändert!

Silverfish

Silberfischchen, kennst du die Antwort auf die @NicholasG-Frage? Gibt es eine Möglichkeit, die Residuen in Einheiten der X-Variablen interpretierbar zu machen?

Parseltongue

Was erklärt ein Diagramm mit hinzugefügten Variablen (partielle Regression) in einer multiplen Regression?

Antworten: