Wie versteht man standardisierte Residuen in der Regressionsanalyse?

Gemäß der Regressionsanalyse anhand eines Beispiels ist das Residuum die Differenz zwischen der Antwort und dem vorhergesagten Wert. Dann wird gesagt, dass jedes Residuum eine andere Varianz aufweist, sodass standardisierte Residuen berücksichtigt werden müssen.

Die Varianz gilt jedoch für eine Gruppe von Werten. Wie kann ein einzelner Wert eine Varianz aufweisen?

regression residuals ccshao
quelle

Es wäre hilfreich, das Lehrbuch direkt zu zitieren oder (falls es online verfügbar ist) einen Link dazu bereitzustellen. Vieles kann verloren gehen, wenn auch nur ein einziges Wort aus der Reihenfolge oder aus dem Zusammenhang gerissen wird. (Zum Beispiel werden Residuen normalerweise als Unterschied zwischen Vorhersage und Antwort definiert, nicht umgekehrt.)

whuber

Einzelne Zufallsvariablen weisen Abweichungen auf. Residuen sind Zufallsvariablen - sie sind Funktionen der Daten. Einzelne Residuen (standardisiert oder nicht) weisen also Abweichungen auf.

Gast

#whuber Das Lehrbuch lautet "Regression.Analysis.by.Example", Seite 89. Es wurden Arten von Residuen erörtert. gewöhnlicher Rest ist die Antwortvorhersage. @guest "Einzelne Zufallsvariablen haben Varianzen", das verstehe ich nicht, Variablen sind eine Eigenschaft für eine Stichprobe, nicht wahr? Warum hat ein einzelner Wert in einer Stichprobe (z. B. ein Residuum) eine Varianz?

ccshao

Hat das Buch einen Autor ...? Das macht es normalerweise einfacher zu finden. Ich denke, dass Sie Stichprobenvarianz und Populationsvarianz verwechseln. Der Rest ist unbekannt, bevor das Experiment durchgeführt wird. Die Antwort ist zufällig, ebenso wie der Rest, da er eine Funktion der Antwort ist. Wenn wir von der Varianz des Residuums sprechen, sprechen wir von der Varianz der zugrunde liegenden Zufallsvariablen.

MånsT

Entschuldigung für die Unannehmlichkeiten, die Autoren sind SAMPRIT CHATTEFUEE und ALI S. HADI, Regressionsanalyse durch Beispiel, vierte Ausgabe.

ccshao

Antworten:

Ich würde sagen, dass eine einzelne Zahl (wie ein Residuum), die aus einer zufälligen Ziehung aus einer Wahrscheinlichkeitsverteilung resultiert, ein realisierter Wert ist , keine Zufallsvariable . Ebenso würde ich sagen, dass die Menge von Residuen, berechnet aus Ihren Daten und Ihrer Modellanpassung unter Verwendung von , eine Menge von realisierten Werten ist. Dieser Satz von Zahlen kann lose als unabhängige Ziehungen aus einer zugrunde liegenden Verteilung ~ . (Leider gibt es hier jedoch einige zusätzliche Komplexitäten. Beispielsweise haben Sie tatsächlich kein $N$ $\bf{e}=\bf{y}-\bf{\hat{y}}$ $\epsilon$ $\mathcal{N}(\mu,\sigma^2)$ $N$ unabhängige Informationen, da die Residuen zwei Bedingungen erfüllen müssen: und ) $\bf{e}$ $\sum e_i=0$ $\sum x_ie_i=0$

Nun, angesichts einiger Zahlen, seien es Residuen oder was auch immer, ist es sicher wahr, dass sie eine Varianz haben, , aber das ist uninteressant. Uns geht es darum, etwas über den Datengenerierungsprozess sagen zu können (zum Beispiel um die Varianz der Bevölkerungsverteilung abzuschätzen). Unter Verwendung der vorhergehenden Formel könnten wir eine Annäherung geben, indem wir das durch die verbleibenden Freiheitsgrade ersetzen , aber dies ist möglicherweise keine gute Annäherung. Dies ist ein Thema, das sehr schnell sehr kompliziert werden kann, aber einige mögliche Gründe könnten Heteroskedastizität sein (dh, dass die Varianz der Population auf verschiedenen Ebenen unterschiedlich ist ) und das Vorhandensein von Ausreißern $\sum(e_i-\bar{e})^2/N$ $N$ $x$ (dh, dass ein gegebener Rest aus einer völlig anderen Population stammt). In der Praxis werden Sie mit ziemlicher Sicherheit nicht in der Lage sein, die Varianz der Population abzuschätzen, aus der ein Ausreißer gezogen wurde, aber theoretisch weist sie dennoch eine Varianz auf. Ich vermute, dass die Autoren etwas in diese Richtung gedacht haben, aber ich sollte beachten, dass ich dieses Buch nicht gelesen habe.

Update: Beim erneuten Lesen der Frage vermute ich, dass sich das Zitat möglicherweise auf die Art und Weise bezieht, wie der Wert eines Punkts die angepasste Regressionslinie und damit auf den Wert des mit diesem Punkt verbundenen Residuums beeinflusst. Die Schlüsselidee, die hier zu erfassen ist, ist die Hebelwirkung . Ich diskutiere diese Themen in meiner Antwort hier: Interpretieren von plot.lm () . $x$

gung - Monica wieder einsetzen
quelle

Vielen Dank! Die Hebelwirkung ist das, was ich vorher nicht verstehe. Es gibt keinen oder nur einen geringen Regressionseffekt für Daten, deren x nahe bei avg (x) liegt, daher eine hohe Varianz.

ccshao