Nachdem ich über studentisierte Residuen gelesen habe, verstehe ich nicht, wie die Idee unterschiedlicher Residuenvarianzen, die von bestimmten Werten eines Prädiktors abhängig sind (wie dies durch das Konzept studentisierter Residuen impliziert wird), nicht inhärent im Widerspruch zur Annahme der Homoskedastizität in linearen Regressionsmodellen mit einem einzigen steht Prädiktorvariable.
In meinem Lehrbuch heißt es, dass die Annahme der Homoskedastizität bedeutet, dass die Varianz von (abhängige Variable), abhängig von X = x (eine bestimmte Realisierung der unabhängigen Prädiktorvariablen), über den Wertebereich dieses Prädiktors konstant ist. Diese bedingte Varianz sei auch gleich der bedingten Varianz der Restvariablen \ varepsilon für ein gegebenes x . Nach meinem Verständnis ist dies eine Aussage auf Bevölkerungsebene. Zusammen wäre das:
Später befasst sich das Buch mit der Erkennung von Ausreißern in der abhängigen Variablen und schlägt die Verwendung standardisierter und studentisierter Residuen vor. Ein standardisierter Rest ist ein einzelner Rest geteilt durch die geschätzte Standardabweichung der Restvariablen in der Population. Im Fall des standardisierten Residuums wird somit jedes Residuum Verwendung des gleichen konstanten Wertes standardisiert, wenn Homoskedastizität angenommen werden kann:
.
Im nächsten Absatz wird jedoch der studentisierte Rest eingeführt. Das Buch sagt: "Es kann gezeigt werden, dass die Genauigkeit der Schätzung der Residuen mit dem Abstand von von seinem Mittelwert zunimmt . Im Fall des studentisierten Residuums werden Residuen nicht durch ihren geschätzten Gesamtstandardfehler geteilt, sondern durch die geschätzte Standardabweichung der Residuen am Ort . Diese Standardabweichung kann aus dieser Formel erhalten werden:
wobei der Hebelwert eines (in diesem einfachen Fall: singulären) Prädiktors . Daher scheint es mir, dass in diesem Fall die Residuen nicht alle durch denselben konstanten Wert geteilt werden (wie im Fall des standardisierten Residuums), sondern dass jetzt eine Verteilung der verbleibenden Standardfehler vorliegt, die von den Hebelwerten abhängt. Diese Hebelwerte sind an den äußersten Enden der Prädiktorvariablen größer, wie in anderen Fragen auf dieser Site erläutert wurde. Auf Wikipedia ( https://en.wikipedia.org/wiki/Errors_and_residuals#Regressions ) heißt es:
In der Regressionsanalyse ist die Unterscheidung zwischen Fehlern und Residuen subtil und wichtig und führt zum Konzept der studentisierten Residuen. Bei einer nicht beobachtbaren Funktion, die die unabhängige Variable mit der abhängigen Variablen in Beziehung setzt - beispielsweise einer Linie - sind die Abweichungen der Beobachtungen der abhängigen Variablen von dieser Funktion die nicht beobachtbaren Fehler. Wenn für einige Daten eine Regression durchgeführt wird, sind die Abweichungen der Beobachtungen der abhängigen Variablen von der angepassten Funktion die Residuen. [...] Aufgrund des Verhaltens des Regressionsprozesses können die Verteilungen von Residuen an verschiedenen Datenpunkten (der Eingabevariablen) variieren, selbst wenn die Fehler selbst identisch verteilt sind. Konkret in einer linearen Regression, in der die Fehler identisch verteilt sind, Die Variabilität der Residuen von Eingaben in der Mitte der Domäne ist höher als die Variabilität der Residuen an den Enden der Domäne [Zitieren erforderlich]: Lineare Regressionen passen besser zu Endpunkten als in der Mitte. Dies spiegelt sich auch in den Einflussfunktionen verschiedener Datenpunkte auf die Regressionskoeffizienten wider: Endpunkte haben einen größeren Einfluss.
Obwohl dies für mich intuitiv sinnvoll ist, verstehe ich nicht ganz, wie es der Annahme der Homoskedastizität nicht widerspricht. Dies liegt daran, dass auf Bevölkerungsebene die Fehlervarianz für alle Ebenen von gleich sein kann. Wenn wir diese Fehlervarianz jedoch durch Anpassen einer Regressionslinie schätzen (damit wir dann die Residuen als Schätzungen der Fehler auf Bevölkerungsebene verwenden können), werden wir automatisch und künstlich eine Verteilung der verbleibenden Standardabweichungen erzeugen, die von abhängig sindanstatt dass diese Reststandardabweichung der gleiche Singularwert für jeden Rest ist? Das würde also bedeuten, dass das standardisierte Residuum nur auf der (nicht beobachtbaren) Bevölkerungsebene wirklich nützlich ist, oder? Weil für eine gegebene Stichprobe das standardisierte Residuum unmöglich ein genauer Schätzer für alle Werte , die einfach aufgrund der Art und Weise, wie das Regressionsmodell angepasst wird , weit von sind?
Wenn dies jedoch der Fall wäre, verstehe ich die Empfehlung, die ich an so vielen Stellen gelesen habe, um die Homoskedastizität zu testen, nicht, indem ich die studentisierten Residuen gegen die Prädiktorvariable aufzeichne und prüfe, ob die Varianz der Residuen auf allen Ebenen von gleich ist . Wenn in einer angepassten Regressionslinie die Varianz der Residuen für verschiedene Ebenen unterschiedlich sein kann (wie ich denke, impliziert das Konzept des studentisierten Residuums und der Auszug aus Wikipedia), wie macht es Sinn, dass jeder empfiehlt, die Gleichheit der Residuenvarianzen über zu testen unter Verwendung der Streudiagramme studentisierter Residuen gegen das Niveau des Prädiktors ? Kann jemand bitte darauf hinweisen, welche Fehler ich hier mache?
Verwechsle ich Fehler- und Restwerte oder Bevölkerungs- und Stichprobenwerte? Ich habe überall gesucht und konnte keine zufriedenstellende Antwort finden, die besprach, warum dies kein Konflikt ist (oder zumindest keine, die ich verstanden habe). Vielen Dank im Voraus!