Warum ist die Normalität von Residuen für die Schätzung der Regressionsgeraden „überhaupt nicht wichtig“?

21

Gelman und Hill (2006) schreiben auf Seite 46, dass:

Die im Allgemeinen unwichtigste Regressionsannahme ist, dass die Fehler normal verteilt sind. Tatsächlich ist für die Schätzung der Regressionsgeraden (im Vergleich zur Vorhersage einzelner Datenpunkte) die Annahme der Normalität überhaupt nicht wichtig. Im Gegensatz zu vielen Regressionslehrbüchern empfehlen wir daher keine Diagnose der Normalität von Regressionsresten.

Gelman und Hill scheinen diesen Punkt nicht weiter zu erklären.

Sind Gelman und Hill richtig? Wenn ja, dann:

  1. Warum "überhaupt nicht wichtig"? Warum ist es weder wichtig noch völlig irrelevant?

  2. Warum ist die Normalität von Residuen bei der Vorhersage einzelner Datenpunkte wichtig?

Gelman, A. & Hill, J. (2006). Datenanalyse mit Regression und mehrstufigen / hierarchischen Modellen. Cambridge University Press

user1205901 - Setzen Sie Monica wieder ein
quelle

Antworten:

21

Für die Schätzung ist Normalität nicht gerade eine Annahme, aber ein Hauptaspekt wäre Effizienz; In vielen Fällen reicht ein guter linearer Schätzer aus, und in diesem Fall (von Gauß-Markov) wäre die LS-Schätzung das Beste von all den Dingen, die in Ordnung wären. (Wenn Ihre Schwänze ziemlich schwer oder sehr leicht sind, kann es sinnvoll sein, etwas anderes in Betracht zu ziehen.)

Bei Tests und CIs ist die Normalität zwar vorausgesetzt, sie ist jedoch in der Regel nicht allzu kritisch (auch diesmal, solange die Schwänze nicht wirklich schwer oder leicht sind oder vielleicht einer von beiden), zumindest nicht in sehr schwachen Situationen. Bei kleinen Stichproben haben die Tests und typischen CIs in der Regel nahe an ihren nominalen Eigenschaften (nicht zu weit von der angegebenen Signifikanzstufe oder Abdeckung entfernt) und zeigen eine gute Leistung (angemessene Leistung für typische Situationen oder CIs, die nicht viel breiter als Alternativen sind) - während Sie sich bewegen Weit entfernt vom Normalfall kann die Leistung ein größeres Problem darstellen. In diesem Fall verbessern große Samples die relative Effizienz im Allgemeinen nicht. Wenn also die Effektgrößen so sind, dass die Leistung in einem Test mit relativ guter Leistung nur mäßig ist, ist sie möglicherweise sehr schlecht für die Tests, die Normalität annehmen.

Diese Tendenz, sich den nominalen Eigenschaften für CIs und Signifikanzniveaus in Tests anzunähern, beruht auf mehreren Faktoren, die zusammenwirken (einer davon ist die Tendenz linearer Kombinationen von Variablen, sich der Normalverteilung anzunähern, solange viele Werte beteiligt sind, und Keiner von ihnen trägt einen großen Teil zur Gesamtvarianz bei.

Bei einem auf der normalen Annahme basierenden Vorhersageintervall ist die Normalität jedoch relativ kritisch, da die Breite des Intervalls stark von der Verteilung eines einzelnen Werts abhängt . Selbst dort führt jedoch die Tatsache, dass viele unimodale Verteilungen sehr nahe an 95% ihrer Verteilung innerhalb von etwa 2 s des Mittelwerts liegen, für die gebräuchlichste Intervallgröße (95% Intervall) zu einer angemessenen Leistung eines normalen Vorhersageintervalls wenn die Verteilung nicht normal ist. [Dies überträgt sich jedoch nicht so gut auf viel engere oder breitere Intervalle - sagen wir ein 50% -Intervall oder ein 99,9% -Intervall.]

Glen_b - Setzen Sie Monica wieder ein
quelle
"Die Tendenz linearer Variablenkombinationen, nahe an der Normalverteilung zu liegen." - Ich nehme an, dass dies nicht mit dem zentralen Grenzwertsatz zusammenhängt. Ist es? Wenn nicht, was für ein "Theorem" ist diese Aussage?
Heisenberg,
1
@ Eisenberg Es hat eine Verbindung zu bestimmten Versionen des CLT, ja. (siehe die Lyapunov- und Lindeberg-Versionen hier ). Wenn Sie möchten, dass ein Theorem für endliche Stichproben gilt, sehen wir uns eine Version des Berry-Esseen-Theorems an. Die Aussage war jedoch eher eine Beobachtung (daher die Verwendung des Wortes "Tendenz") als ein Theorem.
Glen_b
7

2: Bei der Vorhersage einzelner Datenpunkte geht das Konfidenzintervall um diese Vorhersage davon aus, dass die Residuen normal verteilt sind.

Dies ist nicht viel anders als die allgemeine Annahme über Konfidenzintervalle - um gültig zu sein, müssen wir die Verteilung verstehen, und die häufigste Annahme ist Normalität. Zum Beispiel funktioniert ein Standard-Konfidenzintervall um einen Mittelwert, weil sich die Verteilung der Stichprobenmittelwerte der Normalität nähert, sodass wir eine z- oder t-Verteilung verwenden können

Radfahrer
quelle