Wann wird die Schüler- oder Normalverteilung in der linearen Regression verwendet?

10

Ich betrachte einige Probleme und in einigen, um die Koeffizienten zu testen, sehe ich manchmal Leute, die die Schülerverteilung verwenden, und manchmal sehe ich die Normalverteilung. Was ist die Regel?

Löwe
quelle
3
Dies ist keine Antwort, aber beachten Sie, dass sich die Verteilung der Normalverteilung nähert, wenn der Freiheitsgradparameter größer wird. Nach gibt es keinen nennenswerten Unterschied, insbesondere bei den meisten Hypothesentest-Frameworks. Das einschränkende Verhalten ist "von oben" in dem Sinne, dass wenn und , dannist stochastisch größer als. ν ν 30 T t ν Z N ( 0 , 1 ) | T | | Z |tνν30TtνZN(0,1)|T||Z|
Kardinal

Antworten:

15

Die Normalverteilung ist die große Stichprobenverteilung bei vielen bedeutsamen statistischen Problemen, die eine Version des zentralen Grenzwertsatzes betreffen: Sie haben (ungefähr) unabhängige Informationen, die addiert werden, um zur Antwort zu gelangen. Wenn Parameterschätzungen asymptotisch normal sind, sind ihre Funktionen auch asymptotisch normal (in regulären Fällen).

Andererseits wird die Student Verteilung unter restriktiveren Bedingungen für normale Regressionsfehler abgeleitet. Wenn Sie diese Annahme kaufen können, können Sie die Verteilung kaufen , die zum Testen der Hypothese in der linearen Regression verwendet wird. Die Verwendung dieser Verteilung bietet breitere Konfidenzintervalle als die Verwendung der Normalverteilung. Die wesentliche Bedeutung davon ist, dass Sie in kleinen Stichproben Ihr Maß für die Unsicherheit, den mittleren quadratischen Regressionsfehler oder die Standardabweichung der Residuen schätzen müssen . (In großen Stichproben haben Sie so viele Informationen, als ob Sie es wüssten, sodass die Verteilung zur Normalverteilung degeneriert.)t σ tttσt

Es gibt einige Fälle in der linearen Regression, selbst bei endlichen Stichproben, in denen die Student-Verteilung nicht gerechtfertigt werden kann. Sie beziehen sich auf Verstöße gegen die Bedingungen zweiter Ordnung in Bezug auf Regressionsfehler. nämlich, dass sie (1) konstante Varianz und (2) unabhängig sind. Wenn diese Annahmen verletzt werden und Sie Ihre Standardfehler mit dem Eicker / White-Schätzer für heteroskedastische, aber unabhängige Residuen korrigieren ; oder Newey-West- Schätzer für seriell korrelierte Fehler oder gruppierte StandardfehlerFür clusterkorrelierte Daten gibt es keine Möglichkeit, eine vernünftige Begründung für die Verteilung von Schülern zu finden. Wenn Sie jedoch eine geeignete Version des asymptotischen Normalitätsarguments (Traingular-Arrays usw.) verwenden, können Sie die normale Annäherung rechtfertigen (obwohl Sie bedenken sollten, dass Ihre Konfidenzintervalle sehr wahrscheinlich zu eng wären).

StasK
quelle
1
(+1) Ich liebe die Implikation am Anfang des dritten Absatzes, dass die lineare Regression mit unendlichen (nicht "endlichen") Stichproben durchgeführt wird!
whuber
@whuber: :) Wenn es in meinen Büchern normal ist, muss es sich auf CLT oder etwas Asymptotisches stützen. Ansonsten macht es so viel Sinn wie diese .
StasK
6

Ich mag die Darstellung der Schülerverteilung als Mischung aus einer Normalverteilung und einer Gammaverteilung:

Student(x|μ,σ2,ν)=0Normal(x|μ,σ2ρ)Gamma(ρ|ν2,ν2)dρ

Es ist zu beachten, dass der Mittelwert der Gammaverteilung und die Varianz dieser Verteilung . Wir können also die t-Verteilung als Verallgemeinerung der Annahme einer konstanten Varianz auf eine "ähnliche" Varianzannahme betrachten. steuert grundsätzlich, wie ähnlich wir die Abweichungen zulassen. Sie sehen dies auch als "zufällig gewichtete" Regression an, da wir das obige Integral wie folgt als "versteckte Variable" darstellen können:E[ρ|ν]=1V[ρ|ν]=2νν

yi=μi+eiρi

Wobei und alle Variablen unabhängig sind. Tatsächlich ist dies im Grunde nur die Definition der t-Verteilung alseiN(0,σ2)ρiGamma(ν2,ν2)Gamma(ν2,ν2)1νχν2

Sie können sehen, warum dieses Ergebnis die Schüler-t-Verteilung im Vergleich zur Normalverteilung "robust" macht, da ein großer Fehler aufgrund eines großen Werts von oder aufgrund eines kleinen Werts von . Da nun allen Beobachtungen gemeinsam ist, aber spezifisch für die i-te ist, ist der allgemeine " Menschenverstand" zu schließen, dass Ausreißer Beweise für kleine . Wenn Sie eine lineare Regression , werden Sie außerdem feststellen, dass das Gewicht für die i-te Beobachtung ist, vorausgesetzt, ist bekannt:yiμiσ2ρiσ2ρiρiμi=xiTβρiρi

β^=(iρixixiT)1(iρixiyi)

Ein Ausreißer ist also ein Beweis für ein kleines was bedeutet, dass die i-te Beobachtung weniger Gewicht erhält. Zusätzlich ist ein kleiner "Ausreißer" - eine Beobachtung, die viel besser vorhergesagt / angepasst wird als der Rest - ein Beweis für große . Daher wird dieser Beobachtung in der Regression mehr Gewicht beigemessen. Dies entspricht dem, was man intuitiv mit einem Ausreißer oder einem guten Datenpunkt machen würde.ρ iρiρi

Beachten Sie, dass es keine "Regel" für die Entscheidung dieser Dinge gibt, obwohl meine und andere Antworten auf diese Frage nützlich sein können, um einige Tests zu finden, die Sie entlang des endlichen Varianzpfads durchführen können (Student t ist eine unendliche Varianz für Freiheitsgrade kleiner oder gleich) bis zwei).

Wahrscheinlichkeitslogik
quelle
+1: Das sieht richtig aus, aber ich denke nicht, dass Sie eine Mischung aus einer Normal- und einer Gammaverteilung sagen sollten, sondern eine Normal-Gamma-Normal-Verbundverteilung, und diese Konstruktion motivieren, indem Sie sagen, dass die Normal-Gamma-Verteilung die ist Konjugat vor der Normalverteilung (parametrisiert durch Mittelwert und Präzision).
Neil G
Ja, Punkt über die Mischung - obwohl ich mir momentan keinen ungeschickten Weg vorstellen kann, sie zu korrigieren. Beachten Sie, dass diese Form nicht nur für konjugierte Verteilungen gilt. Wenn wir beispielsweise das Gamma-PDF durch ein invertiertes exponentielles PDF ersetzen, erhalten wir die Laplace-Verteilung. Dies führt zu "kleinsten absoluten Abweichungen" anstelle von kleinsten Quadraten als eine Form der Robustheit der Normalverteilung. Andere Verteilungen würden zu anderen "Robustifizierungen" führen - vielleicht nicht so analytisch hübsch wie Studenten.
Wahrscheinlichkeitslogik
X(U/ν)