Führen normalverteiltes X und Y eher zu normalverteilten Residuen?

12

Hier wird die Fehlinterpretation der Annahme der Normalität in der linearen Regression diskutiert (die 'Normalität' bezieht sich eher auf das X und / oder Y als auf die Residuen), und das Poster fragt, ob es möglich ist, nicht normalverteiltes X und Y zu haben und haben noch normalverteilte Residuen.

Meine Frage ist: Normalerweise sind X und Y eher verteilt zu normalverteilten Residuen? Es gab viele verwandte Beiträge, aber ich glaube nicht, dass jemand diese Frage speziell gestellt hat.

Mir ist klar, dass dies vielleicht ein trivialer Punkt ist, wenn es nur eine Regression gibt, aber weniger, wenn es mehrere Tests gibt. Angenommen, ich habe 100 X-Variablen, die alle den gleichen Versatz haben, und ich möchte sie alle testen. Wenn ich sie alle in eine Normalverteilung transformieren würde, wäre es wahrscheinlich, dass aufgrund nicht normalverteilter Residuen weniger X-Variablen erneut untersucht werden müssten (mit unterschiedlicher / keiner Transformation), oder wäre eine Transformation vor der Regression völlig willkürlich?

Scott
quelle
1
Um "wahrscheinlicher" zu antworten, müssten wir vermutlich etwas über die gemeinsame Verteilung sagen, nicht nur über die Margen.
Glen_b -Reinstate Monica

Antworten:

15

Nein. Die Residuen sind die von X abhängigen Werte (abzüglich des vorhergesagten Mittelwerts von Y an jedem Punkt in X ). Sie können ändern , X eine Möglichkeit , Sie möchten ( X + 10 , X - 1 / 5 , X / π ) und die Y - Werte , die entsprechen den X - Werte an einem bestimmten Punkt in X wird sich nicht ändern. Somit ist die bedingte Verteilung von Y (dh Y | XY.XY.XXX+10X-1/5X/πY.XXY.Y.|X) wird dasselbe sein. Das heißt, es wird normal sein oder nicht, wie zuvor. (Um dieses Thema besser zu verstehen, kann es hilfreich sein, meine Antwort hier zu lesen: Was ist, wenn Residuen normal verteilt sind, Y jedoch nicht? )

Durch das Ändern von kann (abhängig von der Art der von Ihnen verwendeten Datenumwandlung) die funktionale Beziehung zwischen X und Y geändert werden . Bei einer nichtlinearen Änderung von X (z. B. zum Entfernen des Versatzes) wird ein Modell, das zuvor ordnungsgemäß angegeben wurde, falsch angegeben. Nichtlineare Transformationen von X werden häufig verwendet, um die Beziehung zwischen X und Y zu linearisierenXXY.XXXY. , die Beziehung interpretierbarer zu machen oder eine andere theoretische Frage anzusprechen.

Wenn Sie mehr darüber erfahren möchten, wie nichtlineare Transformationen das Modell und die Fragen, auf die das Modell antwortet, ändern können (mit Schwerpunkt auf der Protokolltransformation), lesen Sie möglicherweise die folgenden hervorragenden CV-Threads:

XY.β^00Xβ^1 (m)=100×β^1 (cm)Y. über 1 Meter um das 100-fache ansteigen wie über 1 cm).


Y. Y.Y.λY.X


XY.

Y.XR

set.seed(9959)              # this makes the example exactly reproducible
x = rnorm(100)              # x is drawn from a normal population
y = 7 + 0.6*x + runif(100)  # the residuals are drawn from a uniform population

mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -0.4908 -0.2250 -0.0292  0.2539  0.5303 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  7.48327    0.02980   251.1   <2e-16 ***
# x            0.62081    0.02971    20.9   <2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared:  0.8167,  Adjusted R-squared:  0.8148 
# F-statistic: 436.7 on 1 and 98 DF,  p-value: < 2.2e-16

Bildbeschreibung hier eingeben

In den Darstellungen sehen wir, dass beide Ränder einigermaßen normal erscheinen und die gemeinsame Verteilung einigermaßen bivariant normal aussieht. Nichtsdestotrotz zeigt sich die Gleichförmigkeit der Residuen in ihrem qq-Plot; beide Schwänze fallen relativ zu einer Normalverteilung zu schnell ab (wie sie tatsächlich müssen).

gung - Wiedereinsetzung von Monica
quelle
0

Die kurze Antwort lautet in der klassischen einfachen Regressionstheorie: X ist festgelegt und als bekannt vorausgesetzt (siehe z. B. http://www.theanalysisfactor.com/the-distribution-of-independent-variables-in-regression-models-2/ ), auch ohne Messfehler, kann Ihre Beta-Version der kleinsten Quadrate verzerrt und sogar inkonsistent sein (siehe https://www.google.com/url?sa=t&source=web&rct=j&ei=Bd3sU4_kHfPjsATAm4LADA&url=https://files.nyu .edu / mrg217 / public / measurement_handouts.pdf & cd = 2 & ved = 0CCMQFjAB & usg = AFQjCNF_pZvocW1SzInQPYpQTifUsQ36kQ & sig2 = 4lAnOQO23FiZbZ7323jOzA ).

Um X zu einer Variablen zu machen, führt Wikipedia zum Gauß-Markov-Theorem ganz kurz Folgendes aus:

"Bei den meisten Behandlungen von OLS wird angenommen, dass die Daten X fest sind. Diese Annahme wird für eine überwiegend nicht experimentelle Wissenschaft wie die Ökonometrie als unangemessen angesehen. [2] Stattdessen werden die Annahmen des Gauß-Markov-Theorems von X abhängig gemacht. "

was ich als bedeutende, wenig schmeichelhafte Transformation von Wissenschaft zu Kunst oder Kunst / Wissenschaft verstehe.

Ajkoer
quelle