Dispersionsparameter in der GLM-Ausgabe

11

Ich habe ein glm in R ausgeführt und in der Nähe des unteren Randes der summary()Ausgabe heißt es

(Dispersion parameter for gaussian family taken to be 28.35031)

Ich habe bei Google ein bisschen gestöbert und festgestellt, dass der Dispersionsparameter verwendet wird, um den Standardfehlern zu entsprechen. Ich hoffe, jemand könnte mehr Details darüber liefern, was der Dispersionsparameter ist und wie er interpretiert werden sollte.

luciano
quelle

Antworten:

9

Eine Möglichkeit, dies zu untersuchen, besteht darin, dasselbe Modell mit verschiedenen Werkzeugen anzupassen. Hier ein Beispiel:

> fit1 <- lm( Sepal.Length ~ ., data=iris )
> fit2 <- glm( Sepal.Length ~ ., data=iris )
> summary(fit1)

Call:
lm(formula = Sepal.Length ~ ., data = iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.79424 -0.21874  0.00899  0.20255  0.73103 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared: 0.8673,     Adjusted R-squared: 0.8627 
F-statistic: 188.3 on 5 and 144 DF,  p-value: < 2.2e-16 

> summary(fit2)

Call:
glm(formula = Sepal.Length ~ ., data = iris)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.79424  -0.21874   0.00899   0.20255   0.73103  

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

(Dispersion parameter for gaussian family taken to be 0.09414226)

    Null deviance: 102.168  on 149  degrees of freedom
Residual deviance:  13.556  on 144  degrees of freedom
AIC: 79.116

Number of Fisher Scoring iterations: 2

> sqrt( 0.09414226 )
[1] 0.3068261

Sie können also sehen, dass der verbleibende Standardfehler des linearen Modells nur die Quadratwurzel der Dispersion vom glm ist, mit anderen Worten, die Dispersion (für Gaußsche Modelle) ist dieselbe wie der mittlere Quadratfehler.

Greg Snow
quelle
4

Y.1,Y.2,,Y.nR.

Wenn Sie die Normalverteilung verwenden, um Ihre Daten zu modellieren, würden Sie das wahrscheinlich schreiben

Y.ichN.(μ,σ2)

μσ

Angenommen, Ihre Daten sind Zähldaten und daher nicht normal verteilt. In diesem Fall ist es nicht einmal kontinuierlich, daher können Sie stattdessen die Poisson-Verteilung verwenden:

Y.ichP.ÖichssÖn(λ)

λE.[Y.ich]]=λV.einr[Y.ich]]=λ

Daher fügen die Leute Dispersionsparameter hinzu, um einen zusätzlichen Freiheitsgrad bei der gleichzeitigen Modellierung von Mittelwert und Varianz zu erhalten. Ich denke, jedes Lehrbuch über GLM wird Ihnen detailliertere und mathematischere Erklärungen darüber geben, was es ist, aber die Motivation ist meiner Meinung nach ziemlich einfach.

d_ijk_stra
quelle