Lassen Sie mich zunächst einige Hintergrundinformationen geben. Ich werde meine Fragen am Ende zusammenfassen.
Die Beta-Verteilung, parametrisiert durch ihren Mittelwert und ϕ , hat Var ( Y ) = V ( μ ) / ( ϕ + 1 ) , wobei V ( μ ) = μ ( 1 - μ ) die Varianzfunktion ist.
In einer Beta-Regression (z. B. unter Verwendung des Betareg-Pakets in R) nimmt die Regression Beta-verteilte Fehler an und schätzt die festen Effekte und den Wert von .
In der glm-Regression ist es möglich, eine "Quasi" -Verteilung mit einer Varianzfunktion von . Hier nimmt das Modell also Fehler mit der gleichen Varianzfunktion wie Beta an. Die Regression schätzt dann die festen Effekte und die "Streuung" der Quasi-Verteilung.
Ich vermisse vielleicht etwas Wichtiges, aber es scheint, dass diese beiden Methoden im Wesentlichen identisch sind und sich möglicherweise nur in ihrer Schätzmethode unterscheiden.
Ich habe beide Methoden in R ausprobiert und mich auf einem DV namens "Ähnlichkeit" zurückgebildet, der im Intervall :
Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")
Coefficients (mean model with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.715175 0.067805 10.547 <2e-16 ***
N -0.063806 0.003858 -16.537 <2e-16 ***
NK -0.362716 0.015008 -24.168 <2e-16 ***
Step_ent -0.696895 0.070233 -9.923 <2e-16 ***
Phi coefficients (precision model with identity link):
Estimate Std. Error z value Pr(>|z|)
(phi) 10.6201 0.2084 50.96 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Type of estimator: ML (maximum likelihood)
Log-likelihood: 3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring)
Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit",
variance = "mu(1-mu)"), data = TapData)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.777451 0.069809 11.137 <2e-16 ***
N -0.069348 0.003983 -17.411 <2e-16 ***
NK -0.364702 0.016232 -22.468 <2e-16 ***
Step_ent -0.704680 0.072491 -9.721 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasi family taken to be 0.0838547)
Null deviance: 566.25 on 4974 degrees of freedom
Residual deviance: 422.76 on 4971 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 4
Keiner dieser Werte ist jedoch identisch.
Liegt das daran, dass das einzige, was sich in beiden Methoden tatsächlich unterscheidet, das Schätzverfahren ist? Oder gibt es einen grundlegenderen Unterschied, den ich vermisse? Gibt es auch einen Grund, eine Methode der anderen vorzuziehen?
Antworten:
Sie haben Recht, dass die Mittelwert- und Varianzfunktionen dieselbe Form haben.
Dies legt nahe, dass in sehr großen Stichproben, solange Sie keine Beobachtungen haben, die wirklich nahe bei 1 oder 0 liegen, diese dazu neigen sollten, ziemlich ähnliche Antworten zu geben, da Beobachtungen in dieser Situation ähnliche relative Gewichte haben.
Bei kleineren Stichproben, bei denen sich einige der kontinuierlichen Proportionen den Grenzen nähern, können die Unterschiede jedoch größer werden, da sich die relativen Gewichte der beiden Ansätze unterscheiden. Wenn die Punkte, die unterschiedliche Gewichte erhalten, auch relativ einflussreich sind (extremer im x-Raum), können die Unterschiede in einigen Fällen erheblich werden.
Bei der Beta-Regression würden Sie über ML schätzen, und im Fall eines Quasibinom-Modells - mindestens eines, das in R geschätzt wird, notieren Sie diesen Kommentar in der Hilfe:
Beachten Sie, dass die Betareg-Vignette am Ende von Abschnitt 2 einige Erläuterungen zum Zusammenhang zwischen diesen Modellen enthält.
quelle