Voraussetzung ist dieses Zitat aus der Vignette des R-Pakets betareg
1 .
Darüber hinaus hat das Modell einige Eigenschaften (z. B. linearer Prädiktor, Verknüpfungsfunktion, Dispersionsparameter) mit verallgemeinerten linearen Modellen (GLMs; McCullagh und Nelder 1989) gemeinsam, ist jedoch kein Sonderfall dieses Frameworks (auch nicht für feste Dispersion) )
Diese Antwort spielt auch auf die Tatsache an:
[...] Dies ist eine Art von Regressionsmodell, das geeignet ist, wenn die Antwortvariable als Beta verteilt wird. Sie können es sich analog zu einem verallgemeinerten linearen Modell vorstellen. Es ist genau das, was Sie suchen [...] (Hervorhebung von mir)
Der Fragentitel sagt schon alles: Warum werden Beta / Dirichlet-Regression nicht als verallgemeinerte lineare Modelle betrachtet (oder nicht)?
Soweit ich weiß, definiert das verallgemeinerte lineare Modell Modelle, die auf der Erwartung ihrer abhängigen Variablen beruhen, die von den unabhängigen abhängig sind.
ist die Verknüpfungsfunktion, die die Erwartung abbildet, ist die Wahrscheinlichkeitsverteilung, die Ergebnisse und die Vorhersagen, sind lineare Parameter und die Varianz.
Verschiedene GLMs legen die Beziehung zwischen Mittelwert und Varianz fest (oder lockern sie), aber muss eine Wahrscheinlichkeitsverteilung in der Exponentialfamilie sein, eine wünschenswerte Eigenschaft, die die Robustheit der Schätzung verbessern sollte, wenn ich mich richtig erinnere. Die Beta- und Dirichlet-Distributionen gehören jedoch zur exponentiellen Familie, daher habe ich keine Ideen mehr.
[1] Cribari-Neto, F. & Zeileis, A. (2009). Beta-Regression in R.
Antworten:
Überprüfen Sie die Originalreferenz:
Wie die Autoren bemerken, sind die Parameter der reparametrisierten Beta-Verteilung korreliert
Während das Modell wie ein GLM aussieht und wie ein GLM quakt, passt es nicht perfekt zum Framework.
quelle
Die Antwort von @probabilityislogic ist auf dem richtigen Weg.
Die Beta-Verteilung liegt in der Zwei-Parameter-Exponentialfamilie . Die von Nelder und Wedderburn (1972) beschriebenen einfachen GLM-Modelle enthalten nicht alle Verteilungen in der Zwei-Parameter-Exponentialfamilie.
In Bezug auf den Artikel von N & W bezieht sich das GLM auf die Dichtefunktionen des folgenden Typs (dieser wurde später in Jørgensen 1987 als exponentielle Dispersionsfamilie bezeichnet ):
mit einer zusätzlichen Verknüpfungsfunktion und einem linearen Modell für den natürlichen Parameter θ = f ( μ ) = f ( X β ) .f() θ=f(μ)=f(Xβ)
So könnten wir die obige Distribution auch umschreiben:
Die Exponentialfamilie mit zwei Parametern ist:
Das sieht ähnlich aus, ist aber allgemeiner (auch wenn eines der konstant ist).θ
Der Unterschied ist klar und es ist auch nicht möglich, die Beta-Distribution in eine Form als GLM zu bringen.
Es fehlt mir jedoch ein ausreichendes Verständnis, um eine intuitivere und fundiertere Antwort zu erstellen (ich habe das Gefühl, dass es viel tiefere und elegantere Beziehungen zu einer Vielzahl grundlegender Prinzipien geben kann). Der GLM verallgemeinert die Verteilung des Fehlers unter Verwendung eines einzelnen variablen Exponentialdispersionsmodells anstelle eines Modells der kleinsten Quadrate und verallgemeinert die lineare Beziehung im Mittel unter Verwendung einer Verknüpfungsfunktion.
Die beste und einfachste Intuition scheint die Dispersion- -Terme im Exponential zu sein, die mit allem multipliziert wird und daher die Dispersion nicht mit θ variiert . Während mehrere Zwei-Parameter-Exponentialfamilien und Quasi-Likelihood-Methoden ermöglichen, dass der Dispersionsparameter auch eine Funktion von θ ist .α(ϕ) θ θ
quelle
Ich glaube nicht, dass die Betaverteilung Teil der exponentiellen Dispersionsfamilie ist . Um dies zu erreichen, müssen Sie eine Dichte haben
für angegebene Funktionen und d ( ) . Der Mittelwert wird als c ' ( & thgr; ) und die Varianz als & tgr; c " ( & thgr; ) angegeben . Der Parameter θ wird als kanonischer Parameter bezeichnet.c() d() c′(θ) τc′′(θ) θ
Die Betaverteilung kann nicht auf diese Weise geschrieben werden - eine Möglichkeit, dies zu sehen, besteht darin, festzustellen, dass die Log-Wahrscheinlichkeit keinen Ausdruck enthält -, sondern stattdessen log [ y ] und log [ 1 - y ]y log[y] log[1−y]
Ein weiterer Weg, um zu sehen, dass Beta keine exponentielle Dispersionsfamilie ist, besteht darin, dass es als wobeixundzunabhängig sind und beide Gammaverteilungen mit dem gleichen Skalenparameter folgen (und Gamma die Exponentialfamilie ist).y=xx+z x z
quelle