Logarithmisch verknüpftes Gamma-GLM vs. logarithmisch verknüpftes Gaußsches GLM vs. logarithmisch transformiertes LM

12

Aus meinen Ergebnissen geht hervor, dass GLM Gamma die meisten Annahmen erfüllt, aber ist es eine lohnende Verbesserung gegenüber dem logarithmisch transformierten LM? Die meiste Literatur, die ich gefunden habe, befasst sich mit Poisson- oder Binomial-GLMs. Ich fand den Artikel EVALUIERUNG VON GENERALISIERTEN LINEAREN MODELLANNAHMEN MIT RANDOMISIERUNG sehr nützlich, aber es fehlen die tatsächlichen Diagramme, mit denen eine Entscheidung getroffen wurde. Hoffentlich kann mich jemand mit Erfahrung in die richtige Richtung weisen.

Ich möchte die Verteilung meiner Antwortvariablen T modellieren, deren Verteilung unten dargestellt ist. Wie Sie sehen können, ist es positiv Schiefe:
Gültiges XHTML.

Ich muss zwei kategoriale Faktoren berücksichtigen: METH und CASEPART.
Beachten Sie, dass es sich bei dieser Studie hauptsächlich um eine explorative Studie handelt, die im Wesentlichen als Pilotstudie dient, bevor ein Modell theoretisiert und eine Leistungssteigerung durchgeführt wird.

Ich habe die folgenden Modelle in R mit ihren Diagnoseplots:

LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat)

Gültiges XHTML
Gültiges XHTML

GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log'))

Gültiges XHTML
Gültiges XHTML

GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log'))

Gültiges XHTML
Gültiges XHTML

Mit dem Shapiro-Wilks-Test auf Residuen habe ich auch folgende P-Werte erreicht:

LM.LOG: 2.347e-11  
GLM.GAMMA: 0.6288  
GLM.GAUS:  0.6288  

Ich habe AIC- und BIC-Werte berechnet, aber wenn ich richtig bin, sagen sie mir aufgrund der unterschiedlichen Familien in den GLMs / LM nicht viel.

Ich habe auch die Extremwerte notiert, kann sie aber nicht als Ausreißer klassifizieren, da es keine eindeutige "besondere Ursache" gibt.

TLJ
quelle
1
Es ist erwähnenswert, dass alle drei Modelle in dem Sinne multiplikativ sind, dass eine Zunahme eines Regressors mit einer relativen Änderung der typischen Reaktion verbunden ist. Für die beiden logarithmisch linearen GLMs bedeutet "typisch" ein arithmetisches Mittel, während wir für das logarithmisch transformierte LM über geometrische Mittel sprechen. Daher ist die Art und Weise, wie Sie Effekte und Vorhersagen interpretieren möchten, auch ein entscheidender Faktor für die Modellauswahl, da nicht nur perfekte Restdiagramme vorliegen (diese sind ohnehin datengetrieben).
Michael M
@MichaelMayer - Danke für die Antwort, sehr hilfreich. Könnten Sie etwas genauer erläutern, wie sich die Auswahl auf die Interpretation auswirkt? Oder zeige mich in die Richtung einer Referenz?
TLJ
@ Marcinthebox- Ich habe diese Frage vor dem Posten durchgesehen. Beantwortet meine Frage nicht genau.
TLJ

Antworten:

18

Nun, ganz klar ist die log-lineare Anpassung an den Gaußschen Wert ungeeignet. Die Residuen weisen eine starke Heteroskedastizität auf. Also lassen Sie uns das aus Rücksicht nehmen.

Was übrig bleibt, ist lognormal vs gamma.

T

In diesem Fall erscheint jedes Modell ungefähr gleich gut geeignet. Beide haben eine zum Quadrat des Mittelwerts proportionale Varianz, sodass das Muster der Verteilung der Residuen gegen die Anpassung ähnlich ist.

Ein niedriger Ausreißer passt etwas besser zu einem Gamma als ein Lognormal (umgekehrt für einen hohen Ausreißer). Bei einem gegebenen Mittelwert und einer gegebenen Varianz ist der logarithmische Normalwert schiefer und weist einen höheren Variationskoeffizienten auf.

exp(μ)σ2

Siehe auch hier und hier für einige verwandte Diskussionen.

Glen_b - Setzen Sie Monica wieder ein
quelle
1
@ Gleb_b Diese Antwort ist sehr nützlich für meine Analyse. Ich habe ein paar Fragen. (1) Ist dies zunächst "Beide haben eine Varianz, die proportional zum Quadrat des Mittelwerts ist ...", basierend auf der Darstellung von Residuum und Anpassung? (2) Und ist dies "Ein niedriger Ausreißer passt etwas besser zu einem Gamma ... Bei einem gegebenen Mittelwert und einer gegebenen Varianz ...", basierend auf dem qq-Diagramm? (3) Nach meinem Verständnis setzt glm (z. B. Gamma, Poisson und negatives Binomial) keine Normalität der Residuen und keine Homogenität der Varianz voraus. Wenn ja, warum ist die Darstellung von Residuen gegenüber angepassten und normalen qq-Diagrammen für die Diagnose relevant?
Tatami
2
Dies ist umfangreich genug, um eine ganz neue Frage zu sein, oder sogar mehrere (von denen die meisten bereits auf unserer Website beantwortet wurden!) - 1. Teil des Modells. 2. Nein, dies sind allgemeine Fakten zu den Distributionen. 3. Richtig, sie sind nicht normal, aber die im QQ-Diagramm verwendeten Residuen sind (intern studentisierte) Abweichungs-Residuen, die - insbesondere im Gamma-Fall - im Allgemeinen der Normalverteilung sehr nahe kommen (ich habe eine Antwort geschrieben, in der erklärt wird, warum bei Irgendwann) und sollte im Wesentlichen konstante Varianz haben. Eine gewisse Abweichung von der Normalität ist nicht unerwartet, aber eine erhebliche Abweichung ... ctd
Glen_b
2
ctd ... from normality (unter der Annahme, dass die anderen Diagramme in Ordnung sind) weist möglicherweise auf ein Problem mit der Verteilungsannahme hin.
Glen_b