Wann werden Gamma-GLMs verwendet?

88

Die Gammaverteilung kann eine große Bandbreite von Formen annehmen, und angesichts des Zusammenhangs zwischen Mittelwert und Varianz durch ihre beiden Parameter scheint sie geeignet zu sein, die Heteroskedastizität in nicht negativen Daten auf eine Art und Weise zu behandeln, wie dies bei logarithmisch transformiertem OLS der Fall ist Sie müssen weder auf WLS noch auf einen heteroskedastizitätskonstanten VCV-Schätzer verzichten.

Ich würde es eher für die routinemäßige nicht-negative Datenmodellierung verwenden, aber ich kenne niemanden, der es verwendet, ich habe es nicht in einem formalen Klassenzimmer gelernt, und die Literatur, die ich lese, verwendet es nie. Wann immer ich etwas wie "praktische Verwendungen von Gamma-GLM" google, habe ich den Rat, es für Wartezeiten zwischen Poisson-Ereignissen zu verwenden. OKAY. Aber das scheint restriktiv und kann nicht seine einzige Verwendung sein.

Auf den ersten Blick scheint es, dass der Gamma-GLM ein relativ einfaches Mittel zur Modellierung nicht negativer Daten ist, wenn man die Flexibilität des Gammas berücksichtigt. Natürlich müssen Sie QQ-Diagramme und Restdiagramme wie jedes Modell überprüfen. Aber gibt es schwerwiegende Nachteile, die ich vermisse? Jenseits der Kommunikation mit Leuten, die "nur OLS betreiben"?

generic_user
quelle

Antworten:

57

Das Gamma hat eine Eigenschaft, die vom Lognormal gemeinsam genutzt wird. Das heißt, wenn der Formparameter konstant gehalten wird, während der Skalierungsparameter variiert wird (wie dies normalerweise bei beiden Modellen der Fall ist), ist die Varianz proportional zum mittleren Quadrat (konstanter Variationskoeffizient).

Etwas Ähnliches tritt ziemlich häufig bei Finanzdaten auf, oder in der Tat bei vielen anderen Arten von Daten.

Daher ist es häufig für Daten geeignet, die kontinuierlich, positiv und recht schief sind und bei denen die Varianz auf der logarithmischen Skala nahezu konstant ist, obwohl es eine Reihe anderer bekannter (und häufig ziemlich leicht verfügbarer) Auswahlmöglichkeiten gibt Eigenschaften.

Darüber hinaus ist es üblich, eine logarithmische Verknüpfung mit dem Gamma-GLM einzurichten (die natürliche Verknüpfung wird relativ selten verwendet). Es unterscheidet sich geringfügig von der Anpassung eines normalen linearen Modells an die Protokolle der Daten dadurch, dass das Gamma auf der Protokollskala in unterschiedlichem Maße schief bleibt, während das Normal (das Protokoll eines Protokollnormalen) symmetrisch ist. Dies macht es (das Gamma) in einer Vielzahl von Situationen nützlich.

Ich habe praktische Anwendungen für Gamma-GLMs gesehen, die (mit realen Datenbeispielen) in (aus dem Kopf) de Jong & Heller und Frees diskutiert wurden, sowie zahlreiche Artikel; Ich habe auch Anwendungen in anderen Bereichen gesehen. Oh, und wenn ich mich recht erinnere, verwenden Venables und Ripleys MASS es bei Abwesenheit in der Schule (die quine-Daten; Bearbeiten: stellt sich heraus, dass es tatsächlich in Statistics Complements to MASS enthalten ist , siehe Seite 11, die 14. Seite des PDFs, es hat aber einen Log-Link es gibt eine kleine Verschiebung des DV). Äh, und McCullagh und Nelder haben ein Beispiel für die Blutgerinnung gemacht, obwohl es vielleicht eine natürliche Verbindung gewesen sein könnte.

Dann gibt es Faraways Buch, in dem er ein Beispiel für eine Autoversicherung und ein Beispiel für Daten zur Halbleiterherstellung gemacht hat.

Bei der Auswahl einer der beiden Optionen gibt es einige Vor- und einige Nachteile. Seit dieser Zeit sind beide einfach zu montieren; Es ist im Allgemeinen eine Frage der Auswahl, was am besten geeignet ist.

Dies ist bei weitem nicht die einzige Option. Zum Beispiel gibt es auch inverse Gaußsche GLMs, die schiefer / schwerer (und sogar heteroskedastischer) sind als Gamma oder lognormal.

Was die Nachteile angeht, ist es schwieriger, Vorhersageintervalle durchzuführen. Einige Diagnoseanzeigen sind schwerer zu interpretieren. Das Berechnen der Erwartungen auf der Skala des linearen Prädiktors (im Allgemeinen der logarithmischen Skala) ist schwieriger als für das äquivalente logarithmische Normalmodell. Hypothesentests und Intervalle sind im Allgemeinen asymptotisch. Dies sind oft relativ kleine Probleme.

Es hat einige Vorteile gegenüber der lognormalen log-Link-Regression (Protokollierung und Anpassung eines normalen linearen Regressionsmodells). Eines ist, dass die mittlere Vorhersage einfach ist.

Glen_b
quelle
3
Sollte es "Gamma" oder "Gamma" sein? Wir wissen, dass es nicht nach einer Person benannt ist. Ich habe viel häufiger Kleinbuchstaben "g" gesehen. Die Distribution ist eindeutig nach der Funktion benannt, die bis ins 18. Jahrhundert zurückreicht.
Nick Cox
2
Die Notation ist der einzige Grund, den ich für diese Verwendung gesehen habe. Wie Sie wissen, werden bei Verteilungen in der Regel Nachnamen in Großbuchstaben wiedergegeben, z. B. Poisson oder Gauß. Γ
Nick Cox
@NickCox Ich habe es geändert, wie Sie vorschlagen, und ich habe "Inverse Gaussian" behoben, während ich dabei war.
Glen_b
1
@ Gleb_b: Verwenden Sie immer noch die Protokollverknüpfung mit der inversen Gaußschen Familie?
Dimitriy V. Masterov
@ DimitriyV.Masterov Es wird weniger verwendet, daher ist es schwieriger zu verallgemeinern. Nach dem, was ich gesehen habe, ist es ziemlich üblich, eine Protokollverknüpfung mit inversem Gauß zu verwenden, aber andere Verknüpfungen können in einigen Situationen geeignet sein, beispielsweise eine inverse Verknüpfung.
Glen_b
28

Das ist eine gute Frage. In der Tat ist es auch eine gute Frage, warum Menschen keine verallgemeinerten linearen Modelle (GLM) mehr verwenden.

Warnhinweis: Einige Leute verwenden GLM für ein allgemeines lineares Modell, was hier nicht berücksichtigt wird.

  • Es kommt darauf an, wohin Sie schauen. Beispielsweise sind Gammaverteilungen in einigen Umweltwissenschaften seit einigen Jahrzehnten beliebt, und daher ist auch die Modellierung mit Prädiktorvariablen eine natürliche Erweiterung. Es gibt viele Beispiele in der Hydrologie und Geomorphologie, um einige Bereiche zu nennen, in denen ich mich verirrt habe.

  • Es ist schwer zu sagen, wann es am besten funktioniert. Angesichts verzerrter positiver Daten werde ich häufig versuchen, Gamma- und logarithmische Modelle (im GLM-Kontext-Log-Link, normale oder Gaußsche Familie) zu verwenden und zu entscheiden, welche besser funktionieren.

  • Die Gamma-Modellierung war bis vor kurzem recht schwierig, sicherlich im Vergleich dazu, Protokolle zu erstellen und lineare Regressionen anzuwenden, ohne selbst viel Code zu schreiben. Selbst jetzt würde ich vermuten, dass es nicht in allen wichtigen statistischen Softwareumgebungen gleich einfach ist.

  • Wenn ich erkläre, was verwendet wird und was nicht, trotz Verdiensten und Fehlern, denke ich, dass Sie immer auf genau die Art von Faktoren kommen, die Sie identifizieren: Was wird gelehrt, was steht in der Literatur, die die Leute lesen, worüber die Leute reden Arbeit und auf Konferenzen. Man braucht also eine Art Amateursoziologie der Wissenschaft, um das zu erklären. Die meisten Menschen scheinen auf ihren Feldern geraden und engen Wegen zu folgen. Je umfangreicher die interne Literatur zu Modellierungstechniken ist, desto weniger geneigt scheinen die Leute in diesem Bereich zu sein, etwas anderes zu versuchen.

Nick Cox
quelle
1
Wie stellen Sie fest, welche besser funktioniert?
Dimitriy V. Masterov
7
Ich betrachte Wahrscheinlichkeiten, R-Quadrate (trotz der Aussagen der Leute), Konfidenzintervalle in Bezug auf Parameterschätzungen, Diagramme von beobachteten vs. Nach meiner Erfahrung ist die Wissenschaft nicht so gut ausgebildet. Wie könnte es sonst gemacht werden?
Nick Cox
@NickCox Worauf sollten wir achten, wenn die Analyse im Vergleich zum angepassten, den Residuen im Vergleich zum angepassten und dem normalen qq-Diagramm beobachtet wird? Ich verstehe, dass dies zwischen den Modellen unterschiedlich sein kann. Können Sie ein Beispiel für Gamma, Poisson und negatives Binomial geben? Vielen Dank
Tatami
@tatami Das ist eine ganz neue Frage oder mehr, denke ich. Wenn Sie es fragen, werden Sie sehen, wer beißt. Ich habe nie gedacht, dass ein Gamma-Modell und ein negatives Binomial-Modell Rivalen in einem Projekt sind, aber das könnte ein Mangel an Vorstellungskraft oder Erfahrung sein.
Nick Cox
13

Die Gamma-Regression ist im GLM enthalten, sodass Sie viele nützliche Größen für diagnostische Zwecke erhalten können, z. B. Abweichungsreste, Hebel, Cook-Distanz usw. Sie sind vielleicht nicht so gut wie die entsprechenden Mengen für log-transformierte Daten.

Eine Sache, die die Gamma-Regression im Vergleich zum logarithmischen Normal vermeidet, ist die Transformationsverzerrung. Jensens Ungleichung impliziert, dass die Vorhersagen aus der logarithmischen Regression systematisch verzerrt werden, da transformierte Daten und nicht der transformierte erwartete Wert modelliert werden.

Außerdem kann die Gamma-Regression (oder andere Modelle für nicht negative Daten) ein breiteres Datenfeld bewältigen als das logarithmische Normal, da sie einen Modus bei 0 haben kann, wie Sie dies bei der Exponentialverteilung im Gamma tun Familie, die für die lognormal unmöglich ist.

Ich habe Vorschläge gelesen, dass die Verwendung der Poisson-Wahrscheinlichkeit als Quasi-Wahrscheinlichkeit stabiler ist. Sie sind Konjugate voneinander. Das Quasi-Poisson hat auch den wesentlichen Vorteil, mit exakten 0-Werten fertig zu werden, die sowohl das Gamma als auch insbesondere das Lognormal stören.

Jay Verkuilen
quelle
11

Meiner Meinung nach wird davon ausgegangen, dass die Fehler in einer Familie von Gammaverteilungen liegen, die die gleichen Formen haben und deren Skalen sich gemäß der entsprechenden Formel ändern.

Es ist jedoch schwierig, eine Modelldiagnose durchzuführen. Beachten Sie, dass das einfache QQ-Diagramm hier nicht geeignet ist, da es sich um dieselbe Verteilung handelt, während es sich bei unserer um eine Verteilungsfamilie mit unterschiedlichen Varianzen handelt.

Naiv kann das Residuen-Diagramm verwendet werden, um festzustellen, dass sie unterschiedliche Maßstäbe, aber dieselbe Form haben, normalerweise mit langen Schwänzen.

Nach meiner Erfahrung kann das Gamma-GLM für einige verteilte Long-Tail-Probleme ausprobiert werden, und es wird häufig in den Bereichen Versicherungen und Umwelt usw. verwendet. Die Annahmen sind jedoch schwierig zu testen, und das Modell funktioniert in der Regel nicht gut argumentieren, andere Familienverteilungen mit dem gleichen Problem wie inverses Gauß usw. zu verwenden. Dies begrenzt die Verwendung des Gamma-GLM.

Vincent
quelle