Das Gamma hat eine Eigenschaft, die vom Lognormal gemeinsam genutzt wird. Das heißt, wenn der Formparameter konstant gehalten wird, während der Skalierungsparameter variiert wird (wie dies normalerweise bei beiden Modellen der Fall ist), ist die Varianz proportional zum mittleren Quadrat (konstanter Variationskoeffizient).
Etwas Ähnliches tritt ziemlich häufig bei Finanzdaten auf, oder in der Tat bei vielen anderen Arten von Daten.
Daher ist es häufig für Daten geeignet, die kontinuierlich, positiv und recht schief sind und bei denen die Varianz auf der logarithmischen Skala nahezu konstant ist, obwohl es eine Reihe anderer bekannter (und häufig ziemlich leicht verfügbarer) Auswahlmöglichkeiten gibt Eigenschaften.
Darüber hinaus ist es üblich, eine logarithmische Verknüpfung mit dem Gamma-GLM einzurichten (die natürliche Verknüpfung wird relativ selten verwendet). Es unterscheidet sich geringfügig von der Anpassung eines normalen linearen Modells an die Protokolle der Daten dadurch, dass das Gamma auf der Protokollskala in unterschiedlichem Maße schief bleibt, während das Normal (das Protokoll eines Protokollnormalen) symmetrisch ist. Dies macht es (das Gamma) in einer Vielzahl von Situationen nützlich.
Ich habe praktische Anwendungen für Gamma-GLMs gesehen, die (mit realen Datenbeispielen) in (aus dem Kopf) de Jong & Heller und Frees diskutiert wurden, sowie zahlreiche Artikel; Ich habe auch Anwendungen in anderen Bereichen gesehen. Oh, und wenn ich mich recht erinnere, verwenden Venables und Ripleys MASS es bei Abwesenheit in der Schule (die quine-Daten; Bearbeiten: stellt sich heraus, dass es tatsächlich in Statistics Complements to MASS enthalten ist , siehe Seite 11, die 14. Seite des PDFs, es hat aber einen Log-Link es gibt eine kleine Verschiebung des DV). Äh, und McCullagh und Nelder haben ein Beispiel für die Blutgerinnung gemacht, obwohl es vielleicht eine natürliche Verbindung gewesen sein könnte.
Dann gibt es Faraways Buch, in dem er ein Beispiel für eine Autoversicherung und ein Beispiel für Daten zur Halbleiterherstellung gemacht hat.
Bei der Auswahl einer der beiden Optionen gibt es einige Vor- und einige Nachteile. Seit dieser Zeit sind beide einfach zu montieren; Es ist im Allgemeinen eine Frage der Auswahl, was am besten geeignet ist.
Dies ist bei weitem nicht die einzige Option. Zum Beispiel gibt es auch inverse Gaußsche GLMs, die schiefer / schwerer (und sogar heteroskedastischer) sind als Gamma oder lognormal.
Was die Nachteile angeht, ist es schwieriger, Vorhersageintervalle durchzuführen. Einige Diagnoseanzeigen sind schwerer zu interpretieren. Das Berechnen der Erwartungen auf der Skala des linearen Prädiktors (im Allgemeinen der logarithmischen Skala) ist schwieriger als für das äquivalente logarithmische Normalmodell. Hypothesentests und Intervalle sind im Allgemeinen asymptotisch. Dies sind oft relativ kleine Probleme.
Es hat einige Vorteile gegenüber der lognormalen log-Link-Regression (Protokollierung und Anpassung eines normalen linearen Regressionsmodells). Eines ist, dass die mittlere Vorhersage einfach ist.
Das ist eine gute Frage. In der Tat ist es auch eine gute Frage, warum Menschen keine verallgemeinerten linearen Modelle (GLM) mehr verwenden.
Warnhinweis: Einige Leute verwenden GLM für ein allgemeines lineares Modell, was hier nicht berücksichtigt wird.
Es kommt darauf an, wohin Sie schauen. Beispielsweise sind Gammaverteilungen in einigen Umweltwissenschaften seit einigen Jahrzehnten beliebt, und daher ist auch die Modellierung mit Prädiktorvariablen eine natürliche Erweiterung. Es gibt viele Beispiele in der Hydrologie und Geomorphologie, um einige Bereiche zu nennen, in denen ich mich verirrt habe.
Es ist schwer zu sagen, wann es am besten funktioniert. Angesichts verzerrter positiver Daten werde ich häufig versuchen, Gamma- und logarithmische Modelle (im GLM-Kontext-Log-Link, normale oder Gaußsche Familie) zu verwenden und zu entscheiden, welche besser funktionieren.
Die Gamma-Modellierung war bis vor kurzem recht schwierig, sicherlich im Vergleich dazu, Protokolle zu erstellen und lineare Regressionen anzuwenden, ohne selbst viel Code zu schreiben. Selbst jetzt würde ich vermuten, dass es nicht in allen wichtigen statistischen Softwareumgebungen gleich einfach ist.
Wenn ich erkläre, was verwendet wird und was nicht, trotz Verdiensten und Fehlern, denke ich, dass Sie immer auf genau die Art von Faktoren kommen, die Sie identifizieren: Was wird gelehrt, was steht in der Literatur, die die Leute lesen, worüber die Leute reden Arbeit und auf Konferenzen. Man braucht also eine Art Amateursoziologie der Wissenschaft, um das zu erklären. Die meisten Menschen scheinen auf ihren Feldern geraden und engen Wegen zu folgen. Je umfangreicher die interne Literatur zu Modellierungstechniken ist, desto weniger geneigt scheinen die Leute in diesem Bereich zu sein, etwas anderes zu versuchen.
quelle
Die Gamma-Regression ist im GLM enthalten, sodass Sie viele nützliche Größen für diagnostische Zwecke erhalten können, z. B. Abweichungsreste, Hebel, Cook-Distanz usw. Sie sind vielleicht nicht so gut wie die entsprechenden Mengen für log-transformierte Daten.
Eine Sache, die die Gamma-Regression im Vergleich zum logarithmischen Normal vermeidet, ist die Transformationsverzerrung. Jensens Ungleichung impliziert, dass die Vorhersagen aus der logarithmischen Regression systematisch verzerrt werden, da transformierte Daten und nicht der transformierte erwartete Wert modelliert werden.
Außerdem kann die Gamma-Regression (oder andere Modelle für nicht negative Daten) ein breiteres Datenfeld bewältigen als das logarithmische Normal, da sie einen Modus bei 0 haben kann, wie Sie dies bei der Exponentialverteilung im Gamma tun Familie, die für die lognormal unmöglich ist.
Ich habe Vorschläge gelesen, dass die Verwendung der Poisson-Wahrscheinlichkeit als Quasi-Wahrscheinlichkeit stabiler ist. Sie sind Konjugate voneinander. Das Quasi-Poisson hat auch den wesentlichen Vorteil, mit exakten 0-Werten fertig zu werden, die sowohl das Gamma als auch insbesondere das Lognormal stören.
quelle
Meiner Meinung nach wird davon ausgegangen, dass die Fehler in einer Familie von Gammaverteilungen liegen, die die gleichen Formen haben und deren Skalen sich gemäß der entsprechenden Formel ändern.
Es ist jedoch schwierig, eine Modelldiagnose durchzuführen. Beachten Sie, dass das einfache QQ-Diagramm hier nicht geeignet ist, da es sich um dieselbe Verteilung handelt, während es sich bei unserer um eine Verteilungsfamilie mit unterschiedlichen Varianzen handelt.
Naiv kann das Residuen-Diagramm verwendet werden, um festzustellen, dass sie unterschiedliche Maßstäbe, aber dieselbe Form haben, normalerweise mit langen Schwänzen.
Nach meiner Erfahrung kann das Gamma-GLM für einige verteilte Long-Tail-Probleme ausprobiert werden, und es wird häufig in den Bereichen Versicherungen und Umwelt usw. verwendet. Die Annahmen sind jedoch schwierig zu testen, und das Modell funktioniert in der Regel nicht gut argumentieren, andere Familienverteilungen mit dem gleichen Problem wie inverses Gauß usw. zu verwenden. Dies begrenzt die Verwendung des Gamma-GLM.
quelle