Sei eine Zufallsvariable, die der Tweedie-Verteilung für Parameter folgt . Die Verknüpfungsfunktion sei das natürliche Protokoll. Angenommen, wir haben eine Datenbank mit Nummern des Formulars
...
.
Die Variablen sind eine Mischung aus kategorialen Variablen und kontinuierlichen Variablen. Da dies ein GLM ist, wissen wir das
. Hier ist meine Frage: Angesichts der Zahlendatenbank und der Tatsache, dass es sich um eine Tweedie-Distribution mit einem bestimmten Parameter handelt, welchen Algorithmus verwende ich am besten, um auszuwählen ? Gibt es eine Fehlerfunktion, die ich minimieren muss, oder schätze ich Parameter mit maximaler Wahrscheinlichkeit?
generalized-linear-model
tweedie-distribution
FloatingFoundation92
quelle
quelle
statmod
(und einige zusätzliche nützliche Funktionen sind imtweedie
Paket in R enthalten, z. B.AICtweedie
). Während Sie ohne diese auskommen können, wenn Sie wissen, wie man glm gut genug fährt, würde ich vorschlagen, dass Sie die Pakete verwenden.Antworten:
Kennen Sie verallgemeinerte lineare Modelle in R? Wenn ja, können Sie Tweedie glms wie jedes andere glms anpassen. Die dafür erforderliche Definition der glm-Familie wird vom statmod R-Paket von CRAN bereitgestellt.
Tweedie glms nehmen an, dass die Varianzfunktion eine Potenzfunktion ist: Sonderfall sind normale glms ( ), Poisson glms ), Gamma-Glms ( ) und inverse Gauß-Glms ( ).
Hier ist ein Beispiel für R-Code:
Mit dem Tweedie-Paket können Sie einen glm mit jeder Power-Funktion und jedem Power Link ausstatten. Im Aufruf der glm-Familie ist var.power der Parameter , sodass var.power = 1.1 angibt . Die var.power bezieht sich auf den Exponenten der glm-Varianzfunktion, so dass var.power = 0 eine normale Familie angibt, var.power = 1 bedeutet Poisson-Familie, var.power = 2 bedeutet Gammafamilie, var.power = 3 bedeutet invers Gaußsche Familie und so weiter. Werte zwischen 0 und 1 sind nicht zulässig, aber praktisch alles andere ist zulässig.α α=1.1
link.power = 0 gibt einen Log-Link an. Die Verknüpfung wird in Form von Box-Cox-Transformationsleistungen angegeben, sodass link.power = 1 die Identitätsverknüpfung ist und link.power = 0 log bedeutet.
Das obige Modell geht davon aus, dass wobei undyi∼Tweedieα(μi,ϕ)
Die Regressionskoeffizienten wurden nach maximaler Wahrscheinlichkeit geschätzt. Der Dispersionsparameter wurde unter Verwendung der Restsumme der quadratischen Residuen geschätzt - dies wird als Pearson-Schätzer bezeichnet.βj ϕ
Unabhängig davon, welches oder welchen Link Sie verwenden, funktioniert jede der in R für glms bereitgestellten Downstream-Funktionen für das von glm () erstellte glm-angepasste Modellobjekt.α
quelle