Eine Tweedie-Verteilung kann verzerrte Daten mit einer Punktmasse von Null modellieren, wenn der Parameter (Exponent in der Mittelwert-Varianz-Beziehung) zwischen 1 und 2 liegt.
In ähnlicher Weise kann ein Modell mit Null-Inflation (unabhängig davon, ob es sich um ein kontinuierliches oder ein diskretes Modell handelt) eine große Anzahl von Nullen aufweisen.
Ich habe Probleme zu verstehen, warum bei der Vorhersage oder Berechnung angepasster Werte mit diesen Arten von Modellen alle vorhergesagten Werte ungleich Null sind.
Können diese Modelle tatsächlich exakte Nullen vorhersagen?
Beispielsweise
library(tweedie)
library(statmod)
# generate data
y <- rtweedie( 100, xi=1.3, mu=1, phi=1) # xi=p
x <- y+rnorm( length(y), 0, 0.2)
# estimate p
out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9))
# fit glm
fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0))
# predict
pred <- predict.glm(fit, newdata=data.frame(x=x), type="response")
pred
Jetzt enthält keine Nullen. Ich dachte, der Nutzen von Modellen wie der Tweedie-Verteilung rührt von ihrer Fähigkeit her, exakte Nullen und den kontinuierlichen Teil vorherzusagen.
Ich weiß, dass die Variable in meinem Beispiel x
nicht sehr aussagekräftig ist.
Antworten:
Beachten Sie, dass der vorhergesagte Wert in einem GLM ein Mittelwert ist.
Um einen Mittelwert von 0 vorhersagen zu können , müsste bei einer Verteilung auf nicht negative Werte die Verteilung bei 0 nur eine Spitze sein.
Mit einer Protokollverknüpfung werden Sie jedoch niemals einen Mittelwert von genau Null erreichen (da dies erfordern würde, dass zu - ∞ wechselt ).η −∞
Ihr Problem ist also kein Problem mit dem Tweedie, sondern viel allgemeiner. Sie hätten zum Beispiel genau das gleiche Problem mit dem Poisson (null-aufgeblasener oder gewöhnlicher Poisson GLM).
Da die Vorhersage exakter Nullen bei keiner Verteilung über nicht negative Werte mit einer Protokollverknüpfung auftreten wird, müssen Sie dies falsch überlegen.
Eine seiner Attraktionen ist, dass es exakte Nullen in den Daten modellieren kann , nicht dass die Mittelwertvorhersagen 0 sein werden. [Natürlich kann eine angepasste Verteilung mit einem Mittelwert ungleich Null immer noch eine Wahrscheinlichkeit haben, genau Null zu sein, obwohl der Mittelwert 0 überschreiten muss Ein geeignetes Vorhersageintervall könnte beispielsweise 0 umfassen.]
Es ist überhaupt nicht wichtig, dass die angepasste Verteilung einen wesentlichen Anteil von Nullen enthält - das macht die angepasste mittlere Null nicht.
Beachten Sie, dass wenn Sie Ihre Linkfunktion so ändern, dass sie einen Identitätslink enthält, dies Ihr Problem nicht wirklich löst. Der Mittelwert einer nicht negativen Zufallsvariablen, die nicht ausschließlich aus Nullen besteht, ist positiv.
quelle
Vorhersage des Anteils von Nullen
Ich bin der Autor des statmod-Pakets und der Mitautor des Tweedie-Pakets. Alles in Ihrem Beispiel funktioniert korrekt. Der Code berücksichtigt alle Nullen, die sich möglicherweise in den Daten befinden, korrekt.
Wie Glen_b und Tim erklärt haben, wird der vorhergesagte Mittelwert niemals genau Null sein, es sei denn, die Wahrscheinlichkeit einer Null beträgt 100%. Was jedoch von Interesse sein könnte, ist der vorhergesagte Anteil von Nullen, und dieser kann leicht aus der Modellanpassung extrahiert werden, wie ich unten zeige.
Hier ist ein vernünftigeres Arbeitsbeispiel. Simulieren Sie zunächst einige Daten:
Die Daten enthalten 12 Nullen.
Jetzt ein Tweedie glm anbringen:
Der vorhergesagte Anteil der Nullen variiert also von 38,1% bei den kleinsten Mittelwerten bis hinunter zu 4,5e-6 bei den größten Mittelwerten.
Die Formel für die Wahrscheinlichkeit einer exakten Null kann in Dunn & Smyth (2001), Tweedie Family Densities: Methods of Evaluation oder Dunn & Smyth (2005), Series Evaluation von exponentiellen Tweedie-Dispersionsmodelldichten gefunden werden .
quelle
Diese Antwort wurde aus einem anderen Thread zusammengeführt, in dem nach Vorhersagen gefragt wurde, bei denen das Regressionsmodell auf Null gesetzt wurde. Sie gilt jedoch auch für das Tweedie-GLM-Modell.
quelle