Ich habe einige Daten in [0,1], die ich mit einer Beta-Regression analysieren möchte. Natürlich muss etwas unternommen werden, um den 0,1-Werten Rechnung zu tragen. Ich mag es nicht, Daten an ein Modell anzupassen. Ich glaube auch nicht, dass eine Inflation von Null und 1 eine gute Idee ist, weil ich in diesem Fall glaube, dass man die Nullen als sehr kleine positive Werte betrachten sollte (aber ich möchte nicht genau sagen, welcher Wert angemessen ist. Eine vernünftige Wahl Ich glaube, es wäre, kleine Werte wie .001 und .999 auszuwählen und das Modell unter Verwendung der kumulativen Distanz für die Beta anzupassen. Für Beobachtungen wäre y_i die logarithmische Wahrscheinlichkeit LL_iwould
if y_i < .001 LL+=log(cumd_beta(.001))
else if y_i>.999 LL+=log(1.0-cum_beta(.999))
else LL+=log(beta_density(y_i))
Was mir an diesem Modell gefällt, ist, dass wenn das Beta-Regressionsmodell gültig ist, dieses Modell auch gültig ist, aber ein wenig von der Empfindlichkeit für die Extremwerte entfernt wird. Dies scheint jedoch ein so natürlicher Ansatz zu sein, dass ich mich frage, warum ich in der Literatur keine offensichtlichen Hinweise finde. Meine Frage ist also, anstatt die Daten zu ändern, warum nicht das Modell ändern. Durch das Ändern der Daten werden die Ergebnisse verzerrt (basierend auf der Annahme, dass das ursprüngliche Modell gültig ist), wohingegen durch das Ändern des Modells durch Binning der Extremwerte die Ergebnisse nicht verzerrt werden.
Vielleicht gibt es ein Problem, das ich übersehen habe?
quelle
Antworten:
Nach dieser Arbeit ist eine angemessene Transformation
Dies wird Daten, die in , zusammenpressen, um in ( 0 , 1 ) zu sein . Das obige Zitat und ein mathematischer Grund für die Umwandlung sind in den ergänzenden Anmerkungen des Papiers verfügbar .[ 0 , 1 ] ( 0 , 1 )
quelle
Dave,
Ein üblicher Ansatz für dieses Problem besteht darin, zwei logistische Regressionsmodelle anzupassen, um vorherzusagen, ob ein Fall 0 oder 1 ist. Dann wird für diejenigen im Bereich (0,1) eine Beta-Regression verwendet.
quelle
Ich glaube, dass beide auf bayesianische Weise leicht geschätzt werden können, da sie beide exponentielle Familien sind. Dies ist eine Modifikation des Modells, wie Sie gehofft haben.
quelle
Ich denke, die eigentliche "richtige" Antwort auf diese Frage ist eine null-eins-Inflated-Beta-Regression. Damit können Daten verarbeitet werden, die im Intervall [0,1] kontinuierlich variieren, und es können viele echte Nullen und Einsen in den Daten enthalten sein. Dieser Ansatz passt zu drei verschiedenen Modellen in einem Bayes'schen Kontext, ähnlich dem, was @B_Miner vorgeschlagen hat.
Modell 1: Ist ein Wert eine diskrete 0/1 oder ist der Wert in (0,1)? Fit mit einer Bernoulli-Verteilung.
Modell 2: Passen Sie eine diskrete Teilmenge mit einer Bernoulli-Verteilung an.
Modell 3: Fit (0,1) -Untergruppe mit Beta-Regression.
Zur Vorhersage können die ersten Modellergebnisse verwendet werden, um die Vorhersagen der Modelle 2 und 3 zu gewichten. Dies kann innerhalb des
zoib
R-Pakets implementiert oder in BUGS / JAGS / STAN / etc. Selbst gebraut werden.quelle