GLM mit Logit-Link und Gaußscher Familie zur Vorhersage eines kontinuierlichen DV zwischen 0 und 1

7

Können Sie einen GLM über eine Logit-Verbindung mit einem kontinuierlichen DV (zwischen 0 und 1) ausführen? Im Allgemeinen wird empfohlen, eine Binomialfamilie mit einem Logit-Link zu verwenden, aber ich vermute, das liegt daran, dass das Modell einen binären DV annimmt. Wenn wir eine kontinuierliche DV haben, möchten wir eine Gaußsche Familie anstelle eines Binomials verwenden?

Ich entschuldige mich, wenn diese Frage nicht viel Sinn macht: Ich habe nur sehr grundlegende Kenntnisse der Statistik und versuche nur, ein Modell neu zu kalibrieren, das vor einigen Jahren von einem Kollegen angegeben wurde.

deepsidetea
quelle
Siehe auch
Amöbe

Antworten:

9

Sie scheinen ein gebrochenes Logit verwenden zu wollen, dh ein Quasi-Wahrscheinlichkeitsmodell für einen Anteil. Der Schlüssel hier ist, dass es sich um ein Quasi-Wahrscheinlichkeitsmodell handelt, sodass sich die Familie auf die Varianzfunktion bezieht und auf nichts anderes. Quasi wahrscheinlich ist diese Varianz ein Störparameter, der in Ihrem Modell nicht korrekt angegeben werden muss, wenn Ihr Datensatz groß genug ist. Also würde ich bei der üblichen Familie für ein fraktioniertes Logit-Modell bleiben und die Binomialfamilie verwenden.

Maarten Buis
quelle
2
+1. Beachten Sie, dass bei kontinuierlichen Proportionen genau wie bei binären (0, 1) Variablen eine Varianz-Mittelwert-Beziehung besteht, die einen Gaußschen Wert notwendigerweise ausschließt. Betrachten Sie Grenzfälle. Ein Mittelwert von 0 impliziert alle Werte 0 und damit die Varianz 0; In ähnlicher Weise impliziert ein Mittelwert von 1 alle Werte 1 und damit auch die Varianz 0. Daher muss die Varianz für einen mittleren Mittelwertanteil am größten sein, und das Binomial ist zumindest qualitativ nahezu richtig. Wie @Gavin Simpson zu Recht betont, kann eine Beta-Regression auch vertretbar sein.
Nick Cox
1
Beachten Sie, dass das Argument in meinem Kommentar oben ein wenig von Hand winkt. Zum Beispiel ist es im Prinzip möglich, dass alle Werte 0,42 sind und die Varianz dann auch 0 ist. In der Praxis benötigen oder verdienen solche Fälle jedoch keine Modellierung.
Nick Cox
7

Wenn Ihre Daten wirklich kontinuierliche Proportionen sind (das häufigste Beispiel, das ich sehe, ist% Schlick, Ton oder Sand in Sedimentproben - nur einer dieser Typen für die Beta-Regression, alle drei für eine Dirichlet-Regression), würde sich eine Beta-Regression anbieten. Es ist kein GLM- Sensu McCullagh und Nelder, aber es ist Teil der erweiterten Familie von GLMs, die wie ein GLM aussehen, gehen und quaken.

Gavin Simpson
quelle
1
Ich (zusammen mit Nick) habe mit Regressionen gearbeitet, die auf den Beta- und Dirichlet-Distributionen basieren, also sollte ich ihnen gegenüber parteiisch sein. Ich bin jedoch langsam davon überzeugt (basierend auf zahlreichen Simulationen), dass ein gebrochener (multinomialer) Logit tendenziell robuster ist. Die Varianz muss in einem gebrochenen Logit nicht mehr korrekt angegeben werden, während sie in der Beta- oder Dirichlet-Regression korrekt angegeben werden muss. Wenn es die Varianz ist, die von materiellem Interesse ist, dann macht ein Bruchprotokoll nicht das, was Sie wollen, aber ansonsten wäre ein Bruchprotokoll mein Standardmodell für Bruchdaten.
Maarten Buis
@ MaartenBuis In der Tat; Ich hatte nicht vor, dies als entweder / oder zu verstehen - ich habe auch sowohl quasi-binomiale als auch Beta-Regressionen verwendet.
Gavin Simpson
1
Warum ist Beta-Regression kein GLM sensu strictu, @Gavin?
Amöbe
1
Mit all den zu schätzenden Parametern hätte ich nicht gedacht, dass Sie es in der für GLMs sensu McCullagh & Nelder erforderlichen Form aufschreiben könnten. In dem gleichen Sinne, dass ein negatives Binomialmodell nicht zum GLM-Schema passt, wenn auch der Theta-Parameter geschätzt werden soll.
Gavin Simpson
6

Ja, du kannst. Die Modellparameter sind immer noch Log-Odds-Verhältnisse, werden jedoch unterschiedlich geschätzt. Ihr Modell mit solchen Spezifikationen ist im Grunde ein nichtlineares kleinstes Quadrat, bei dem eine logit "S" -Kurve an 0/1 Ergebnisse angepasst wird, um den quadratischen Fehler zu minimieren. Die Kontraste zur üblichen logistischen Regression sind jedoch sehr gut bekannt: Bei diesem Ansatz werden 0/1-Ergebnisse nur sehr wenig gewichtet, da eine proportionale Differenz von 0,95 gegenüber 0,96 viel größer ist, wenn sie durch ihre binomiale Varianz skaliert wird. Gaußsche Familien nehmen keine Mittelwert-Varianz-Beziehung an. Deshalb wird dieser Ansatz nicht oft verwendet.

Wenn die angegebenen Ergebnisse Proportionen sind, lautet die brennende Frage: Haben Sie die Nenner für diese Proportionen? zB werden die 0,43 Prozent berechnet ausn=100 oder n=200Teilnehmer und / oder unterscheidet sich dieser Wert zwischen den verschiedenen Beobachtungen, die Sie erhalten haben? Wenn ja, ergibt die Gewichtung der Binomialwahrscheinlichkeit einen äquivalenten Rückschluss auf vollständig beobachtete 0/1-Zählungen.

In R werden Sie beispielsweise weiterhin gewarnt, dass Sie nicht-binäre Ergebnisvariablen verwendet haben, der Anpassungsalgorithmus wird jedoch bei der Eingabe von Daten dieses Formats nicht "unterbrochen". Andere Software kann solche Ansätze insgesamt verhindern, sodass Sie Produktvariablen erstellen müssen.

Ohne solche Zählungen sollten jedoch andere robuste Fehlerschätzungsmethoden verwendet werden. Die Vorschläge anderer zur Quasilikelihood scheinen eine vernünftige Wahl zu sein.

AdamO
quelle
1
+1. Was ist, wenn die Daten Wahrscheinlichkeiten sind ? Zum Beispiel stammen Daten aus einem psychologischen Experiment, bei dem Menschen Wahrscheinlichkeiten von etwas schätzten; Diese Vorhersagen (zwischen 0 und 1) sind die DV. Es ist wie eine logistische Regression, aber anstelle des binomischen Ergebnisses haben wir die Wahrscheinlichkeit selbst. Was ist dann ein vernünftiger Ansatz?
Amöbe
@amoeba Ich denke, der Ansatz ist immer noch gültig, vorausgesetzt, das mittlere Modell ist korrekt.
AdamO