Können Sie einen GLM über eine Logit-Verbindung mit einem kontinuierlichen DV (zwischen 0 und 1) ausführen? Im Allgemeinen wird empfohlen, eine Binomialfamilie mit einem Logit-Link zu verwenden, aber ich vermute, das liegt daran, dass das Modell einen binären DV annimmt. Wenn wir eine kontinuierliche DV haben, möchten wir eine Gaußsche Familie anstelle eines Binomials verwenden?
Ich entschuldige mich, wenn diese Frage nicht viel Sinn macht: Ich habe nur sehr grundlegende Kenntnisse der Statistik und versuche nur, ein Modell neu zu kalibrieren, das vor einigen Jahren von einem Kollegen angegeben wurde.
Antworten:
Sie scheinen ein gebrochenes Logit verwenden zu wollen, dh ein Quasi-Wahrscheinlichkeitsmodell für einen Anteil. Der Schlüssel hier ist, dass es sich um ein Quasi-Wahrscheinlichkeitsmodell handelt, sodass sich die Familie auf die Varianzfunktion bezieht und auf nichts anderes. Quasi wahrscheinlich ist diese Varianz ein Störparameter, der in Ihrem Modell nicht korrekt angegeben werden muss, wenn Ihr Datensatz groß genug ist. Also würde ich bei der üblichen Familie für ein fraktioniertes Logit-Modell bleiben und die Binomialfamilie verwenden.
quelle
Wenn Ihre Daten wirklich kontinuierliche Proportionen sind (das häufigste Beispiel, das ich sehe, ist% Schlick, Ton oder Sand in Sedimentproben - nur einer dieser Typen für die Beta-Regression, alle drei für eine Dirichlet-Regression), würde sich eine Beta-Regression anbieten. Es ist kein GLM- Sensu McCullagh und Nelder, aber es ist Teil der erweiterten Familie von GLMs, die wie ein GLM aussehen, gehen und quaken.
quelle
Ja, du kannst. Die Modellparameter sind immer noch Log-Odds-Verhältnisse, werden jedoch unterschiedlich geschätzt. Ihr Modell mit solchen Spezifikationen ist im Grunde ein nichtlineares kleinstes Quadrat, bei dem eine logit "S" -Kurve an 0/1 Ergebnisse angepasst wird, um den quadratischen Fehler zu minimieren. Die Kontraste zur üblichen logistischen Regression sind jedoch sehr gut bekannt: Bei diesem Ansatz werden 0/1-Ergebnisse nur sehr wenig gewichtet, da eine proportionale Differenz von 0,95 gegenüber 0,96 viel größer ist, wenn sie durch ihre binomiale Varianz skaliert wird. Gaußsche Familien nehmen keine Mittelwert-Varianz-Beziehung an. Deshalb wird dieser Ansatz nicht oft verwendet.
Wenn die angegebenen Ergebnisse Proportionen sind, lautet die brennende Frage: Haben Sie die Nenner für diese Proportionen? zB werden die 0,43 Prozent berechnet ausn = 100 oder n = 200 Teilnehmer und / oder unterscheidet sich dieser Wert zwischen den verschiedenen Beobachtungen, die Sie erhalten haben? Wenn ja, ergibt die Gewichtung der Binomialwahrscheinlichkeit einen äquivalenten Rückschluss auf vollständig beobachtete 0/1-Zählungen.
In R werden Sie beispielsweise weiterhin gewarnt, dass Sie nicht-binäre Ergebnisvariablen verwendet haben, der Anpassungsalgorithmus wird jedoch bei der Eingabe von Daten dieses Formats nicht "unterbrochen". Andere Software kann solche Ansätze insgesamt verhindern, sodass Sie Produktvariablen erstellen müssen.
Ohne solche Zählungen sollten jedoch andere robuste Fehlerschätzungsmethoden verwendet werden. Die Vorschläge anderer zur Quasilikelihood scheinen eine vernünftige Wahl zu sein.
quelle