Wann sollte ein verallgemeinertes lineares Modell gegenüber einem linearen Modell verwendet werden?
Ich weiß, dass das verallgemeinerte lineare Modell zum Beispiel zulässt, dass die Fehler eine andere Verteilung als normal haben, aber warum befasst man sich mit der Verteilung der Fehler? Zum Beispiel, warum sind verschiedene Fehlerverteilungen nützlich?
generalized-linear-model
mavavilj
quelle
quelle
Antworten:
Ein GLM ist eine allgemeinere Version eines linearen Modells: Das lineare Modell ist ein Sonderfall eines Gaußschen GLM mit der Identitätsverknüpfung. Die Frage ist also: Warum verwenden wir andere Verknüpfungsfunktionen oder andere Mittelwert-Varianz-Beziehungen? Wir passen zu GLMs, weil sie eine bestimmte Frage beantworten, an der wir interessiert sind .
Es ist zum Beispiel nichts an sich falsch daran, eine binäre Antwort in ein lineares Regressionsmodell anzupassen, wenn Sie an der Zuordnung zwischen diesen Variablen interessiert sind. Wenn in der Tat ein höherer Anteil negativer Ergebnisse im unteren 50. Perzentil einer Exposition und ein höherer Anteil positiver Ergebnisse im oberen 50. Perzentil beobachtet wird, ergibt sich eine positiv geneigte Linie, die eine positive Assoziation zwischen diesen korrekt beschreibt zwei Variablen.
Alternativ könnten Sie daran interessiert sein, die oben genannte Assoziation mithilfe einer S-förmigen Kurve zu modellieren. Die Steigung und der Schnittpunkt einer solchen Kurve erklären die Tendenz eines extremen Risikos, zur Wahrscheinlichkeit 0/1 zu tendieren. Auch die Steigung einer Logit-Kurve wird als Log-Odds-Verhältnis interpretiert. Das motiviert die Verwendung einer Logit-Link-Funktion. In ähnlicher Weise können angepasste Wahrscheinlichkeiten, die sehr nahe bei 1 oder 0 liegen, bei Replikationen des Studiendesigns tendenziell weniger variabel sein und könnten daher durch eine binomiale Mittelwert-Varianz-Beziehung erklärt werden, die besagt, dasss e (Y.^) =Y.^( 1 -Y.^) was die logistische Regression motiviert. In diesem Sinne würde ein moderner Ansatz für dieses Problem die Anpassung eines relativen Risikomodells vorschlagen, das eine logarithmische Verknüpfung verwendet, sodass die Steigung der exponentiellen Trendlinie als logarithmisches Risiko interpretiert wird, ein praktischerer Wert als ein logarithmischer Wert. Wahrscheinlichkeit.
quelle
Es gibt viele Gründe, eine andere Fehlerverteilung zu wählen. Aber ich glaube, Sie wissen nicht, warum wir überhaupt Verteilungen für Variablen haben. Wenn dies offensichtlich ist, glaube ich, dass meine Antwort für Sie nutzlos ist, sorry.
Warum Distributionen wichtig sind
Verteilungen ermöglichen es uns, ein Modell in einer Wahrscheinlichkeitsrechnung zu betrachten, was bedeutet, dass wir Unsicherheiten über unser Modell quantifizieren können. Wenn wir in stat 101 erfahren, dass die Stichprobenverteilung des Stichprobenmittelwerts (asymptotisch) ist, können wir in einem probabilistischen Rahmen sagen Viele Dinge über diese Schätzung, wie das Testen von Hypothesen und das Erstellen von Konfidenzintervallen.X.¯∼˙N.( μ , σ)
Probabilistische Verteilungen in linearen und verallgemeinerten linearen Modellen
In einem linearen Modellrahmen können wir im Grunde dasselbe tun, wenn wir die Verteilung des Fehlerterms kennen. Warum? Dies ist ein Ergebnis der linearen Kombination von Zufallsvariablen ( siehe diese Antwort ). Aber der Punkt ist, wenn diese probabilistische Struktur im Modell vorhanden ist, können wir wieder einige Dinge tun. Neben dem Testen von Hypothesen und dem Erstellen von CI können wir vor allem Vorhersagen mit quantifizierter Unsicherheit, Modellauswahl, Anpassungsgüte und einer Reihe anderer Dinge erstellen.
Warum brauchen wir nun speziell GLMs? Erstens kann das probabilistische Gerüst eines linearen Modells verschiedene Arten davon nicht verarbeiten, wie z. B. Zählungen oder Binärdaten. Diese Datentypen unterscheiden sich grundlegend von regulären kontinuierlichen Daten, was bedeutet, dass eine Höhe von 1,83 Metern möglich ist, es jedoch sinnlos ist, wenn 4,5 elektrische Lichter nicht funktionieren.
Daher beginnt die Motivation für GLMs mit dem Umgang mit verschiedenen Datentypen, hauptsächlich durch die Verwendung von Verknüpfungsfunktionen oder / und durch die geschickte Manipulation des beabsichtigten Modells zu einem linear bekannten "Framework". Diese Bedürfnisse und Ideen hängen direkt damit zusammen, wie die Fehler durch das verwendete "Framework" modelliert werden.
quelle
Es gibt zwei Dinge, die uns wichtig sein sollten:
Wenn wir keine 1 haben, schrauben Sie 2. Wenn wir aber 1 haben, möchten wir wenn möglich 2 bekommen.
Wenn Sie OLS ausführen, ist es unter sehr allgemeinen Annahmen über die Fehlerverteilung konsistent (Sie benötigen nur Exogenität). GLS kann jedoch effizienter sein. Dies ist besonders schön, wenn Sie eine kleine Probe haben.
quelle