Wann sollte GLM anstelle von LM verwendet werden?

9

Wann sollte ein verallgemeinertes lineares Modell gegenüber einem linearen Modell verwendet werden?

Ich weiß, dass das verallgemeinerte lineare Modell zum Beispiel zulässt, dass die Fehler eine andere Verteilung als normal haben, aber warum befasst man sich mit der Verteilung der Fehler? Zum Beispiel, warum sind verschiedene Fehlerverteilungen nützlich?

mavavilj
quelle
1
Wenn die Annahme, die Sie bezüglich des Fehlers treffen, wahr ist, erhalten Sie Schätzungen, die (im Allgemeinen) die effizientesten sind. Manchmal hat die Verteilung, die Sie auferlegen, einige nette Eigenschaften ... Wie das Anpassen eines Dummy-Ergebnisses mit Logit oder Probit anstelle von OLS
Repmat
@Repmat Liegt es daran, dass man sich bei der linearen Modellannahme "Fehler müssen normal verteilt sein" entspannen kann und da dies nicht der Fall sein muss, kann man möglicherweise eine bessere Anpassung erzielen? Gibt es allgemeine Problemkategorien, die für GLMs besser geeignet sind als für LMs?
Mavavilj

Antworten:

5

Ein GLM ist eine allgemeinere Version eines linearen Modells: Das lineare Modell ist ein Sonderfall eines Gaußschen GLM mit der Identitätsverknüpfung. Die Frage ist also: Warum verwenden wir andere Verknüpfungsfunktionen oder andere Mittelwert-Varianz-Beziehungen? Wir passen zu GLMs, weil sie eine bestimmte Frage beantworten, an der wir interessiert sind .

Es ist zum Beispiel nichts an sich falsch daran, eine binäre Antwort in ein lineares Regressionsmodell anzupassen, wenn Sie an der Zuordnung zwischen diesen Variablen interessiert sind. Wenn in der Tat ein höherer Anteil negativer Ergebnisse im unteren 50. Perzentil einer Exposition und ein höherer Anteil positiver Ergebnisse im oberen 50. Perzentil beobachtet wird, ergibt sich eine positiv geneigte Linie, die eine positive Assoziation zwischen diesen korrekt beschreibt zwei Variablen.

Alternativ könnten Sie daran interessiert sein, die oben genannte Assoziation mithilfe einer S-förmigen Kurve zu modellieren. Die Steigung und der Schnittpunkt einer solchen Kurve erklären die Tendenz eines extremen Risikos, zur Wahrscheinlichkeit 0/1 zu tendieren. Auch die Steigung einer Logit-Kurve wird als Log-Odds-Verhältnis interpretiert. Das motiviert die Verwendung einer Logit-Link-Funktion. In ähnlicher Weise können angepasste Wahrscheinlichkeiten, die sehr nahe bei 1 oder 0 liegen, bei Replikationen des Studiendesigns tendenziell weniger variabel sein und könnten daher durch eine binomiale Mittelwert-Varianz-Beziehung erklärt werden, die besagt, dassse(Y.^)=Y.^(1- -Y.^)was die logistische Regression motiviert. In diesem Sinne würde ein moderner Ansatz für dieses Problem die Anpassung eines relativen Risikomodells vorschlagen, das eine logarithmische Verknüpfung verwendet, sodass die Steigung der exponentiellen Trendlinie als logarithmisches Risiko interpretiert wird, ein praktischerer Wert als ein logarithmischer Wert. Wahrscheinlichkeit.

AdamO
quelle
2

Es gibt viele Gründe, eine andere Fehlerverteilung zu wählen. Aber ich glaube, Sie wissen nicht, warum wir überhaupt Verteilungen für Variablen haben. Wenn dies offensichtlich ist, glaube ich, dass meine Antwort für Sie nutzlos ist, sorry.

Warum Distributionen wichtig sind

Verteilungen ermöglichen es uns, ein Modell in einer Wahrscheinlichkeitsrechnung zu betrachten, was bedeutet, dass wir Unsicherheiten über unser Modell quantifizieren können. Wenn wir in stat 101 erfahren, dass die Stichprobenverteilung des Stichprobenmittelwerts (asymptotisch) ist, können wir in einem probabilistischen Rahmen sagen Viele Dinge über diese Schätzung, wie das Testen von Hypothesen und das Erstellen von Konfidenzintervallen.X.¯˙N.(μ,σ)

Probabilistische Verteilungen in linearen und verallgemeinerten linearen Modellen

In einem linearen Modellrahmen können wir im Grunde dasselbe tun, wenn wir die Verteilung des Fehlerterms kennen. Warum? Dies ist ein Ergebnis der linearen Kombination von Zufallsvariablen ( siehe diese Antwort ). Aber der Punkt ist, wenn diese probabilistische Struktur im Modell vorhanden ist, können wir wieder einige Dinge tun. Neben dem Testen von Hypothesen und dem Erstellen von CI können wir vor allem Vorhersagen mit quantifizierter Unsicherheit, Modellauswahl, Anpassungsgüte und einer Reihe anderer Dinge erstellen.

Warum brauchen wir nun speziell GLMs? Erstens kann das probabilistische Gerüst eines linearen Modells verschiedene Arten davon nicht verarbeiten, wie z. B. Zählungen oder Binärdaten. Diese Datentypen unterscheiden sich grundlegend von regulären kontinuierlichen Daten, was bedeutet, dass eine Höhe von 1,83 Metern möglich ist, es jedoch sinnlos ist, wenn 4,5 elektrische Lichter nicht funktionieren.

Daher beginnt die Motivation für GLMs mit dem Umgang mit verschiedenen Datentypen, hauptsächlich durch die Verwendung von Verknüpfungsfunktionen oder / und durch die geschickte Manipulation des beabsichtigten Modells zu einem linear bekannten "Framework". Diese Bedürfnisse und Ideen hängen direkt damit zusammen, wie die Fehler durch das verwendete "Framework" modelliert werden.

Guilherme Marthe
quelle
"Fehler" haben keine Verteilungen, außer in einigen Formulierungen von OLS-Modellen. Wenn Sie stattdessen über eine Verteilung von sprechen, die von abhängig ist , kann gezeigt werden, dass einige GLMs eine Maximum-Likelihood-Technik unter Verwendung natürlicher Parametrisierung sind. Allerdings sind nicht alle GLMs MLE, aber dennoch sehr nützlichY.X.
AdamO
1

Es gibt zwei Dinge, die uns wichtig sein sollten:

  1. Konsistenz,
  2. Effizienz.

Wenn wir keine 1 haben, schrauben Sie 2. Wenn wir aber 1 haben, möchten wir wenn möglich 2 bekommen.

Wenn Sie OLS ausführen, ist es unter sehr allgemeinen Annahmen über die Fehlerverteilung konsistent (Sie benötigen nur Exogenität). GLS kann jedoch effizienter sein. Dies ist besonders schön, wenn Sie eine kleine Probe haben.

Superpronker
quelle
Geht es bei der allgemeinen Linearität wirklich nur um Effizienz bei der Berechnung?
Mavavilj
Ich spreche von statistischer Effizienz: dh wie viele Beobachtungen sind erforderlich, um eine bestimmte Genauigkeit (in Wahrscheinlichkeit) zu erreichen.
Superpronker
@ Superpronker Ich denke, eine ziemlich krasse Auslassung ist Interpretierbarkeit oder Nützlichkeit. In diesem Sinne hat Cox gesagt: "Es ist zu betonen, dass die Bereitstellung genau oder nahezu unvoreingenommener Schätzer für sich genommen selten, wenn überhaupt, wichtig ist." Ich wette, es gibt Beispiele, bei denen ein falsch spezifiziertes OLS-Modell effizienter wäre als ein GLM.
AdamO
@AdamO, guter Punkt. Wie OP andeutet, auch Recheneffizienz: Wenn wir die numerische Optimierung insgesamt vermeiden können, ist dies ebenfalls vorzuziehen.
Superpronker
@ Superpronker Der GLM hat eigentlich nichts mit Optimierung zu tun. Es kommt einfach so vor, dass für reguläre Exponentialfamilien eine Mittelwert-Varianz-Beziehung es ermöglicht, maximale Wahrscheinlichkeit mit GLMs zu erreichen, aber im Allgemeinen handelt es sich nur um einen Schätzgleichungsansatz. Wir finden eine Wurzel für die GleichungD.T.V.- -1(Y.- -G- -1(βX.)), für jeden alten D. oder V..
AdamO