Latent Variable Interpretation von generalisierten linearen Modellen (GLMs)

21

Kurzfassung:

Wir wissen, dass logistische Regression und Probit-Regression so interpretiert werden können, dass sie eine kontinuierliche latente Variable beinhalten, die vor der Beobachtung anhand eines festgelegten Schwellenwerts diskretisiert wird. Steht eine ähnliche latente Variableninterpretation beispielsweise für die Poisson-Regression zur Verfügung? Wie wäre es mit einer binomialen Regression (wie logit oder probit), wenn es mehr als zwei diskrete Ergebnisse gibt? Gibt es auf der allgemeinsten Ebene eine Möglichkeit, GLM in Bezug auf latente Variablen zu interpretieren?


Lange Version:

Eine Standardmethode zum Motivieren des Probit-Modells für binäre Ergebnisse (z. B. aus Wikipedia ) ist die folgende. Wir haben einen unbeobachtet / latent Ergebnisvariable , die normalerweise verteilt wird, bedingt durch den Prädiktor . Diese latente Variable wird einem Schwellenprozess unterworfen, sodass das diskrete Ergebnis, das wir tatsächlich beobachten, wenn , wenn . Dies führt die Wahrscheinlichkeit für angegeben die Form eines normalen CDF, mit dem Mittelwert und der Standardabweichung eine Funktion des Schwellenwerts nehmen und die Steigung der Regression von aufX u = 1 Y γ u = 0 Y < γ u = 1 X γ Y X Y XYXu=1Yγu=0Y<γu=1XγYX jeweils. Das Probit-Modell ist also dazu motiviert, die Steigung aus dieser latenten Regression von auf .YX

Dies ist in der folgenden Handlung von Thissen & Orlando (2001) dargestellt. Diese Autoren diskutieren technisch das normale ogive Modell von Item - Response - Theorie, die ziemlich viel wie Probit Regression für unsere Zwecke sieht (beachten Sie, dass diese Autoren verwenden anstelle von und Wahrscheinlichkeit geschrieben , mit statt der üblichen ).X T PθXTP

Probit-Modell

Wir können logistische Regression ziemlich genau so interpretieren . Der einzige Unterschied besteht darin, dass jetzt das nicht beobachtete kontinuierliche einer logistischen Verteilung folgt , nicht einer Normalverteilung, wenn . Ein theoretisches Argument dafür, warum einer logistischen Verteilung und nicht einer Normalverteilung folgt, ist etwas weniger klar. In der Praxis spielt es in der Regel keine Rolle, welches Modell Sie verwenden. Der Punkt ist, dass beide Modelle eine ziemlich einfache latente Variableninterpretation haben.X YYXY

Ich möchte wissen, ob wir ähnlich aussehende (oder höllisch anders aussehende) latente Variableninterpretationen auf andere GLMs anwenden können - oder sogar auf beliebige GLMs .

Selbst die Ausweitung der obigen Modelle auf binomiale Ergebnisse mit (dh nicht nur Bernoulli-Ergebnisse) ist mir nicht ganz klar. Vermutlich könnte man sich dies vorstellen, indem man sich anstelle eines einzelnen Schwellenwerts mehrere Schwellenwerte vorstellt (einer weniger als die Anzahl der beobachteten diskreten Ergebnisse). Aber wir müssten den Schwellenwerten einige Einschränkungen auferlegen, so dass sie gleichmäßig verteilt sind. Ich bin mir ziemlich sicher, dass so etwas funktionieren könnte, obwohl ich die Details nicht geklärt habe.γn>1γ

Der Fall der Poisson-Regression scheint mir noch weniger klar zu sein. Ich bin mir nicht sicher, ob der Begriff der Schwellenwerte in diesem Fall der beste Weg ist, über das Modell nachzudenken. Ich bin mir auch nicht sicher, welche Art von Verteilung wir uns vom latenten Ergebnis vorstellen können.

Die wünschenswerteste Lösung hierfür wäre eine allgemeine Interpretation von GLM in Bezug auf latente Variablen mit einigen Verteilungen oder anderen - selbst wenn diese allgemeine Lösung eine andere latente Variableninterpretation implizieren würde als die übliche für die Logit / Probit-Regression. Natürlich wäre es noch cooler, wenn die allgemeine Methode mit den üblichen Interpretationen von logit / probit übereinstimmt, sich aber natürlich auch auf andere GLMs erstreckt.

Aber auch wenn solche latenten Variableninterpretationen im allgemeinen GLM-Fall nicht allgemein verfügbar sind, würde ich gerne etwas über latente Variableninterpretationen von Sonderfällen wie den oben erwähnten Binomial- und Poisson-Fällen erfahren.


Verweise

Thissen, D. & Orlando, M. (2001). Item-Response-Theorie für Items, die in zwei Kategorien bewertet wurden. In D. Thissen & Wainer, H. (Hrsg.), Test Scoring (S. 73-140). Mahwah, NJ: Lawrence Erlbaum Associates, Inc.


Bearbeiten Sie den 23.09.2016

Es gibt eine Art von Trivialität, in der jedes GLM ein Modell latenter Variablen ist, nämlich, dass wir den Parameter der geschätzten Ergebnisverteilung wohl immer als "latente Variable" betrachten können - das heißt, wir beobachten es nicht direkt Sagen wir, der Geschwindigkeitsparameter des Poisson, wir leiten ihn nur aus Daten ab. Ich halte dies für eine eher triviale Interpretation und nicht wirklich das, wonach ich suche, da nach dieser Interpretation jedes lineare Modell (und natürlich viele andere Modelle!) Ein "latent variables Modell" ist. Zum Beispiel schätzen wir bei normaler Regression einen "latenten" von normalem gegebenemY X Y γμYX. Dies scheint also die Modellierung latenter Variablen mit einer reinen Parameterschätzung zu verbinden. Was ich suche, zum Beispiel im Fall der Poisson-Regression, würde eher wie ein theoretisches Modell dafür aussehen, warum das beobachtete Ergebnis in erster Linie eine Poisson-Verteilung haben sollte, wenn man einige Annahmen annimmt (die Sie ausfüllen müssen!) die Verteilung des latenten , der Auswahlprozess, falls es einen gibt, usw. Dann (vielleicht entscheidend?) sollten wir in der Lage sein, die geschätzten GLM-Koeffizienten in Bezug auf die Parameter dieser latenten Verteilungen / Prozesse zu interpretieren, ähnlich wie wir es können Koeffizienten aus der Probit-Regression als mittlere Verschiebungen der latenten Normalvariablen und / oder Verschiebungen der Schwelle interpretieren .Yγ

Jake Westfall
quelle
Können wir Ihre Frage wie folgt umformulieren: "Für welche GLM-Familien entspricht der lineare Prädiktor einem Standortparameter für eine kontinuierliche Verteilung und einem Auswahlmodell?" Für die Wahrscheinlichkeits- und die logistische Regression ist der lineare Prädiktor der Gauß'sche bzw. der logistische Verteilungspositionsparameter. Das Auswahlmodell hat einen Schwellenwert von 0. (FWIW, ich glaube nicht, dass es viele andere geben wird - und tatsächlich sind Probit / Logistic die gleiche Familie, aber mit unterschiedlichen Verknüpfungsfunktionen ...)
Andrew M
@AndrewM Ich denke, dass eine Umformulierung wahrscheinlich für GLMs mit diskreten Ergebnissen funktionieren könnte. Ich zögere jedoch, die gesamte Frage darauf zu reduzieren, da ich nicht wirklich sehen kann, wie ein solches Standort- und Auswahlmodell für GLMs mit kontinuierlichen Ergebnissen funktionieren könnte. Diese Neuformulierung scheint eine Antwort für diese GLMs fast auszuschließen
Jake Westfall
Latentklassenmodelle fallen in die Kategorie der Modelle mit endlicher Mischung. Eine einfache Möglichkeit, über sie nachzudenken, besteht darin, dass sie betreute Lernmodelle sind, die im Hintergrund die Heterogenität im Residuum des Modells in Gruppen aufteilen. Eine ähnliche Logik und Partitionierung könnte auf die Heterogenität angewendet werden, die den Residuen von jedem Modell, einschließlich GLMs, innewohnt. Natürlich könnte der Ansatz für diese Partitionierung eine nicht triviale Wahl sein und es könnte eine kluge Lösung sein, aber es könnte gemacht werden, um zu arbeiten.
Mike Hunter
f(yi|ηi)g(θi|ηi)f(yi|ηi)=f(yi|ηi,θi)g(θi|ηi)dθi
Andrew M
1
Das geordnete Probit kann eine ähnliche Interpretation haben. Siehe das Papier von Becker & Kennedy in ET.
Dimitriy V. Masterov

Antworten:

1

Für Modelle mit mehr als einem diskreten Ergebnis gibt es mehrere Versionen von Logit-Modellen (z. B. bedingte Logit, multinomiale Logit, gemischte Logit, verschachtelte Logit, ...). Siehe das Buch von Kenneth Train zu diesem Thema: http://eml.berkeley.edu/books/choice2.html

yJjxjiuij=xjβ+εijjεijj

Pr(y=j)=exp(xjβ)k=1Jexp(xkβ)

In diesem Modell bilden eine Rangfolge der Alternativen. Wir suchen nach Parametern, , damit diese Rangfolge mit den beobachteten Entscheidungen übereinstimmt, die wir treffen. Wenn z. B. teurere Autos niedrigere Marktanteile haben, muss der Preiskoeffizient negativ sein. βuijβ

Ökonomen interpretieren als latente „Nützlichkeit“ jede Wahl zu machen. In der Mikroökonomie gibt es zahlreiche Arbeiten zur Nützlichkeitstheorie: siehe z . B. https://en.wikipedia.org/wiki/Utility .u

Beachten Sie, dass es hier keinen "Schwellenwert" -Parameter gibt: Wenn stattdessen ein Dienstprogramm größer wird als das zuvor größte, wechselt der Verbraucher zur Auswahl dieser Alternative.

Daher kann es in keinen Intercept geben : Wenn dies der Fall wäre, würde dies nur den Nutzen aller verfügbaren Optionen vergrößern, wobei die Rangfolge beibehalten und die Auswahl unverändert bleiben würde.xjβ

Superpronker
quelle