Ich habe einen Datensatz mit 8000 Clustern und 4 Millionen Beobachtungen. Leider läuft meine Statistiksoftware Stata ziemlich langsam, wenn sie ihre Paneldatenfunktion für die logistische Regression verwendet: xtlogit
Selbst bei einer Teilstichprobe von 10%.
Bei Verwendung der Nonpanel- logit
Funktion erscheinen die Ergebnisse jedoch viel früher. Daher kann ich möglicherweise von der Verwendung logit
geänderter Daten profitieren , die feste Auswirkungen haben.
Ich glaube, dieses Verfahren ist das "Mundlak-Verfahren mit festen Effekten" (Mundlak, Y. 1978. Zusammenführung von Zeitreihen- und Querschnittsdaten. Econometrica, 46 (1), 69-85.)
Eine intuitive Erklärung dieses Verfahrens fand ich in einem Aufsatz von Antonakis, J., Bendahan, S., Jacquart, P. und Lalive, R. (2010). Zur Begründung von Ansprüchen: Eine Überprüfung und Empfehlungen. The Leadership Quarterly, 21 (6). 1086-1120. Ich zitiere:
Eine Möglichkeit, das Problem der ausgelassenen Fixeffekte zu umgehen und weiterhin Variablen der Ebene 2 einzubeziehen, besteht darin, die Cluster-Mittelwerte aller Kovariaten der Ebene 1 in das geschätzte Modell einzubeziehen (Mundlak, 1978). Die Cluster-Mittelwerte können als Regressoren enthalten sein oder von der Level 1-Kovariate subtrahiert werden (dh Cluster-Mittelwert-Zentrierung). Die Cluster-Mittelwerte sind innerhalb des Clusters invariant (und variieren zwischen den Clustern) und ermöglichen eine konsistente Schätzung von Level 1-Parametern, als wären Fixeffekte einbezogen worden (siehe Rabe-Hesketh & Skrondal, 2008).
Daher scheint die Cluster-Mean-Zentrierung ideal und praktisch für die Lösung meines Rechenproblems zu sein. Diese Arbeiten scheinen jedoch auf lineare Regression (OLS) ausgerichtet zu sein.
Ist diese Methode der Cluster-Mean-Zentrierung auch für die "Replikation" der binären logistischen Regression mit festen Effekten anwendbar?
Eine eher technische Frage, die zur gleichen Antwort führen sollte, wäre: xtlogit depvar indepvars, fe
Ist Datensatz A gleich logit depvar indepvars
Datensatz B, wenn Datensatz B die Cluster-Mean-Centered-Version von Datensatz A ist?
Eine zusätzliche Schwierigkeit, die ich in dieser Cluster-Mean-Zentrierung gefunden habe, ist der Umgang mit Dummies. Da Dummies entweder 0 oder 1 sind, sind sie in der Zufalls- und Fixeffekt-Regression identisch? Sollten sie nicht "zentriert" sein?
Ich glaube, dass es sich bei der bedingten Protokollierung ("Clogit" bei Stata) um eine alternative Schätzung der Protokollierung mit festem Effekt handelt.
http://www3.nd.edu/~rwilliam/stats3/Panel03-FixedEffects.pdf
quelle
Stata
denclogit
Befehl oder denxtlogit, fe
Befehl verwenden, um eine Logit-Analyse mit festen Effekten durchzuführen. Beide führen zu denselben Ergebnissen. (Ich glaubextlogit, fe
sogar , dass tatsächlich Anrufe getätigt werdenclogit
.)" OP wusste schonxtlogit, fe
anhand des vorletzten Absatzes Bescheid .Allison hat dieses Problem in Allison, (2009), "Fixed effects regression models", S.32f diskutiert.
Allison argumentiert, dass es nicht möglich ist, ein bedingungsloses Modell mit maximaler Wahrscheinlichkeit zu schätzen. Dies liegt daran, dass die Modelle aufgrund des Problems der zufälligen Parameter voreingenommen sind. Stattdessen empfiehlt er die Verwendung eines bedingten Logit-Modells (Chamberlain, 1980). Dies wird erreicht, indem die Wahrscheinlichkeitsfunktion von der Anzahl der für jedes Individuum beobachteten Ereignisse abhängig gemacht wird.
quelle