Was ist der Unterschied zwischen Modellen mit festen Effekten, zufälligen Effekten und gemischten Effekten?

268

Wie würden Sie (vielleicht mit einfachen Beispielen) den Unterschied zwischen Modellen mit festem Effekt, Zufallseffekt und gemischtem Effekt in einfachen Worten erklären?

Andrew
quelle
4
Ich finde auch, dass es manchmal schwierig ist zu bestimmen, wann ein Effekt als fester oder zufälliger Effekt betrachtet werden muss. Obwohl es einige Empfehlungen zu dieser Tatsache gibt, ist es nicht immer einfach, die richtige Entscheidung zu treffen.
Manuel Ramón
3
Ich denke, dass dieser Link hilfreich sein kann, um die zugrunde liegenden Prinzipien gemischter Modelle zu klären: Fixed, Random und Mixed Models (SAS-Dokumentation) .
Pietrop
6
Eine äußerst hilfreiche Antwort finden Sie auch hier: Was ist der Unterschied zwischen Zufallseffekt-, Mischeffekt- und Randmodell?
gung

Antworten:

145

Der Statistiker Andrew Gelman sagt, dass die Begriffe "fester Effekt" und "zufälliger Effekt" unterschiedliche Bedeutungen haben, je nachdem, wer sie verwendet. Vielleicht können Sie herausfinden, welche der 5 Definitionen für Ihren Fall gilt. Im Allgemeinen ist es möglicherweise besser, nach Gleichungen zu suchen, die das Wahrscheinlichkeitsmodell beschreiben, das die Autoren verwenden (beim Lesen), oder das vollständige Wahrscheinlichkeitsmodell zu schreiben, das Sie verwenden möchten (beim Schreiben).

Hier skizzieren wir fünf Definitionen, die wir gesehen haben:

  1. Fixe Effekte sind bei allen Individuen konstant, und zufällige Effekte variieren. Beispielsweise entspricht in einer Wachstumsstudie ein Modell mit zufälligen Abschnitten und fester Steigung parallelen Linien für verschiedene Individuen oder dem Modell . Kreft und De Leeuw (1998) unterscheiden daher zwischen festen und zufälligen Koeffizienten. b i y i t = a i + b taibiyit=ai+bt

  2. Effekte werden behoben, wenn sie für sich selbst interessant sind, oder zufällig, wenn Interesse an der zugrunde liegenden Population besteht. Searle, Casella und McCulloch (1992, Abschnitt 1.4) untersuchen diese Unterscheidung eingehend.

  3. „Wenn eine Stichprobe die Grundgesamtheit erschöpft, ist die entsprechende Variable festgelegt. Wenn die Stichprobe ein kleiner (dh vernachlässigbarer) Teil der Bevölkerung ist, ist die entsprechende Variable zufällig. “(Green und Tukey, 1960)

  4. „Wenn angenommen wird, dass ein Effekt ein realisierter Wert einer Zufallsvariablen ist, spricht man von einem Zufallseffekt.“ (LaMotte, 1983)

  5. Fixe Effekte werden unter Verwendung der kleinsten Quadrate (oder allgemeiner der maximalen Wahrscheinlichkeit) geschätzt, und zufällige Effekte werden mit Schrumpfung geschätzt ("lineare unverzerrte Vorhersage" in der Terminologie von Robinson, 1991). Diese Definition ist Standard in der Literatur zur Mehrebenenmodellierung (siehe z. B. Snijders und Bosker, 1999, Abschnitt 4.2) und in der Ökonometrie.

[ Gelman, 2004, Varianzanalyse - warum ist das wichtiger denn je? Die Annalen der Statistik. ]

John Salvatier
quelle
4
+1: sehr schöner Link! Ich denke, die Definition variiert auch je nach Fachgebiet (z. B. # 4 ist sehr mathematisch / statistisch, aber # 1 und # 2 sind aus Sicht der
Biowissenschaften
12
Es ist auch informativ, die Diskussion und Gegenerwiderung zu diesem Artikel zu lesen. In der Diskussion schrieb Peter McCullagh, dass er mit einem wesentlichen Teil dessen, was Gelman schrieb, nicht einverstanden ist. Es geht mir nicht darum, den einen oder anderen zu bevorzugen, sondern festzustellen, dass unter Experten erhebliche Meinungsverschiedenheiten bestehen und nicht zu viel Gewicht auf ein Papier gelegt wird.
22.
6
Die gesamte Diskussion ist auf Link
julieth
36
Es ist lustig, dass Andrew Gelman heute eher als "Blogger" als als einer der führenden Statistiker der Welt beschrieben wird. Obwohl er natürlich ein Blogger ist, sollte er wahrscheinlich als "Statistiker Andrew Gelman" bezeichnet werden, wenn ein Qualifikationsmerkmal verwendet wird.
Brash Equilibrium
4
Aber als Statistiker und nicht nur als schicker Blogger hätte er zumindest subjektive relative Häufigkeiten der fünf Fälle angeben sollen. Wenn Leute über feste Effekte oder zufällige Effekte sprechen, meinen sie meistens:(4) “If an effect is assumed to be a realized value of a random variable, it is called a random effect.” (LaMotte, 1983)
Ufos
251

Dazu gibt es gute Bücher wie Gelman und Hill . Was folgt, ist im Wesentlichen eine Zusammenfassung ihrer Perspektive.

Zunächst sollten Sie sich nicht zu sehr in die Terminologie vertiefen. In der Statistik sollte Jargon niemals als Ersatz für ein mathematisches Verständnis der Modelle selbst verwendet werden. Dies gilt insbesondere für Modelle mit zufälligen und gemischten Effekten. "Gemischt" bedeutet nur, dass das Modell sowohl feste als auch zufällige Effekte hat. Konzentrieren wir uns also auf den Unterschied zwischen festen und zufälligen Effekten.

Random versus Fixed Effects

Angenommen, Sie haben ein Modell mit einem kategorialen Prädiktor, der Ihre Beobachtungen gemäß den Kategoriewerten in Gruppen unterteilt. * Die diesem Prädiktor zugeordneten Modellkoeffizienten oder "Effekte" können entweder fest oder zufällig sein. Der wichtigste praktische Unterschied zwischen den beiden ist:

Zufällige Effekte werden mit partiellem Pooling geschätzt, feste Effekte jedoch nicht.

Partielles Pooling bedeutet, dass bei wenigen Datenpunkten in einer Gruppe die Effektschätzung der Gruppe teilweise auf den häufigeren Daten aus anderen Gruppen basiert. Dies kann ein netter Kompromiss zwischen der Abschätzung eines Effekts durch vollständiges Zusammenfassen aller Gruppen sein, wodurch Variationen auf Gruppenebene maskiert werden, und der Abschätzung eines Effekts für alle Gruppen vollständig getrennt, was zu schlechten Schätzungen für Gruppen mit geringer Stichprobe führen kann.

Zufällige Effekte sind einfach die Erweiterung der Partial-Pooling-Technik als allgemeines statistisches Modell. Dies ermöglicht die prinzipielle Anwendung der Idee auf eine Vielzahl von Situationen, einschließlich mehrerer Prädiktoren, gemischter kontinuierlicher und kategorialer Variablen sowie komplexer Korrelationsstrukturen. (Mit großer Kraft geht jedoch auch große Verantwortung einher: Die Komplexität von Modellierung und Inferenz nimmt erheblich zu und kann subtile Verzerrungen hervorrufen, deren Vermeidung erhebliche Raffinesse erfordert.)

Um das Zufallseffektmodell zu motivieren, fragen Sie sich: Warum sollten Sie einen partiellen Pool erstellen? Wahrscheinlich, weil Sie denken, dass die kleinen Untergruppen Teil einer größeren Gruppe mit einem gemeinsamen Mittelwert sind. Die Mittelwerte der Untergruppen können ein wenig vom Mittelwert der großen Gruppe abweichen, jedoch nicht um einen willkürlichen Betrag. Um diese Idee zu formalisieren, nehmen wir an, dass die Abweichungen einer Verteilung folgen, die typisch für Gauß ist. Hier kommt der Zufallseffekt ins Spiel: Wir gehen davon aus, dass die Abweichungen der Untergruppen von einem Elternteil der Verteilung einer Zufallsvariablen folgen. Sobald Sie diese Idee im Hinterkopf haben, folgen die Modellgleichungen mit gemischten Effekten auf natürliche Weise.

Leider haben Benutzer von Mischeffektmodellen oft falsche Vorurteile darüber, was zufällige Effekte sind und wie sie sich von festen Effekten unterscheiden. Die Leute hören "zufällig" und denken, dass dies etwas ganz Besonderes an dem zu modellierenden System bedeutet, zum Beispiel, dass feste Effekte verwendet werden müssen, wenn etwas "fest" ist, während zufällige Effekte verwendet werden müssen, wenn etwas "zufällig abgetastet" wird. Die Annahme, dass die Modellkoeffizienten aus einer Verteilung stammen, ist jedoch nicht besonders zufällig. Es ist nur eine weiche Einschränkung, ähnlich der Strafe, die auf Modellkoeffizienten in der Ridge-Regression angewendet wird. Es gibt viele Situationen, in denen Sie zufällige Effekte verwenden möchten oder nicht, und diese haben nicht unbedingt viel mit der Unterscheidung zwischen "fest" und "zufällig" zu tun.2

Leider hat die durch diese Begriffe verursachte Begriffsverwirrung zu einer Fülle widersprüchlicher Definitionen geführt . Von den fünf Definitionen unter diesem Link ist nur # 4 im allgemeinen Fall völlig korrekt, aber es ist auch völlig uninformativ. Um zu verstehen, was diese Definition in der praktischen Arbeit bedeutet, müssen Sie ganze Artikel und Bücher lesen (oder diesen Beitrag verfehlen).

Beispiel

Betrachten wir einen Fall, in dem die Modellierung von Zufallseffekten nützlich sein könnte. Angenommen, Sie möchten das durchschnittliche US-Haushaltseinkommen nach Postleitzahl schätzen. Sie verfügen über einen großen Datensatz mit Beobachtungen zum Haushaltseinkommen und zur Postleitzahl. Einige Postleitzahlen sind im Datensatz gut vertreten, andere weisen nur wenige Haushalte auf.

Für Ihr erstes Modell würden Sie höchstwahrscheinlich das Durchschnittseinkommen in jeder Postleitzahl verwenden. Dies funktioniert gut, wenn Sie viele Daten für eine ZIP-Datei haben, aber die Schätzungen für Ihre schlecht abgetasteten ZIP-Dateien weisen eine hohe Varianz auf. Sie können dies abmildern, indem Sie einen Schrumpfungsschätzer (auch als partielles Pooling bezeichnet) verwenden, der Extremwerte für alle Postleitzahlen in Richtung des Durchschnittseinkommens drückt.

Aber wie viel Schrumpfung / Pooling sollten Sie für eine bestimmte ZIP-Datei durchführen? Es sollte intuitiv von Folgendem abhängen:

  1. Wie viele Beobachtungen haben Sie in dieser ZIP
  2. Wie viele Beobachtungen haben Sie insgesamt
  3. Das individuelle Mittel und die Varianz des Haushaltseinkommens über alle Postleitzahlen hinweg
  4. Die Streuung des durchschnittlichen Haushaltseinkommens auf Gruppenebene über alle Postleitzahlen hinweg

Wenn Sie die Postleitzahl als zufälligen Effekt modellieren, wird die mittlere Einkommensschätzung in allen Postleitzahlen unter Berücksichtigung aller oben genannten Faktoren einem statistisch fundierten Rückgang unterworfen.

Das Beste daran ist, dass Modelle mit zufälligen und gemischten Effekten automatisch (4) die Variabilitätsschätzung für alle zufälligen Effekte im Modell verarbeiten. Dies ist schwieriger, als es auf den ersten Blick scheint: Sie könnten die Varianz des Stichprobenmittelwerts für jede ZIP-Datei ausprobieren, dies ist jedoch voreingenommen, da ein Teil der Varianz zwischen Schätzungen für verschiedene ZIP-Dateien nur die Stichprobenvarianz ist. In einem Zufallseffektmodell berücksichtigt der Inferenzprozess die Stichprobenvarianz und verkleinert die Varianzschätzung entsprechend.

Nach Berücksichtigung von (1) - (4) ist ein Zufalls- / Mischeffektmodell in der Lage, die geeignete Schrumpfung für Gruppen mit geringer Stichprobe zu bestimmen. Es kann auch mit viel komplizierteren Modellen mit vielen verschiedenen Prädiktoren umgehen.

Beziehung zur hierarchischen Bayes'schen Modellierung

Wenn dies für Sie nach hierarchischer Bayes'scher Modellierung klingt, haben Sie recht - es ist ein enger Verwandter, aber nicht identisch. Modelle mit gemischten Effekten sind hierarchisch, da sie Verteilungen für latente, nicht beobachtete Parameter festlegen. Sie sind jedoch in der Regel nicht vollständig bayesianisch, da den Hyperparametern der obersten Ebene keine geeigneten Prioritäten zugewiesen werden. Zum Beispiel würden wir im obigen Beispiel das Durchschnittseinkommen in einer bestimmten Postleitzahl höchstwahrscheinlich als Stichprobe aus einer Normalverteilung behandeln, wobei der unbekannte Mittelwert und das unbekannte Sigma nach dem Mischeffektanpassungsverfahren geschätzt werden. Ein (nicht-bayesianisches) Modell mit gemischten Effekten hat jedoch in der Regel keine Prioritäten für den unbekannten Mittelwert und das Sigma, sodass es nicht vollständig bayesianisch ist. Bei einem anständigen Datensatz führen das Standardmodell mit gemischten Effekten und die vollständig bayesianische Variante jedoch häufig zu sehr ähnlichen Ergebnissen.

* Während sich viele Behandlungen dieses Themas auf eine enge Definition von "Gruppe" konzentrieren, ist das Konzept in der Tat sehr flexibel: Es handelt sich nur um eine Reihe von Beobachtungen, die eine gemeinsame Eigenschaft haben. Eine Gruppe könnte sich aus mehreren Beobachtungen einer einzelnen Person oder mehrerer Personen in einer Schule oder mehrerer Schulen in einem Bezirk oder mehreren Sorten einer einzelnen Obstsorte oder mehrerer Gemüsesorten aus derselben Ernte oder mehreren Ernten zusammensetzen Jede kategoriale Variable kann als Gruppierungsvariable verwendet werden.

Paul
quelle
19
+6. Ich denke, dies ist derzeit die beste Antwort in diesem Thread und hoffentlich wird sie mit der Zeit die am meisten aufgerufene sein. Ein Vorschlag, den ich machen möchte, ist, einige Formeln aufzunehmen: Vielleicht können Sie in Ihrem Beispielabschnitt Formeln bereitstellen, in denen das Modell mit festen und zufälligen Effekten (und vielleicht auch das Modell mit einem Koeffizienten, dh das Modell mit vollständigem Pooling) spezifiziert sind "). Ich denke, Formeln werden Ihre Antwort klarer und attraktiver / ansprechender machen (derzeit sieht es ein bisschen aus wie eine Textwand).
Amöbe
3
@amoeba danke! Sie haben Recht damit, dass Koeffizient das falsche Wort ist, es ist eher ein "Modellbegriff" als ein Koeffizient. Formeln würden helfen, diese und andere Fragen zu klären. Ich habe diese Antwort langsam überarbeitet, als Zeit und Inspiration eintrafen, und werde dies auch weiterhin tun, bis es dort ankommt, wo es hingehen muss! Ich werde wahrscheinlich die Formeln für "Regression gegen eine einzelne kategoriale Variable" ausarbeiten. Vollständiges Pooling = Gruppenkoeffizienten sind identisch (Delta Prior, Null Sigma), partielles Pooling = sie können sich geringfügig unterscheiden (endliches Sigma), kein Pooling = keine Einschränkung (unendliches Sigma).
Paul
Danke für die tolle Antwort! Ich habe Sie jedoch verloren bei "Sie können dies durch die Verwendung eines Schrumpfungsschätzers (auch als partielles Pooling bezeichnet) abmildern, der Extremwerte in Richtung des Durchschnittseinkommens über alle Postleitzahlen schiebt." Was ist partielles Pooling? Könnten Sie ein intuitives Beispiel geben? Wie stimmt die Wikipedia-Seite zu zufälligen Effekten mit Ihren Aussagen überein? In ihrem Beispiel für einen "Zufallseffekt" werden Stichprobengrößen in keiner Weise berücksichtigt.
AlphaOmega
2
Herzlichen Glückwunsch zum Bestehen von 100 Upvotes für diese Antwort :-)
Amöbe
1
@Paul Ich habe wirklich Schwierigkeiten zu verstehen, wie diese Antwort zusammengeführt werden kann (z. B. "Leute ... denken ... feste Effekte müssen verwendet werden, wenn etwas" fest "ist, während zufällige Effekte verwendet werden müssen, wenn etwas" zufällig abgetastet "wird ") mit dem, was ich darin sehe, dass die Standardfehler in gemischten Modellen auftreten, wobei die SEs mit zufälligen Effekten meiner Ansicht nach nur mit der Annahme übereinstimmen, dass sie zufällig abgetastet werden, und die SEs mit festen Effekten nur, wenn sie behoben werden Siehe
zb
47

Ich habe darüber in einem Buchkapitel über gemischte Modelle geschrieben (Kapitel 13 in Fox, Negrete-Yankelevich und Sosa 2014 ); Die entsprechenden Seiten (S. 311-315) sind in Google Books verfügbar . Ich denke, die Frage reduziert sich auf "Was sind die Definitionen von festen und zufälligen Effekten?" (Ein "gemischtes Modell" ist nur ein Modell, das beides enthält). In meiner Diskussion geht es ein wenig weniger um ihre formale Definition (für die ich mich auf das Gelman-Papier beziehen würde, das durch die Antwort von @ JohnSalvatier oben verlinkt wurde) als vielmehr um ihre praktischen Eigenschaften und Nützlichkeit. Hier einige Auszüge:

Die traditionelle Sichtweise von Zufallseffekten ist eine Möglichkeit, statistische Tests korrekt durchzuführen, wenn einige Beobachtungen korrelieren.

Wir können uns Zufallseffekte auch als eine Möglichkeit vorstellen, Informationen aus verschiedenen Ebenen innerhalb einer Gruppierungsvariablen zu kombinieren.

Zufällige Effekte sind besonders nützlich, wenn wir (1) viele Ebenen (z. B. viele Arten oder Blöcke), (2) relativ wenig Daten auf jeder Ebene haben (obwohl wir mehrere Stichproben von den meisten Ebenen benötigen) und (3) ungleichmäßig sind Probenahme über Ebenen (Feld 13.1).

Frequentisten und Bayesianer definieren zufällige Effekte etwas anders, was sich auf die Art und Weise auswirkt, wie sie sie verwenden. Frequentisten definieren Zufallseffekte als kategoriale Variablen, deren Pegel zufällig aus einer größeren Population ausgewählt werdenB. zufällig ausgewählte Arten aus einer Liste endemischer Arten. Bayes'sche definieren Zufallseffekte als Mengen von Variablen, deren Parameter [alle] aus [derselben] Verteilung stammen. Die Definition der Frequentisten ist philosophisch kohärent, und Sie werden auf Forscher (einschließlich Gutachter und Betreuer) stoßen, die darauf bestehen, aber es kann praktisch problematisch sein. Dies bedeutet beispielsweise, dass Sie keine Arten als Zufallseffekt verwenden können, wenn Sie alle Arten an Ihrem Feldstandort beobachtet haben, da die Liste der Arten keine Stichprobe aus einer größeren Population ist. Sie können auch das Jahr als Zufallseffekt verwenden. Da Forscher in zufällig ausgewählten Jahren selten ein Experiment durchführen, verwenden sie normalerweise entweder eine Reihe von aufeinanderfolgenden Jahren oder die zufällige Menge von Jahren, in denen sie auf das Feld gelangen könnten.

Zufällige Effekte können auch als Prädiktorvariablen beschrieben werden, bei denen Sie Rückschlüsse auf die Werteverteilung (dh die Varianz zwischen den Werten der Reaktion auf verschiedenen Ebenen) ziehen möchten, anstatt die Unterschiede der Werte zwischen bestimmten Ebenen zu testen.

Manchmal wird gesagt, dass zufällige Effekte „Faktoren sind, an denen Sie nicht interessiert sind“. Dies ist nicht immer der Fall. Während dies bei ökologischen Experimenten häufig der Fall ist (wo die Variation zwischen Standorten normalerweise nur ein Ärgernis darstellt), ist dies manchmal von großem Interesse, beispielsweise bei Evolutionsstudien, bei denen die Variation zwischen Genotypen der Rohstoff für die natürliche Selektion ist, oder bei demografischen Studien Wenn die Variation zwischen den Jahren die langfristigen Wachstumsraten senkt. In einigen Fällen werden feste Effekte auch verwendet, um uninteressante Variationen zu kontrollieren, z. B. indem Masse als Kovariate zur Kontrolle von Effekten der Körpergröße verwendet wird.

Sie werden auch hören, dass Sie "nichts über den (vorhergesagten) Wert eines bedingten Modus sagen können". Dies ist auch nicht der Fall - Sie können eine Nullhypothese, dass der Wert gleich Null ist, oder die formale Nullhypothese nicht testen Werte von zwei verschiedenen Ebenen sind gleich, es ist jedoch durchaus sinnvoll, den vorhergesagten Wert zu betrachten und sogar einen Standardfehler des vorhergesagten Werts zu berechnen (siehe z. B. die Fehlerbalken um die bedingten Modi in Abbildung 13.1).

Das Bayes'sche Gerüst hat eine einfachere Definition von Zufallseffekten. Unter einem Bayes'schen Ansatz ist ein fester Effekt einer, bei dem jeder Parameter (z. B. der Mittelwert für jede Art innerhalb einer Gattung) unabhängig (mit unabhängig festgelegten Prioritäten) geschätzt wird, während für einen zufälligen Effekt die Parameter für jede Ebene als gezeichnet modelliert werden aus einer Distribution (normalerweise Normal); in statistischer Standardnotation .species_meanN(genus_mean,σspecies2)

Ich sagte oben, dass zufällige Effekte am nützlichsten sind, wenn die Gruppierungsvariable viele gemessene Ebenen hat. Umgekehrt sind zufällige Effekte in der Regel unwirksam, wenn die Gruppierungsvariable zu wenig Ebenen aufweist. Normalerweise können Sie keine zufälligen Effekte verwenden, wenn die Gruppierungsvariable weniger als fünf Stufen hat, und die Varianzschätzungen für zufällige Effekte sind mit weniger als acht Stufen instabil, da Sie versuchen, eine Varianz aus einer sehr kleinen Stichprobe zu schätzen.

Ben Bolker
quelle
die vorschau zeigt derzeit keine seiten nach 311 und überspringt p 310, was hier sehr nützlich zu sein scheint ...
fliegt
Vielleicht ist es ein regionales Problem? trotzdem danke für die klare antwort oben!
fliegt
1
Ich habe auch keinen Zugriff auf das Google Books-Ergebnis. Vielen Dank, dass Sie den Text hier aufgenommen haben.
MichaelChirico
Ich mag diesen Auszug wirklich. Dies ist vielleicht die klarste und nützlichste Beschreibung, wann und warum zufällige Effekte verwendet werden sollen, die ich gesehen habe. Ich wünschte, ich hätte es, als ich vor ein paar Jahren unterrichtete.
Gregor
39

Behobener Effekt: Etwas, das der Experimentator direkt manipuliert und oft wiederholbar ist, z. B. Arzneimittelverabreichung - eine Gruppe erhält Arzneimittel, eine Gruppe Placebo.

Zufälliger Effekt: Quelle für zufällige Variationen / experimentelle Einheiten, z. B. Personen, die (zufällig) aus einer Population für eine klinische Studie gezogen wurden. Zufällige Effekte schätzen die Variabilität

Gemischter Effekt: Beinhaltet beide, der fixe Effekt schätzt in diesen Fällen die Populationskoeffizienten, während die zufälligen Effekte individuelle Unterschiede in Reaktion auf einen Effekt erklären können, dh jede Person erhält sowohl das Medikament als auch das Placebo zu unterschiedlichen Gelegenheiten, den fixen Effekt schätzt die Wirkung des Medikaments, die zufälligen Effekte Bedingungen würden es jeder Person ermöglichen, auf das Medikament unterschiedlich zu reagieren.

Allgemeine Kategorien von gemischten Effekten - wiederholte Messungen, longitudinale, hierarchische, geteilte Darstellung.

Matt Albrecht
quelle
3
Du liegst nicht falsch, aber deine Definition, was ein fester Effekt ist, ist nicht das, woran ich denken würde, wenn jemand einen festen Effekt sagt. Hier ist , was ich mir vorstellen , wenn jemand sagt fixer Effekt en.wikipedia.org/wiki/Difference_in_differences oder diese stata.com/support/faqs/stat/xtreg2.html (insbesondere Gleichung 3 auf der Stata - Seite)
Andy W
@AndyW: Verstehe ich richtig, dass Ihr Verständnis dessen, was "fester Effekt" ist, der Definition # 1 entspricht, wie sie von Gelman aufgelistet und in der (akzeptierten) Antwort von JohnSalvatier in diesem Thread zitiert wird?
Amöbe
1
ai
1
ai
1
Ich bin damit einverstanden, dass diese Antwort -1 sein sollte. Es enthält weder eine genaue allgemeine Erklärung, noch gibt es die Bedingungen an, unter denen diese besondere Erklärung gültig wäre. Wer könnte also auf diese Antwort stoßen und verlässliches und nützliches Wissen gewinnen?
Paul
23

Ich bin von hier auf diese Frage gekommen , ein mögliches Duplikat.

Es gibt bereits mehrere ausgezeichnete Antworten, aber wie in der akzeptierten Antwort angegeben, gibt es viele verschiedene (aber verwandte) Verwendungen des Begriffs, so dass es nützlich sein könnte, die in der Ökonometrie verwendete Perspektive anzugeben, die hier noch nicht vollständig angesprochen zu sein scheint .

yit=Xitδ+αi+ηit,
αiηit

αi

αiXitCov(αi,Xit)=0

yXyitXit

αiXitiXit=0Xit

δtαiXit

Tm

Bildbeschreibung hier eingeben

Hier ist der Code, der die Daten generiert und eine positive RE-Schätzung und eine "korrekte" negative FE-Schätzung erzeugt. (Die RE-Schätzungen sind jedoch häufig auch für andere Samen negativ, siehe oben.)

library(Jmisc)
library(plm)
library(RColorBrewer)
# FE illustration
set.seed(324)
m = 8
n = 12

step = 5
alpha = runif(n,seq(0,step*n,by=step),seq(step,step*n+step,by=step))
beta = -1
y = X = matrix(NA,nrow=m,ncol=n)
for (i in 1:n) {
  X[,i] = runif(m,i,i+1)
  X[,i] = rnorm(m,i)
  y[,i] = alpha[i] + X[,i]*beta + rnorm(m,sd=.75)  
}
stackX = as.vector(X)
stackY = as.vector(y)

darkcols <- brewer.pal(12, "Paired")
plot(stackX,stackY,col=rep(darkcols,each=m),pch=19)

unit = rep(1:n,each=m)
# first two columns are for plm to understand the panel structure
paneldata = data.frame(unit,rep(1:m,n),stackY,stackX) 
fe <- plm(stackY~stackX, data = paneldata, model = "within")
re <- plm(stackY~stackX, data = paneldata, model = "random")

Die Ausgabe:

> fe

Model Formula: stackY ~ stackX

Coefficients:
 stackX 
-1.0451 


> re

Model Formula: stackY ~ stackX

Coefficients:
(Intercept)      stackX 
   18.34586     0.77031 
Christoph Hanck
quelle
1
δ
1
Es hat sich auch herausgestellt, dass es möglich ist, dieses Beispiel mit gemischten Effekten zu behandeln. Hier ist das Papier, das zeigt, wie: academiccommons.columbia.edu/download/fedora_content/download/…
Paul
1
TN
7
In der vorstehenden Diskussion wäre es genauer, "zufällige Effekte" durch "die eingeschränkte Version von zufälligen Effekten, die in Rs plm-Paket implementiert sind" zu ersetzen. Es gibt andere Zufallseffektmodelle, die das Problem mit den korrelierten Prädiktoren / Gruppen gut bewältigen, wie in dem Artikel, der in meinem vorherigen Kommentar zitiert wurde. Sie sind nur noch nicht Teil der ökonometrischen Pakete / Literatur. Es scheint, dass ökonometrische Definitionen von festen und zufälligen Effekten sehr domänenspezifisch und nicht wirklich repräsentativ für ihre grundlegenderen allgemeinen Bedeutungen aus der statistischen Literatur sind.
Paul
4
Richtig, ich habe ein wenig nachbearbeitet. Aber imo, genau das macht diesen Thread so wertvoll: Verschiedene Felder bedeuten verschiedene Dinge mit mehr oder weniger der gleichen Terminologie, und die verschiedenen Beiträge helfen, diese Unterschiede herauszustellen.
Christoph Hanck
12

Die Unterscheidung ist nur im Zusammenhang mit nicht-bayesianischen Statistiken sinnvoll. In der Bayes'schen Statistik sind alle Modellparameter "zufällig".

Shige
quelle
1
Interessant. Aber da fest oder zufällig als Bedingung einer bestimmten Variablen (einer bestimmten Datenspalte) und nicht als Parameter dieser Variablen angesehen werden kann, ... trifft Ihre Antwort vollständig zu?
Rolando2
1
@ rolando2 In jedem Fall ist das einfach falsch. Speziell für Bayesianer sind die Parameter alles, was die Theorie / Wahrscheinlichkeit aussagt. Nur die Unsicherheit darüber, welche Werte sie annehmen, wird mithilfe von Wahrscheinlichkeitsverteilungen dargestellt. Infolgedessen werden die Parameter manchmal als fest und unbekannt ("fest") und manchmal als aus einer Verteilung stammend ("zufällig") modelliert, obwohl das letztgenannte Gerät häufig eher durch ein Austauschbarkeitsurteil als durch eine Annahme eines Stichprobenprozesses motiviert ist.
Conjugateprior
Dies steht im Gegensatz zu @ben answer. Ich glaube die Antwort ist falsch.
SmallChess
9

In der Ökonometrie werden die Begriffe typischerweise in verallgemeinerten linearen Modellen angewendet, wobei das Modell von der Form ist

yit=g(xitβ+αi+uit).

αiuit

αi⊥̸uit

In linearen Modellen führt das Vorhandensein eines Zufallseffekts nicht zu einer Inkonsistenz des OLS-Schätzers. Die Verwendung eines Zufallseffektschätzers (wie durchführbare verallgemeinerte kleinste Quadrate) führt jedoch zu einem effizienteren Schätzer.

In nichtlinearen Modellen wie Probit, Tobit, ... führt das Vorhandensein eines zufälligen Effekts im Allgemeinen zu einem inkonsistenten Schätzer. Die Verwendung eines Schätzers für zufällige Effekte stellt dann die Konsistenz wieder her.

Sowohl für lineare als auch für nichtlineare Modelle führen feste Effekte zu einer Verzerrung. In linearen Modellen können jedoch Transformationen verwendet werden (z. B. erste Unterschiede oder Erniedrigung), bei denen OLS für die transformierten Daten zu konsistenten Schätzungen führt. Bei nichtlinearen Modellen gibt es einige Ausnahmen, bei denen Transformationen existieren. Ein Beispiel hierfür ist das Protokoll für feste Effekte .

Beispiel: Zufällige Effekte probit. Annehmen

yit=xitβ+αi+uit,αiN(0,σα2),uitN(0,1).

und das beobachtete Ergebnis ist

yit=1(yit>0).

Der Pooled Maximum Likelihood Estimator minimiert den Stichprobenmittelwert von

β^=argminβN1i=1Nlogt=1T[G(xitβ)]yit[1G(xitβ)]1yit.

Natürlich vereinfachen sich hier das Protokoll und das Produkt, aber aus pädagogischen Gründen ist die Gleichung damit besser mit dem Zufallseffektschätzer vergleichbar, der die Form hat

β^=argminβN1i=1Nlogt=1T[G(xitβ+σαa)]yit[1G(xitβ+σαa)]1yitϕ(a)da.

Wir können zum Beispiel das Integral durch Randomisierung approximieren, indem wir Zeichnungen von Zufallsnormalen nehmen und die Wahrscheinlichkeit für jede bewerten.R

β^=argminβN1i=1NlogR1r=1Rt=1T[G(xitβ+σαar)]yit[1G(xitβ+σαa)]1yit,arN(0,1).

Die Intuition ist die folgende: Wir wissen nicht, welcher Typ, , jede Beobachtung ist. Stattdessen bewerten wir das Produkt der Wahrscheinlichkeit über die Zeit für eine Folge von Ziehungen. Der wahrscheinlichste Beobachtungstyp hat die höchste Wahrscheinlichkeit in allen Perioden und dominiert daher den Wahrscheinlichkeitsbeitrag für diese Folge von Beobachtungen. i TαiiT

Superpronker
quelle
7

Nicht wirklich eine formale Definition, aber ich mag die folgenden Folien: Gemischte Modelle und warum Soziolinguisten sie verwenden sollten ( Spiegel ), von Daniel Ezra Johnson. Ein kurzer Rückblick ist auf Folie 4 zu finden. Obwohl er sich hauptsächlich auf psycholinguistische Studien konzentrierte, ist er als erster Schritt sehr nützlich.

chl
quelle
Ich denke, ich muss diese Präsentation persönlich sehen, um die volle Wirkung zu erzielen.
Andy W
Diese Folien sind nicht nützlich.
fliegt
7
Während dieser Link die Frage beantworten kann, ist es besser, die wesentlichen Teile der Antwort hier einzuschließen und den Link als Referenz bereitzustellen. Nur-Link-Antworten können ungültig werden, wenn sich die verlinkte Seite ändert.
Ben Bolker
1
der link ist tot
baxx
3

Eine weitere sehr praktische Perspektive für Modelle mit zufälligen und festen Effekten ergibt sich aus der Ökonometrie, wenn lineare Regressionen für Paneldaten durchgeführt werden . Wenn Sie die Assoziation zwischen einer erklärenden Variablen und einer Ergebnisvariablen in einem Datensatz mit mehreren Stichproben pro Person / Gruppe schätzen, ist dies das Framework, das Sie verwenden möchten.

Ein gutes Beispiel für Paneldaten sind jährliche Messungen einer Reihe von Personen mit:

  • genderi (Geschlecht der ten Person)i
  • Δweightit (Gewichtsänderung während des Jahres für Person )ti
  • exerciseit (durchschnittliche tägliche Übung während des Jahres für Person )ti

Wenn wir versuchen, die Beziehung zwischen Training und Gewichtsänderung zu verstehen, richten wir die folgende Regression ein:

e x e r c i s e i t + β 1 g e n d e r i + α i + ε i tΔweightit=β0exerciseit+β1genderi+αi+ϵit

  • β0 ist die interessierende Menge
  • β1 ist nicht interessant, wir kontrollieren nur das Geschlecht damit
  • αi ist der individuelle Schnittpunkt
  • ϵit ist der Fehlerbegriff

Bei einem solchen Aufbau besteht die Gefahr der Endogenität. Dies kann vorkommen, wenn nicht gemessene Variablen (z. B. der Familienstand) mit körperlicher Betätigung und Gewichtsveränderung verbunden sind. Wie auf S.16 in dieser Vorlesung in Princeton erläutert , ist ein Zufallseffektmodell (AKA Mixed Effects) effizienter als ein Modell mit festen Effekten. Es wird jedoch fälschlicherweise einen Teil der Auswirkung der nicht gemessenen Variablen auf die Gewichtsänderung auf das Training , was zu einem falschen und möglicherweise zu einer höheren statistischen Signifikanz als gültig führt. In diesem Fall ist das Zufallseffektmodell kein konsistenter Schätzer für .β 0β0β0

Ein Modell mit festen Effekten (in seiner grundlegendsten Form) steuert alle nicht gemessenen Variablen, die über die Zeit konstant sind, sich jedoch zwischen Individuen unterscheiden, indem explizit ein separater Intercept-Term für jedes Individuum ( ) in die Regressionsgleichung aufgenommen wird. In unserem Beispiel wird automatisch geprüft, ob die Auswirkungen des Geschlechts und nicht gemessene Störfaktoren (Familienstand, sozioökonomischer Status, Bildungsstand usw.) störend sind. Tatsächlich kann das Geschlecht nicht in die Regression einbezogen werden und kann nicht durch ein Modell mit festen Effekten geschätzt werden, da mit den kollinear ist .β 1 g e n d e r i α iαiβ1genderiαi

Die Schlüsselfrage ist also, welches Modell angemessen ist. Die Antwort ist der Hausman-Test . Um es zu verwenden, führen wir sowohl die feste als auch die zufällige Effektregression durch und wenden dann den Hausman-Test an, um festzustellen, ob ihre Koeffizientenschätzungen signifikant voneinander abweichen. Wenn sie voneinander abweichen, spielt die Endogenität eine Rolle, und ein Modell mit festen Effekten ist die beste Wahl. Ansonsten werden wir mit zufälligen Effekten arbeiten.

Tom Q.
quelle