Was bringt es, einen Faktor in einem gemischten Modell als zufällig zu behandeln?

24

Ich habe aus einigen Gründen ein Problem damit, die Vorteile der Kennzeichnung eines Modellfaktors als zufällig zu betrachten. Für mich scheint es in fast allen Fällen die optimale Lösung zu sein, alle Faktoren als fest zu behandeln.

Erstens ist die Unterscheidung zwischen fest und zufällig ziemlich willkürlich. Die übliche Erklärung ist, dass man, wenn man sich für die bestimmten experimentellen Einheiten an sich interessiert, feste Effekte verwenden sollte, und wenn man sich für die Population interessiert, die durch die experimentellen Einheiten dargestellt wird, zufällige Effekte verwenden sollte. Dies ist keine große Hilfe, da impliziert wird, dass zwischen festen und zufälligen Ansichten gewechselt werden kann, auch wenn die Daten und das experimentelle Design gleich bleiben. Diese Definition fördert auch die Illusion, dass, wenn ein Faktor als zufällig bezeichnet wird, die aus dem Modell gezogene Folgerung in gewisser Weise besser auf die Grundgesamtheit anwendbar ist als in dem Fall, in dem der Faktor als fest bezeichnet wird. Schließlich zeigt Gelman, dass die Unterscheidung zwischen festen und zufälligen Werten verwirrend ist sogar auf der Definitionsebene, da es vier weitere Definitionen für feste und zufällige Effekte gibt.

Zweitens ist die Schätzung gemischter Modelle recht kompliziert. Im Gegensatz zu einem "rein festen" Modell gibt es nicht nur einige Möglichkeiten, um die p-Werte zu erhalten. Prof. Bates, der die REML-Schätzung im lme4-Paket in R implementiert hatte, weigerte sich sogar, die p-Werte insgesamt zu melden .

Drittens gibt es eine unklare Frage, wie viele implizite Parameter durch einen Zufallsfaktor eingeführt werden. Das folgende Beispiel ist meine Adaption von Burnham & Anderson, Modellauswahl und Multi-Modell-Inferenz: Ein praktischer informationstheoretischer Ansatz . Aus der Perspektive des Bias-Varianz-Kompromisses kann die Rolle von Zufallseffekten wie folgt dargestellt werden. Betrachten Sie eine Einweg-ANOVA mit Behandlungen und K Hauptfaktoreffekten, von denen K - 1 abschätzbar sind. Der Fehlerterm hat eine N ( 0 , σ 2 ) -Verteilung. Wenn die Anzahl der Beobachtungen festgelegt ist, verschlechtert sich der Kompromiss zwischen Bias-Varianz und KKKK1N(0,σ2)Kgeht nach oben. Nehmen wir an, dass die Haupteffekte aus der N ( 0 , σ K ) -Verteilung gezogen werden. Das entsprechende Modell weist eine Komplexität auf, die irgendwo zwischen der festen (überausgestatteten) Version und dem unterausgestatteten Modell liegt, das nur den Achsenabschnitt enthält. Die Anzahl der wirksamen Parameter im festen Modell beträgtKN(0,σK)

1intercept+(K1)maichneffects+1σ=K+1.

Die Anzahl der effektiven Parameter im Zufallsmodell beträgt mindestens drei: . Darüber hinaus weist das Zufallsmodell eine Reihe von "versteckten" Parametern auf, die durch die (in diesem Fall normale) Verteilungseinschränkung der Haupteffekte impliziert werden.ichntercept,σ,σK

Insbesondere wenn es einen Faktor mit zwei Ebenen gibt, ist es nicht sinnvoll, ihn zufällig zu bezeichnen, auch wenn wir sicher sind, dass seine Ebenen zufällig aus einer bestimmten Population entnommen wurden. Dies liegt daran, dass die Version mit festen Effekten drei Parameter und die Version mit zufälligen Effekten mehr als drei Parameter hat. In diesem Fall ist das Zufallsmodell komplexer als die feste Version. Anscheinend ist ein Wechsel von der festen zur zufälligen Version für größere mehr geerdetK. Die Anzahl der „versteckten“ Parameter im Zufallsmodell ist jedoch unbekannt, sodass es unmöglich ist, die feste und die zufällige Version anhand von Informationskriterien wie AIC zu vergleichen. Während dieses Beispiel den Beitrag von Zufallseffekten beleuchtet (die Möglichkeit eines besseren Bias-Varianz-Kompromisses), zeigt es daher auch, dass es schwer zu sagen ist, wann es gerechtfertigt ist, den Faktor von fest auf zufällig umzubenennen.

Keines der oben genannten Probleme tritt bei einem "rein festen" Modell auf. Deshalb bin ich bereit zu fragen:

  1. Kann jemand ein Beispiel nennen, wenn etwas sehr Schlimmes passiert ist, als ein Zufallsfaktor verwendet wurde, als wäre er behoben? Ich glaube, es sollte einige Simulationsstudien geben, die sich explizit mit dem Problem befassen.

  2. Gibt es eine bewährte quantitative Methode, um zu entscheiden, wann es sinnvoll ist, vom festen zum zufälligen Label zu wechseln?

James
quelle
Gut geschriebene Frage, und ich habe ein paar Dinge gelernt, indem ich sie gelesen habe. Ich frage mich, ob die Analyse von Zufallseffekten auf lange Sicht zum Scheitern verurteilt ist, vielleicht um durch einfachere Glättungstechniken überholt zu werden. Wenn ich versuche, # 1 zu beantworten, werde ich eine Situation mit hoher Variabilität, vielen Themen und kleinen Stichprobengrößen innerhalb des Themas anstreben. Dann sind die innerhalb des Subjekts festgelegten Schätzungen überall zu finden.
Ben Ogorek

Antworten:

20

1. Ein berühmtes Beispiel in der Psychologie und Linguistik beschreibt Herb Clark (1973; nach Coleman, 1964): "Der Sprachfehlschluss: Eine Kritik der Sprachstatistik in der psychologischen Forschung."

Clark ist ein Psycholinguist, der sich mit psychologischen Experimenten befasst, bei denen eine Stichprobe von Forschungsthemen auf eine Reihe von Stimulusmaterialien reagiert, bei denen es sich üblicherweise um verschiedene Wörter handelt, die aus einem Korpus stammen. Er weist darauf hin, dass das in diesen Fällen verwendete statistische Standardverfahren, das auf ANOVA mit wiederholten Messungen basiert und von Clark als , die Teilnehmer als zufälligen Faktor behandelt, aber (möglicherweise implizit) die Stimulusmaterialien (oder "Sprache") behandelt. wie festgelegt. Dies führt zu Problemen bei der Interpretation der Ergebnisse von Hypothesentests zum experimentellen Bedingungsfaktor: Natürlich möchten wir annehmen, dass ein positives Ergebnis etwas über die Population aussagt, aus der wir unsere Teilnehmerstichprobe gezogen haben, sowie über die theoretische Population, aus der wir gezogen haben die Sprachmaterialien. Aber FF1 , indem wir die Teilnehmer als zufällig und die Reize als fix behandeln, geben wir nur Auskunft über die Auswirkung des Bedingungsfaktors auf andere ähnliche Teilnehmer,die auf genau dieselben Reizereagieren. Die Durchführung der F 1 Analysewenn beide Teilnehmer und Stimuli mehr werdengeeigneterals zufällig angesehen führen kann 1 Fehlerraten auf Typ,Wesentlichen der Nenn überschreiten α - Ebene - in der Regel 0,05 - mit dem Ausmaß abhängig von Faktoren wie der Anzahl und Variabilität Anregungen und die Gestaltung des Experiments. In diesen Fällen ist die geeignetere Analyse, zumindest im Rahmen der klassischen ANOVA, die Verwendung von sogenannten Quasi- F- Statistiken, die auf Verhältnissenlinearer Kombinationen vonbasierenF1F1αF gemeine Quadrate.

Clarks Aufsatz sorgte zu dieser Zeit für Aufsehen in der Psycholinguistik, vermochte jedoch die psychologische Literatur nicht zu verbessern. (Und selbst in der Psycholinguistik wurden die Ratschläge von Clark im Laufe der Jahre etwas verzerrt, wie dies von Raaijmakers, Schrijnemakers & Gremmen, 1999, dokumentiert wurde.) In den letzten Jahren erlebte das Thema jedoch eine gewisse Belebung, die größtenteils auf statistische Fortschritte zurückzuführen war in Mixed-Effects-Modellen, von denen das klassische Mixed-Model ANOVA als Sonderfall anzusehen ist. Einige dieser jüngsten Veröffentlichungen umfassen Baayen, Davidson & Bates (2008), Murayama, Sakaki, Yan & Smith (2014) und ( ahem ) Judd, Westfall & Kenny (2012). Ich bin mir sicher, dass ich einige vergesse.

2. Nicht genau. Es gibt Methoden, um herauszufinden, ob ein Faktor besser als zufälliger Effekt in das Modell einbezogen wird oder nicht (siehe z. B. Pinheiro & Bates, 2000, S. 83-87;siehe jedoch Barr, Levy, Scheepers & Tily, 2013). Und natürlich gibt es klassische Modellvergleichstechniken, um festzustellen, ob ein Faktor besser als fester Effekt oder überhaupt nicht enthalten ist (dh Tests). Ich bin jedoch der Meinung, dass die Entscheidung, ob ein Faktor besser als fest oder zufällig eingestuft wird, im Allgemeinen am besten als konzeptionelle Frage bleibt, die unter Berücksichtigung des Studiendesigns und der Art der daraus zu ziehenden Schlussfolgerungen zu beantworten ist.F

Einer meiner diplomierten Statistiklehrer, Gary McClelland, sagte gern, dass die grundlegende Frage der statistischen Folgerung vielleicht lautet: "Im Vergleich zu was?" Nach Gary können wir die oben erwähnte konzeptionelle Frage folgendermaßen formulieren: Mit welcher Referenzklasse hypothetischer experimenteller Ergebnisse möchte ich meine tatsächlich beobachteten Ergebnisse vergleichen? Wenn ich im psycholinguistischen Kontext bleibe und ein experimentelles Design betrachte, in dem wir eine Stichprobe von Probanden haben, die auf eine Stichprobe von Wörtern reagieren, die in eine von zwei Bedingungen eingeteilt sind (das besondere Design, das ausführlich von Clark, 1973, besprochen wurde), werde ich mich darauf konzentrieren zwei möglichkeiten:

  1. Die Reihe von Experimenten, in denen wir für jedes Experiment eine neue Stichprobe von Probanden, eine neue Stichprobe von Wörtern und eine neue Stichprobe von Fehlern aus dem generativen Modell zeichnen. Unter diesem Modell sind Subjekte und Wörter beide zufällige Effekte.
  2. Die Reihe von Experimenten, in denen wir für jedes Experiment eine neue Stichprobe von Subjekten und eine neue Stichprobe von Fehlern zeichnen, aber immer dieselbe Reihe von Wörtern verwenden . Unter diesem Modell sind Themen zufällige Effekte, aber Wörter sind feste Effekte.

Um dies ganz konkret zu machen, sind unten einige Diagramme aus (oben) 4 Sätzen von hypothetischen Ergebnissen aus 4 simulierten Experimenten unter Modell 1 aufgeführt; (unten) 4 Sätze hypothetischer Ergebnisse von 4 simulierten Experimenten unter Modell 2. Jedes Experiment zeigt die Ergebnisse auf zwei Arten an: (linke Tafel) gruppiert nach Probanden, wobei die Mittelwerte für die einzelnen Probanden grafisch dargestellt und für jeden Probanden gebunden sind; (rechte Tafel) nach Wörtern gruppiert, mit Boxplots, die die Verteilung der Antworten für jedes Wort zusammenfassen. Alle Experimente umfassen 10 Probanden, die auf 10 Wörter antworten, und in allen Experimenten ist die "Nullhypothese" ohne Bedingungsunterschied in der relevanten Population wahr.

Probanden und Wörter beide zufällig: 4 simulierte Experimente

both_random

Beachten Sie hier, dass in jedem Experiment die Antwortprofile für die Themen und Wörter völlig unterschiedlich sind. Bei den Probanden erhalten wir manchmal niedrige Gesamt-Responder, manchmal hohe Responder, manchmal Probanden, die tendenziell große Bedingungsunterschiede aufweisen, und manchmal Probanden, die tendenziell geringe Bedingungsunterschiede aufweisen. In ähnlicher Weise erhalten wir für die Wörter manchmal Wörter, die dazu neigen, niedrige Antworten auszulösen, und manchmal Wörter, die dazu neigen, hohe Antworten auszulösen.

Probanden zufällig, Wörter korrigiert: 4 simulierte Experimente

subs_random

Beachten Sie hier, dass die Probanden in den 4 simulierten Experimenten jedes Mal unterschiedlich aussehen, die Antwortprofile für die Wörter jedoch im Wesentlichen gleich aussehen, was mit der Annahme übereinstimmt, dass wir für jedes Experiment in diesem Modell dieselbe Wortgruppe wiederverwenden.

Unsere Wahl, ob wir Modell 1 (Subjekte und Wörter beide zufällig) oder Modell 2 (Subjekte zufällig, Wörter fixiert) als die geeignete Referenzklasse für die tatsächlich beobachteten experimentellen Ergebnisse betrachten, kann einen großen Unterschied für unsere Beurteilung der Bedingungsmanipulation ausmachen "hat funktioniert." Wir erwarten mehr zufällige Abweichungen in den Daten unter Modell 1 als unter Modell 2, da es mehr "bewegliche Teile" gibt. Wenn also die Schlussfolgerungen, die wir ziehen möchten, besser mit den Annahmen von Modell 1 übereinstimmen, bei denen die Zufallsvariabilität relativ hoch ist, wir jedoch unsere Daten unter den Annahmen von Modell 2 analysieren, bei denen die Zufallsvariabilität relativ niedrig ist, dann unser Fehler vom Typ 1 Die Rate zum Testen der Bedingungsdifferenz wird zu einem gewissen (möglicherweise recht großen) Ausmaß aufgeblasen. Weitere Informationen finden Sie in den Referenzen unten.

Verweise

Baayen, RH, Davidson, DJ & Bates, DM (2008). Mixed-Effects-Modellierung mit gekreuzten Zufallseffekten für Objekte und Objekte. Tagebuch der Erinnerung und Sprache, 59 (4), 390-412. PDF

Barr, DJ, Levy, R., Scheepers, C. & Tily, HJ (2013). Random-Effects-Struktur für das Testen von Bestätigungshypothesen: Halten Sie sie maximal. Journal of Memory and Language, 68 (3), 255-278. PDF

Clark, HH (1973). Der Irrtum der Sprache als fester Effekt: Eine Kritik der Sprachstatistik in der psychologischen Forschung. Zeitschrift für verbales Lernen und verbales Verhalten, 12 (4), 335-359. PDF

Coleman, EB (1964). Verallgemeinerung auf eine Sprachbevölkerung. Psychological Reports, 14 (1), 219 & ndash; 226.

Judd, CM, Westfall, J. & amp; Kenny, DA (2012). Stimuli als Zufallsfaktor in der Sozialpsychologie behandeln: eine neue und umfassende Lösung für ein allgegenwärtiges, aber weitgehend ignoriertes Problem. Zeitschrift für Persönlichkeits- und Sozialpsychologie, 103 (1), 54. PDF

Murayama, K., Sakaki, M., Yan, VX & Smith, GM (2014). Typ I-Fehlerinflation in der traditionellen Analyse nach Teilnehmern auf Metamemory-Genauigkeit: Eine verallgemeinerte Modellperspektive mit gemischten Effekten. Journal of Experimental Psychology: Lernen, Gedächtnis und Kognition. PDF

Pinheiro, JC & amp; Bates, DM (2000). Mixed-Effects-Modelle in S und S-PLUS. Springer.

Raaijmakers, JG, Schrijnemakers, J. & Gremmen, F. (1999). Umgang mit dem „sprachlichen Irrtum als fester Effekt“: Häufige Missverständnisse und alternative Lösungen. Journal of Memory and Language, 41 (3), 416-426. PDF

Jake Westfall
quelle
1
+1 Dies ist eine großartige Antwort, und Ihre Arbeit von 2012 ist eine sehr gute Lektüre.
Amöbe sagt Reinstate Monica
Da die ursprüngliche Frage bereits mit einer hervorragenden Diskussion in Verbindung gebracht wurde, auf die hier eingegangen wird, worauf beziehen Sie sich genau?
James
1
Die Gelman-Verbindung
Jake Westfall
@James Ich ging voran und fügte einige konzeptionelle Dinge hinzu, darunter einige Bilder. Lass mich wissen was du denkst.
Jake Westfall
Danke für die Bilder. Je mehr Effekte im Modell gemäß Ihrem letzten Absatz als zufällig gekennzeichnet sind, desto höher ist der p-Wert für die verbleibenden festen Effekte. Bei einem additiven Modell sieht es jedoch so aus, als würde der p-Wert für einen festen Effekt gleich sein, wenn die Standardmethode "Einschluss" in PROC MIXED verwendet wird. Ein spezielles Beispiel ist in dieser Frage: stats.stackexchange.com/q/112640/54099 Wie können Sie das erklären?
James
1

Angenommen, ich habe einen Herstellungsprozess, bei dem Material auf mehreren verschiedenen Maschinen hergestellt wird. Sie sind die einzigen Maschinen, die ich habe, also ist "Maschine" ein fester Effekt. Aber ich mache auf jeder Maschine viel Material und bin daran interessiert, Dinge über zukünftige Lose vorherzusagen. Ich mache "Losnummer" zu einem Zufallsfaktor, weil ich an den Ergebnissen interessiert bin, die ich für zukünftige Lose bekomme .

Emil Friedman
quelle
1
Lieber Emil, ich fürchte, Sie haben die von mir gestellten Fragen nicht verstanden. Ihr Beispiel zeigt die gebräuchlichste Definition von "Fixed vs Random", die ich selbst in meiner Frage angegeben habe. Wie auch immer, können Sie mir anhand Ihres Beispiels sagen, warum es eine schlechte Idee ist, Rückschlüsse auf zukünftige Reaktionen eines Modells zu ziehen, bei dem die Chargennummer ein fester Faktor ist?
James
Wenn Sie "Losnummer" als fest behandeln, gelten Ihre Schlussfolgerungen nur für die Lose, die Sie bereits getestet haben. In anderen Situationen passiert dasselbe. Wenn Sie Rückschlüsse auf zufällige Effekte ziehen möchten, werden diese in der Regel falsch beantwortet, wenn Sie sie als feste Effekte behandeln. In vielen gemischten Modellsituationen führt die Behandlung der zufälligen Effekte als feste Effekte sogar zu falschen Antworten hinsichtlich der tatsächlich festgelegten Effekte.
Emil Friedman
Es geht nicht um Auf und Ab. Wenn eine unangemessene Analyse durchgeführt wird, sind die Ergebnisse normalerweise falsch.
Emil Friedman
Könnten Sie eine Referenz für eine Simulationsstudie liefern, die zeigte, wie das Ergebnis in Abhängigkeit von der festen / zufälligen Beschriftung falsch wird?
James
Beachten Sie auch, dass MLE nicht kostenlos ist, insbesondere wenn Varianzkomponenten vorhanden sind. Versuchen Sie, ein faktoriell gekreuztes Design mit 3 Faktoren und ein paar kontinuierlichen Kovariaten zu erstellen. Versuchen Sie dann, ein reines festes Modell und einige gemischte Spezifikationen zu schätzen. Solange es eine zufällige Komponente gibt, die einen Wechsel von OLS zu MLE / REML verursacht, sind die Probleme mit der Konvergenz, dem Erhalten von Null- oder Negativvarianzkomponenten oder anderen bedeutungslosen Ergebnissen wahrscheinlicher.
James
1

Sie behandeln sie also als zufällig, sodass es einen Durchschnittseffekt zwischen dem Gesamtdurchschnitt und dem Durchschnitt für diesen bestimmten Faktor gibt, der auf der Stichprobengröße des Faktors und der Gesamtzahl der Beobachtungen basiert. Auf diese Weise können Sie sagen, dass Ihre Ergebnisse für die Gesamtbevölkerung gelten, da Sie eine Art gewichteten Mittelwert und eine Schätzung der Abweichung aufgrund dieses Faktors haben. Andernfalls können Sie wirklich nur sagen, dass Ihre Ergebnisse für die Faktorstufen gelten Sie haben verwendet, da die Regression sie als diskrete Faktoren behandelt und nicht als zufällige, die den gewichteten Durchschnitt erhalten.

Sie sind auch nützlich, wenn Sie Maßnahmen zum selben Thema wiederholt haben, da Sie sie verwenden können, um die Korrelation zwischen Maßnahmen zum selben Thema zu berücksichtigen.

Edward Fancher
quelle
RM ist einer der Gründe, warum ich die Frage überhaupt gestellt habe. Wie ich hier erwähnte: stats.stackexchange.com/q/112640/54099 Das Behandeln eines Betreffs als fest oder zufällig ändert den p-Wert der Behandlung nicht. Warum also?
James
Wenn Sie ein einfaches gekreuztes Design mit einem festen und einem zufälligen Faktor haben und die erwarteten mittleren Quadrate verwenden, unterscheidet sich der p-Wert für den festen Faktor von dem, was Sie erhalten würden, wenn Sie beide als fest behandeln würden.
Emil Friedman
1

Y.ichj=β1Xichj+β2Zich+eich+μichjXichjZichβ2ZichichZich

Y.ichj=β1Xichj+eich+μichjZich

β1β1


(Ursprüngliche Antwort)

Eine Stelle, an der Sie im Wesentlichen Zufallseffekte verwenden müssen, ist die Angabe von Parametern, die auf der Gruppierungsebene des festen Effekts unveränderlich sind.

Angenommen, Sie möchten den Einfluss von Arztmerkmalen (z. B. Aufklärung) auf die Patientenergebnisse untersuchen. Der Datensatz ist auf Patientenebene mit beobachteten Patientenergebnissen und Patienten- / Arztmerkmalen. Da Patienten, die unter einem einzigen Arzt behandelt werden, wahrscheinlich korreliert sind, möchten Sie dies kontrollieren. Sie könnten hier einen Arzt-Fixeffekt einfügen, aber Sie schließen damit die Einbeziehung von Arztmerkmalen in das Modell aus. Was problematisch ist, wenn das Interesse an Merkmalen auf Doktorebene liegt.

Affine
quelle
Könnten Sie einige Musteraussagen machen?
James
0

Ich denke, es hängt mit der Konsistenz der Schätzungen zusammen.

xichj=einich+bj+eeinich für einen festen Effekt steht (eine experimentelle Bedingung)

bj steht für zufällige Wirkung (darf Person).

Neyman und Scott (1948) weisen auf das Problem der Konsistenz von

einichbj .

einichbj als festen Effekt , sind die Schätzungen nicht mehr gültig

konsistent. Zumindest habe ich das so verstanden ...

KH Kim
quelle