Ich habe aus einigen Gründen ein Problem damit, die Vorteile der Kennzeichnung eines Modellfaktors als zufällig zu betrachten. Für mich scheint es in fast allen Fällen die optimale Lösung zu sein, alle Faktoren als fest zu behandeln.
Erstens ist die Unterscheidung zwischen fest und zufällig ziemlich willkürlich. Die übliche Erklärung ist, dass man, wenn man sich für die bestimmten experimentellen Einheiten an sich interessiert, feste Effekte verwenden sollte, und wenn man sich für die Population interessiert, die durch die experimentellen Einheiten dargestellt wird, zufällige Effekte verwenden sollte. Dies ist keine große Hilfe, da impliziert wird, dass zwischen festen und zufälligen Ansichten gewechselt werden kann, auch wenn die Daten und das experimentelle Design gleich bleiben. Diese Definition fördert auch die Illusion, dass, wenn ein Faktor als zufällig bezeichnet wird, die aus dem Modell gezogene Folgerung in gewisser Weise besser auf die Grundgesamtheit anwendbar ist als in dem Fall, in dem der Faktor als fest bezeichnet wird. Schließlich zeigt Gelman, dass die Unterscheidung zwischen festen und zufälligen Werten verwirrend ist sogar auf der Definitionsebene, da es vier weitere Definitionen für feste und zufällige Effekte gibt.
Zweitens ist die Schätzung gemischter Modelle recht kompliziert. Im Gegensatz zu einem "rein festen" Modell gibt es nicht nur einige Möglichkeiten, um die p-Werte zu erhalten. Prof. Bates, der die REML-Schätzung im lme4-Paket in R implementiert hatte, weigerte sich sogar, die p-Werte insgesamt zu melden .
Drittens gibt es eine unklare Frage, wie viele implizite Parameter durch einen Zufallsfaktor eingeführt werden. Das folgende Beispiel ist meine Adaption von Burnham & Anderson, Modellauswahl und Multi-Modell-Inferenz: Ein praktischer informationstheoretischer Ansatz . Aus der Perspektive des Bias-Varianz-Kompromisses kann die Rolle von Zufallseffekten wie folgt dargestellt werden. Betrachten Sie eine Einweg-ANOVA mit Behandlungen und K Hauptfaktoreffekten, von denen K - 1 abschätzbar sind. Der Fehlerterm hat eine N ( 0 , σ 2 ) -Verteilung. Wenn die Anzahl der Beobachtungen festgelegt ist, verschlechtert sich der Kompromiss zwischen Bias-Varianz und Kgeht nach oben. Nehmen wir an, dass die Haupteffekte aus der N ( 0 , σ K ) -Verteilung gezogen werden. Das entsprechende Modell weist eine Komplexität auf, die irgendwo zwischen der festen (überausgestatteten) Version und dem unterausgestatteten Modell liegt, das nur den Achsenabschnitt enthält. Die Anzahl der wirksamen Parameter im festen Modell beträgt
Die Anzahl der effektiven Parameter im Zufallsmodell beträgt mindestens drei: . Darüber hinaus weist das Zufallsmodell eine Reihe von "versteckten" Parametern auf, die durch die (in diesem Fall normale) Verteilungseinschränkung der Haupteffekte impliziert werden.
Insbesondere wenn es einen Faktor mit zwei Ebenen gibt, ist es nicht sinnvoll, ihn zufällig zu bezeichnen, auch wenn wir sicher sind, dass seine Ebenen zufällig aus einer bestimmten Population entnommen wurden. Dies liegt daran, dass die Version mit festen Effekten drei Parameter und die Version mit zufälligen Effekten mehr als drei Parameter hat. In diesem Fall ist das Zufallsmodell komplexer als die feste Version. Anscheinend ist ein Wechsel von der festen zur zufälligen Version für größere mehr geerdet. Die Anzahl der „versteckten“ Parameter im Zufallsmodell ist jedoch unbekannt, sodass es unmöglich ist, die feste und die zufällige Version anhand von Informationskriterien wie AIC zu vergleichen. Während dieses Beispiel den Beitrag von Zufallseffekten beleuchtet (die Möglichkeit eines besseren Bias-Varianz-Kompromisses), zeigt es daher auch, dass es schwer zu sagen ist, wann es gerechtfertigt ist, den Faktor von fest auf zufällig umzubenennen.
Keines der oben genannten Probleme tritt bei einem "rein festen" Modell auf. Deshalb bin ich bereit zu fragen:
Kann jemand ein Beispiel nennen, wenn etwas sehr Schlimmes passiert ist, als ein Zufallsfaktor verwendet wurde, als wäre er behoben? Ich glaube, es sollte einige Simulationsstudien geben, die sich explizit mit dem Problem befassen.
Gibt es eine bewährte quantitative Methode, um zu entscheiden, wann es sinnvoll ist, vom festen zum zufälligen Label zu wechseln?
Antworten:
1. Ein berühmtes Beispiel in der Psychologie und Linguistik beschreibt Herb Clark (1973; nach Coleman, 1964): "Der Sprachfehlschluss: Eine Kritik der Sprachstatistik in der psychologischen Forschung."
Clark ist ein Psycholinguist, der sich mit psychologischen Experimenten befasst, bei denen eine Stichprobe von Forschungsthemen auf eine Reihe von Stimulusmaterialien reagiert, bei denen es sich üblicherweise um verschiedene Wörter handelt, die aus einem Korpus stammen. Er weist darauf hin, dass das in diesen Fällen verwendete statistische Standardverfahren, das auf ANOVA mit wiederholten Messungen basiert und von Clark als , die Teilnehmer als zufälligen Faktor behandelt, aber (möglicherweise implizit) die Stimulusmaterialien (oder "Sprache") behandelt. wie festgelegt. Dies führt zu Problemen bei der Interpretation der Ergebnisse von Hypothesentests zum experimentellen Bedingungsfaktor: Natürlich möchten wir annehmen, dass ein positives Ergebnis etwas über die Population aussagt, aus der wir unsere Teilnehmerstichprobe gezogen haben, sowie über die theoretische Population, aus der wir gezogen haben die Sprachmaterialien. Aber FF1 , indem wir die Teilnehmer als zufällig und die Reize als fix behandeln, geben wir nur Auskunft über die Auswirkung des Bedingungsfaktors auf andere ähnliche Teilnehmer,die auf genau dieselben Reizereagieren. Die Durchführung der F 1 Analysewenn beide Teilnehmer und Stimuli mehr werdengeeigneterals zufällig angesehen führen kann 1 Fehlerraten auf Typ,Wesentlichen der Nenn überschreiten α - Ebene - in der Regel 0,05 - mit dem Ausmaß abhängig von Faktoren wie der Anzahl und Variabilität Anregungen und die Gestaltung des Experiments. In diesen Fällen ist die geeignetere Analyse, zumindest im Rahmen der klassischen ANOVA, die Verwendung von sogenannten Quasi- F- Statistiken, die auf Verhältnissenlinearer Kombinationen vonbasierenF1 F1 α F gemeine Quadrate.
Clarks Aufsatz sorgte zu dieser Zeit für Aufsehen in der Psycholinguistik, vermochte jedoch die psychologische Literatur nicht zu verbessern. (Und selbst in der Psycholinguistik wurden die Ratschläge von Clark im Laufe der Jahre etwas verzerrt, wie dies von Raaijmakers, Schrijnemakers & Gremmen, 1999, dokumentiert wurde.) In den letzten Jahren erlebte das Thema jedoch eine gewisse Belebung, die größtenteils auf statistische Fortschritte zurückzuführen war in Mixed-Effects-Modellen, von denen das klassische Mixed-Model ANOVA als Sonderfall anzusehen ist. Einige dieser jüngsten Veröffentlichungen umfassen Baayen, Davidson & Bates (2008), Murayama, Sakaki, Yan & Smith (2014) und ( ahem ) Judd, Westfall & Kenny (2012). Ich bin mir sicher, dass ich einige vergesse.
2. Nicht genau. Es gibt Methoden, um herauszufinden, ob ein Faktor besser als zufälliger Effekt in das Modell einbezogen wird oder nicht (siehe z. B. Pinheiro & Bates, 2000, S. 83-87;siehe jedoch Barr, Levy, Scheepers & Tily, 2013). Und natürlich gibt es klassische Modellvergleichstechniken, um festzustellen, ob ein Faktor besser als fester Effekt oder überhaupt nicht enthalten ist (dh Tests). Ich bin jedoch der Meinung, dass die Entscheidung, ob ein Faktor besser als fest oder zufällig eingestuft wird, im Allgemeinen am besten als konzeptionelle Frage bleibt, die unter Berücksichtigung des Studiendesigns und der Art der daraus zu ziehenden Schlussfolgerungen zu beantworten ist.F
Einer meiner diplomierten Statistiklehrer, Gary McClelland, sagte gern, dass die grundlegende Frage der statistischen Folgerung vielleicht lautet: "Im Vergleich zu was?" Nach Gary können wir die oben erwähnte konzeptionelle Frage folgendermaßen formulieren: Mit welcher Referenzklasse hypothetischer experimenteller Ergebnisse möchte ich meine tatsächlich beobachteten Ergebnisse vergleichen? Wenn ich im psycholinguistischen Kontext bleibe und ein experimentelles Design betrachte, in dem wir eine Stichprobe von Probanden haben, die auf eine Stichprobe von Wörtern reagieren, die in eine von zwei Bedingungen eingeteilt sind (das besondere Design, das ausführlich von Clark, 1973, besprochen wurde), werde ich mich darauf konzentrieren zwei möglichkeiten:
Um dies ganz konkret zu machen, sind unten einige Diagramme aus (oben) 4 Sätzen von hypothetischen Ergebnissen aus 4 simulierten Experimenten unter Modell 1 aufgeführt; (unten) 4 Sätze hypothetischer Ergebnisse von 4 simulierten Experimenten unter Modell 2. Jedes Experiment zeigt die Ergebnisse auf zwei Arten an: (linke Tafel) gruppiert nach Probanden, wobei die Mittelwerte für die einzelnen Probanden grafisch dargestellt und für jeden Probanden gebunden sind; (rechte Tafel) nach Wörtern gruppiert, mit Boxplots, die die Verteilung der Antworten für jedes Wort zusammenfassen. Alle Experimente umfassen 10 Probanden, die auf 10 Wörter antworten, und in allen Experimenten ist die "Nullhypothese" ohne Bedingungsunterschied in der relevanten Population wahr.
Probanden und Wörter beide zufällig: 4 simulierte Experimente
Beachten Sie hier, dass in jedem Experiment die Antwortprofile für die Themen und Wörter völlig unterschiedlich sind. Bei den Probanden erhalten wir manchmal niedrige Gesamt-Responder, manchmal hohe Responder, manchmal Probanden, die tendenziell große Bedingungsunterschiede aufweisen, und manchmal Probanden, die tendenziell geringe Bedingungsunterschiede aufweisen. In ähnlicher Weise erhalten wir für die Wörter manchmal Wörter, die dazu neigen, niedrige Antworten auszulösen, und manchmal Wörter, die dazu neigen, hohe Antworten auszulösen.
Probanden zufällig, Wörter korrigiert: 4 simulierte Experimente
Beachten Sie hier, dass die Probanden in den 4 simulierten Experimenten jedes Mal unterschiedlich aussehen, die Antwortprofile für die Wörter jedoch im Wesentlichen gleich aussehen, was mit der Annahme übereinstimmt, dass wir für jedes Experiment in diesem Modell dieselbe Wortgruppe wiederverwenden.
Unsere Wahl, ob wir Modell 1 (Subjekte und Wörter beide zufällig) oder Modell 2 (Subjekte zufällig, Wörter fixiert) als die geeignete Referenzklasse für die tatsächlich beobachteten experimentellen Ergebnisse betrachten, kann einen großen Unterschied für unsere Beurteilung der Bedingungsmanipulation ausmachen "hat funktioniert." Wir erwarten mehr zufällige Abweichungen in den Daten unter Modell 1 als unter Modell 2, da es mehr "bewegliche Teile" gibt. Wenn also die Schlussfolgerungen, die wir ziehen möchten, besser mit den Annahmen von Modell 1 übereinstimmen, bei denen die Zufallsvariabilität relativ hoch ist, wir jedoch unsere Daten unter den Annahmen von Modell 2 analysieren, bei denen die Zufallsvariabilität relativ niedrig ist, dann unser Fehler vom Typ 1 Die Rate zum Testen der Bedingungsdifferenz wird zu einem gewissen (möglicherweise recht großen) Ausmaß aufgeblasen. Weitere Informationen finden Sie in den Referenzen unten.
Verweise
Baayen, RH, Davidson, DJ & Bates, DM (2008). Mixed-Effects-Modellierung mit gekreuzten Zufallseffekten für Objekte und Objekte. Tagebuch der Erinnerung und Sprache, 59 (4), 390-412. PDF
Barr, DJ, Levy, R., Scheepers, C. & Tily, HJ (2013). Random-Effects-Struktur für das Testen von Bestätigungshypothesen: Halten Sie sie maximal. Journal of Memory and Language, 68 (3), 255-278. PDF
Clark, HH (1973). Der Irrtum der Sprache als fester Effekt: Eine Kritik der Sprachstatistik in der psychologischen Forschung. Zeitschrift für verbales Lernen und verbales Verhalten, 12 (4), 335-359. PDF
Coleman, EB (1964). Verallgemeinerung auf eine Sprachbevölkerung. Psychological Reports, 14 (1), 219 & ndash; 226.
Judd, CM, Westfall, J. & amp; Kenny, DA (2012). Stimuli als Zufallsfaktor in der Sozialpsychologie behandeln: eine neue und umfassende Lösung für ein allgegenwärtiges, aber weitgehend ignoriertes Problem. Zeitschrift für Persönlichkeits- und Sozialpsychologie, 103 (1), 54. PDF
Murayama, K., Sakaki, M., Yan, VX & Smith, GM (2014). Typ I-Fehlerinflation in der traditionellen Analyse nach Teilnehmern auf Metamemory-Genauigkeit: Eine verallgemeinerte Modellperspektive mit gemischten Effekten. Journal of Experimental Psychology: Lernen, Gedächtnis und Kognition. PDF
Pinheiro, JC & amp; Bates, DM (2000). Mixed-Effects-Modelle in S und S-PLUS. Springer.
Raaijmakers, JG, Schrijnemakers, J. & Gremmen, F. (1999). Umgang mit dem „sprachlichen Irrtum als fester Effekt“: Häufige Missverständnisse und alternative Lösungen. Journal of Memory and Language, 41 (3), 416-426. PDF
quelle
Angenommen, ich habe einen Herstellungsprozess, bei dem Material auf mehreren verschiedenen Maschinen hergestellt wird. Sie sind die einzigen Maschinen, die ich habe, also ist "Maschine" ein fester Effekt. Aber ich mache auf jeder Maschine viel Material und bin daran interessiert, Dinge über zukünftige Lose vorherzusagen. Ich mache "Losnummer" zu einem Zufallsfaktor, weil ich an den Ergebnissen interessiert bin, die ich für zukünftige Lose bekomme .
quelle
Sie behandeln sie also als zufällig, sodass es einen Durchschnittseffekt zwischen dem Gesamtdurchschnitt und dem Durchschnitt für diesen bestimmten Faktor gibt, der auf der Stichprobengröße des Faktors und der Gesamtzahl der Beobachtungen basiert. Auf diese Weise können Sie sagen, dass Ihre Ergebnisse für die Gesamtbevölkerung gelten, da Sie eine Art gewichteten Mittelwert und eine Schätzung der Abweichung aufgrund dieses Faktors haben. Andernfalls können Sie wirklich nur sagen, dass Ihre Ergebnisse für die Faktorstufen gelten Sie haben verwendet, da die Regression sie als diskrete Faktoren behandelt und nicht als zufällige, die den gewichteten Durchschnitt erhalten.
Sie sind auch nützlich, wenn Sie Maßnahmen zum selben Thema wiederholt haben, da Sie sie verwenden können, um die Korrelation zwischen Maßnahmen zum selben Thema zu berücksichtigen.
quelle
(Ursprüngliche Antwort)
Eine Stelle, an der Sie im Wesentlichen Zufallseffekte verwenden müssen, ist die Angabe von Parametern, die auf der Gruppierungsebene des festen Effekts unveränderlich sind.
Angenommen, Sie möchten den Einfluss von Arztmerkmalen (z. B. Aufklärung) auf die Patientenergebnisse untersuchen. Der Datensatz ist auf Patientenebene mit beobachteten Patientenergebnissen und Patienten- / Arztmerkmalen. Da Patienten, die unter einem einzigen Arzt behandelt werden, wahrscheinlich korreliert sind, möchten Sie dies kontrollieren. Sie könnten hier einen Arzt-Fixeffekt einfügen, aber Sie schließen damit die Einbeziehung von Arztmerkmalen in das Modell aus. Was problematisch ist, wenn das Interesse an Merkmalen auf Doktorebene liegt.
quelle
Ich denke, es hängt mit der Konsistenz der Schätzungen zusammen.
Neyman und Scott (1948) weisen auf das Problem der Konsistenz von
konsistent. Zumindest habe ich das so verstanden ...
quelle