Können wir nicht zufällige Faktoren in einem mehrstufigen / hierarchischen Design als zufällig modellieren?

9

Die Unterscheidung zwischen streng zufälligen Variablen (die als solche modelliert werden sollten) und nicht zufälligen Variablen, von denen einige argumentieren, dass sie als zufällig modelliert werden könnten, wenn es sich um ein hierarchisches / mehrstufiges Modell handelt, ist für mich verschwommen.

Bates und Bolker veranschaulichen zufällige Effekte mit Fällen echter Zufälligkeit, z. B. die Qualität von Produkten in zufällig ausgewählten Stichproben. Obwohl ihre lme4Arbeit unglaublich ist, ist es immer noch etwas unklar, wo die Grenze zwischen zufällig und nicht zufällig liegt. Diskussionen in den Sozialwissenschaften machen dies noch verschwommener. Mehrebenen- / Hierarchiemodelle und Zufallseffektmodelle sind rechnerisch gleich. lme4Wo ziehen wir also die Grenze?

Zum Beispiel habe ich einen Datensatz mit wiederholten Messungen an mehreren Personen (das ist zufällig!), Aber ich glaube und ergebe lme4, dass ein großer Teil der Varianz in ihren sozioökonomischen Variablen (wie Lebensraum, Rasse usw.) liegt. Diese Variablen sind nicht zufällig, aber Mehrebenenmodelle argumentieren, dass diese als solche verwendet werden könnten. Andere Beispiele stammen aus Studien mit Schülerklassen, in denen Schüler normalerweise in Lehrern und weiter in Schulen eingebettet sind. Alle diese Variablen sind konstant.

Können wir nicht zufällige Faktoren als zufällig modellieren, wenn dies im Bereich mehrstufiger (hierarchischer) Modelle plausibel ist?

Adam Robinsson
quelle
Hallo Tim. Vielen Dank für die Links, aber sie werden die Frage nicht wirklich beantworten. Ich verstehe die Bedeutung von zufälligen, gemischten und festen Effekten. Diese Frage ist, ob mehrstufige / hieararchische Designs die Einbeziehung nicht zufälliger Variablen als zufällig ermöglichen.
Adam Robinsson

Antworten:

14

Ihre Frage verwirrt mich. Ich weiß, dass Sie sagen, Sie verstehen feste oder zufällige Effekte, aber vielleicht verstehen Sie sie nicht so wie ich. Ich habe hier einen ziemlich erweiterten Auszug aus einem Buchkapitel in der Presse veröffentlicht , der meine Ansicht erklärt (ziemlich pragmatisch, ziemlich eng mit der von Andrew Gelman abgestimmt).

Direktere Beantwortung der Frage:

  • Es macht keinen Sinn (IMO), die Haupteffekte sozioökonomischer Variablen wie Einkommen als Zufall zu berücksichtigen. Wenn Sie mehr als eine Messung des Einkommens pro Person hatten, können Sie die Person als Gruppierungsvariable einbeziehen und zulassen, dass die Auswirkungen des Einkommens auf die Antwort (was auch immer es ist) von Person zu Person unterschiedlich sind.
  • Rasse scheint als fester Effekt am sinnvollsten zu sein, und es ist unwahrscheinlich, dass Sie eine Person unter den Auswirkungen von mehr als einer Rasse messen können, aber Sie können (z. B.) zufällige Variationen in den Effekten charakterisieren der Rasse über verschiedene Länder. Sie könnten es als zufälligen Effekt behandeln (dh Modellunterschiede zwischen Rassen werden aus einer Normalverteilung gezogen), aber es ist wahrscheinlich unpraktisch, weil Sie wahrscheinlich nicht genug verschiedene Rassen in Ihrem Datensatz haben und es schwierig wäre Ich möchte ein gutes konzeptionelles Argument dafür finden ...
  • "Lebensraum" ist als Gruppierungsvariable sinnvoll, was sicherlich ein vernünftiger Zufallseffekt sein könnte (dh der Achsenabschnitt würde zwischen den Wohnbereichen variieren). Einzelpersonen würden wahrscheinlich innerhalb eines Gebiets verschachtelt sein, es sei denn, Einzelpersonen bewegen sich über die Zeitskala Ihrer Studie zwischen Gebieten.
  • Ihre Situation scheint ein Fall zu sein, in dem Sie zufällige Unterschiede zwischen Individuen haben, aber Sie haben auch Kovariaten auf individueller Ebene. Das Hinzufügen dieser Kovariaten auf individueller Ebene (Rasse, Einkommen usw.) zum Modell erklärt einen Teil der Variabilität zwischen den Individuen (und ist wahrscheinlich eine gute Idee).

Es kann Klarheit schaffen, zwischen Gruppierungsvariablen (die kategorisch sein müssen), die die Gruppen darstellen, über die sich die Dinge unterscheiden, und Effekten zu unterscheiden , die die Unterschiede in einigen Parametern / Effekten darstellen (normalerweise der Achsenabschnitt, aber möglicherweise die Auswirkungen des Einkommens /). Bildung / was auch immer) über die Ebenen einer Gruppierungsvariablen.

Update : Ich werde mir erlauben, Ihrem einen Kontrapunkt zu geben

Mein Verständnis von zufälligen Effekten: Faktoren, die zufällig aus einer Population ausgewählt werden;

  • Vielleicht hängt es von Ihrer philosophischen Einstellung ab. Dies ist im klassischen frequentistischen Paradigma erforderlich, aber ich würde es etwas lockern, indem ich frage, ob es vernünftig ist , die Effekte als zufällige Ziehungen aus einer hypothetischen Population zu behandeln. (Die klassischen Beispiele hier sind (1) erschöpfende Stichproben (was ist, wenn Sie Messungen für jedes Viertel in der Stadt oder für jede Region / Provinz / jedes Bundesland in einem Land haben? Können Sie sie immer noch als zufällige Ziehungen aus einer Superbevölkerung behandeln? Und (2) ) Zeiträume, die nacheinander gemessen werden (z. B. Jahre 2002-2012). In beiden Fällen würde ich sagen, dass es pragmatisch sinnvoll ist, sie mit zufälligen Effekten zu modellieren.)

Die Höhe des Faktors ist von geringem Interesse.

  • nicht unbedingt. Ich denke nicht, dass die Idee, dass zufällige Effekte störende Variablen sein müssen, in der Praxis Bestand hat. Beispielsweise kann man bei Tierzuchtanalysen sehr daran interessiert sein, den Zuchtwert (BLUP) eines bestimmten Tieres zu kennen. (Die so genannte Maß an Konzentration hat einige Auswirkungen haben, wie man vergleicht Modelle.)

Variablen sind unbeobachtete Faktoren.

Ich bin mir nicht sicher, was das bedeutet. Sie wissen, aus welcher Nachbarschaft jede Beobachtung kommt, oder? Wie ist das "unbeobachtet"? (Wenn Sie den Verdacht hatten, dass sich Ihre Daten aufgrund nicht beobachteter Faktoren gruppieren , müssten Sie ein diskretes Mischungsmodell anpassen .) Wenn Sie damit meinen, dass Sie nicht wissen, warum Nachbarschaften unterschiedlich sind, denke ich, dass dies hier nicht wichtig ist.

Nehmen Sie also die Nachbarschaft als Beispiel. Es ist meine Variable von Hauptinteresse, die Ebenen sind wichtig. Ich verwende gemischte Modelle und stelle sicher, dass darin eine große Varianz liegt.

Der einzige Grund , warum ich denken kann , nicht Nachbarschaft als Zufallseffekt zu verwenden wäre, wenn Sie nur eine kleine Anzahl (sagen wir <6) von Nachbarschaften gemessen hatte.

Ben Bolker
quelle
Mein Verständnis von zufälligen Effekten: Faktoren, die zufällig aus einer Population ausgewählt werden; Die Höhe des Faktors ist von geringem Interesse. Variablen sind unbeobachtete Faktoren. Nehmen Sie also die Nachbarschaft als Beispiel. Es ist meine Variable von Hauptinteresse, die Ebenen sind wichtig. Ich verwende gemischte Modelle und stelle sicher, dass darin eine große Varianz liegt. Sie haben festgestellt, dass es als Zufallsvariable verwendet werden kann. Also modelliere ich eine nicht zufällige Variable als zufällig; Das ist etwas verwirrend für mich, aber Ihre Antwort beleuchtet dies. Ich werde den Auszug sofort lesen. Vielen Dank für die Antwort, schätzen Sie Ihre Zeit.
Adam Robinsson
Leider habe ich Ihr Update bis jetzt nicht bemerkt, Prof. Bolker. Ich glaube tatsächlich, ich habe es jetzt in den Griff bekommen. Es ist keine einfache Sache, das gesamte gemischte Modellkonzept, und ich denke, es kann einige Zeit dauern, bis es verstanden ist. In der Tat gibt es eine Fülle ähnlicher Fragen, also bin ich wohl nicht der einzige. Trotzdem vielen Dank für eine aufschlussreiche Antwort. Geschätzt.
Adam Robinsson