Gekreuzte zufällige Effekte und unausgeglichene Daten

10

Ich modelliere einige Daten, bei denen ich denke, dass ich zwei gekreuzte zufällige Effekte habe. Der Datensatz ist jedoch nicht ausgewogen, und ich bin mir nicht sicher, was getan werden muss, um dies zu berücksichtigen.

Meine Daten sind eine Reihe von Ereignissen. Ein Ereignis tritt auf, wenn sich ein Client mit einem Anbieter trifft, um eine Aufgabe auszuführen, die entweder erfolgreich ist oder nicht. Es gibt Tausende von Kunden und Anbietern, und jeder Kunde und Anbieter nimmt an einer unterschiedlichen Anzahl von Veranstaltungen teil (ungefähr 5 bis 500). Jeder Kunde und Anbieter verfügt über ein bestimmtes Qualifikationsniveau, und die Chance, dass die Aufgabe erfolgreich ist, hängt von den Fähigkeiten beider Teilnehmer ab. Es gibt keine Überschneidungen zwischen Kunden und Anbietern.

Ich interessiere mich für die jeweiligen Unterschiede in der Bevölkerung von Kunden und Anbietern, damit wir wissen, welche Quelle einen größeren Einfluss auf die Erfolgsquote hat. Ich möchte auch die spezifischen Werte der Fähigkeiten des Kunden und der Anbieter kennen, für die wir tatsächlich Daten haben, um die besten / schlechtesten Kunden oder Anbieter zu identifizieren.

Zunächst möchte ich davon ausgehen, dass die Erfolgswahrscheinlichkeit ausschließlich von den kombinierten Qualifikationsniveaus des Kunden und des Anbieters abhängt, ohne dass andere feste Auswirkungen auftreten. Unter der Annahme, dass x ein Faktor für den Client und y ein Faktor für den Anbieter ist, habe ich in R (unter Verwendung des Pakets lme4) ein Modell angegeben als:

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

Ein Problem ist, dass die Clients nicht gleichmäßig auf die Anbieter verteilt sind. Kunden mit höheren Qualifikationen werden eher mit Anbietern mit höheren Qualifikationen verglichen. Mein Verständnis ist, dass ein zufälliger Effekt nicht mit anderen Prädiktoren im Modell korreliert werden muss, aber ich bin mir nicht sicher, wie ich das erklären soll.

Einige Kunden und Anbieter haben nur sehr wenige Veranstaltungen (weniger als 10), während andere viele (bis zu 500) haben, sodass die Datenmenge, die wir über jeden Teilnehmer haben, sehr unterschiedlich ist. Idealerweise würde sich dies in einem "Konfidenzintervall" um die Fähigkeitsschätzung jedes Teilnehmers widerspiegeln (obwohl ich denke, dass der Begriff Konfidenzintervall hier nicht ganz richtig ist).

Werden gekreuzte zufällige Effekte aufgrund der unausgeglichenen Daten problematisch sein? Wenn ja, welche anderen Ansätze sollte ich berücksichtigen?

Colonel.triq
quelle

Antworten:

4

Bei unausgeglichenen Daten ist glmer in der Lage, unausgeglichene Gruppen zu behandeln. Dies war eigentlich der Punkt bei der Entwicklung von Ansätzen mit gemischten Modellen im Vergleich zu ANOVAs mit wiederholten Messungen, die auf ausgewogene Designs beschränkt sind. Das Einbeziehen von Kunden oder Anbietern mit wenigen Ereignissen (auch nur einem) ist immer noch besser als das Auslassen, da dies die Schätzung der Restvarianz verbessert (siehe Martin et al. 2011 ).

Wenn Sie BLUPs ( ranef(model)) als Proxy für Fähigkeiten verwenden möchten , müssen Sie in der Tat die Unsicherheit um Ihre Punktvorhersagen abschätzen. Dies kann in einem frequentistischen Rahmen unter Verwendung ranef(model, postVar=TRUE)oder durch die posteriore Verteilung in einem Bayes'schen Rahmen erfolgen. Sie sollten BLUPs jedoch nicht als Antwortvariable in weiteren Regressionsmodellen verwenden: siehe Hadfield et al. (2010) für Beispiele für den Missbrauch von BLUPs und verschiedene Methoden, um deren Unsicherheit angemessen zu berücksichtigen.

In Bezug auf die Korrelation von Fähigkeiten zwischen Kunden und Anbietern kann dieses Ungleichgewicht problematisch sein, wenn es sehr stark ist, da es die korrekte Schätzung der Varianz aufgrund jedes zufälligen Effekts verhindern würde. Es scheint kein Framework mit gemischten Modellen zu geben, das die Korrelation zwischen zufälligen Abschnitten leicht handhaben kann (siehe hier für einen formalen Ausdruck Ihres Problems). Könnten Sie vielleicht genau sagen, wie korreliert die durchschnittlichen Erfolge von Kunden und Anbietern sind?

Charlotte R.
quelle
Vielen Dank, dass Sie sich mit einer meiner alten Fragen befasst haben. Die Antwort ist immer noch relevant und die Anleitungen und Referenzen werden geschätzt. Es tut mir leid, dass ich so lange gebraucht habe, um zu bemerken, dass es da war! Ich habe es als gelöst markiert.
Colonel.triq