Ich modelliere einige Daten, bei denen ich denke, dass ich zwei gekreuzte zufällige Effekte habe. Der Datensatz ist jedoch nicht ausgewogen, und ich bin mir nicht sicher, was getan werden muss, um dies zu berücksichtigen.
Meine Daten sind eine Reihe von Ereignissen. Ein Ereignis tritt auf, wenn sich ein Client mit einem Anbieter trifft, um eine Aufgabe auszuführen, die entweder erfolgreich ist oder nicht. Es gibt Tausende von Kunden und Anbietern, und jeder Kunde und Anbieter nimmt an einer unterschiedlichen Anzahl von Veranstaltungen teil (ungefähr 5 bis 500). Jeder Kunde und Anbieter verfügt über ein bestimmtes Qualifikationsniveau, und die Chance, dass die Aufgabe erfolgreich ist, hängt von den Fähigkeiten beider Teilnehmer ab. Es gibt keine Überschneidungen zwischen Kunden und Anbietern.
Ich interessiere mich für die jeweiligen Unterschiede in der Bevölkerung von Kunden und Anbietern, damit wir wissen, welche Quelle einen größeren Einfluss auf die Erfolgsquote hat. Ich möchte auch die spezifischen Werte der Fähigkeiten des Kunden und der Anbieter kennen, für die wir tatsächlich Daten haben, um die besten / schlechtesten Kunden oder Anbieter zu identifizieren.
Zunächst möchte ich davon ausgehen, dass die Erfolgswahrscheinlichkeit ausschließlich von den kombinierten Qualifikationsniveaus des Kunden und des Anbieters abhängt, ohne dass andere feste Auswirkungen auftreten. Unter der Annahme, dass x ein Faktor für den Client und y ein Faktor für den Anbieter ist, habe ich in R (unter Verwendung des Pakets lme4) ein Modell angegeben als:
glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)
Ein Problem ist, dass die Clients nicht gleichmäßig auf die Anbieter verteilt sind. Kunden mit höheren Qualifikationen werden eher mit Anbietern mit höheren Qualifikationen verglichen. Mein Verständnis ist, dass ein zufälliger Effekt nicht mit anderen Prädiktoren im Modell korreliert werden muss, aber ich bin mir nicht sicher, wie ich das erklären soll.
Einige Kunden und Anbieter haben nur sehr wenige Veranstaltungen (weniger als 10), während andere viele (bis zu 500) haben, sodass die Datenmenge, die wir über jeden Teilnehmer haben, sehr unterschiedlich ist. Idealerweise würde sich dies in einem "Konfidenzintervall" um die Fähigkeitsschätzung jedes Teilnehmers widerspiegeln (obwohl ich denke, dass der Begriff Konfidenzintervall hier nicht ganz richtig ist).
Werden gekreuzte zufällige Effekte aufgrund der unausgeglichenen Daten problematisch sein? Wenn ja, welche anderen Ansätze sollte ich berücksichtigen?
quelle