Ich habe mich gefragt, ob und wie es möglich ist, innerhalb einer Stichprobe eine zeitliche Änderung des Ergebnisses zu modellieren, die vom Basiswert dieses Ergebnisses abhängt, wobei ein gemischtes Modell verwendet wird.
Stellen Sie sich zum Beispiel eine Situation vor, in der derselbe Wissenstest fünfmal an dieselbe Personengruppe durchgeführt wird. Da die Fragen immer gleich sind, lernen die Schüler im Laufe der Zeit die richtigen Antworten und erzielen bei jeder Verwaltung eine höhere Punktzahl. Bei denjenigen, die zuerst ein hohes Ergebnis erzielt haben, wird es jedoch weniger Veränderungen geben als bei denjenigen, die zuerst ein schlechtes Ergebnis erzielt haben. Somit ist es ziemlich offensichtlich, dass die Änderungsrate vom Grundlinienwert abhängt.
Ich weiß, dass ich in gemischten Modellen zusätzlich zu einem zufälligen Achsenabschnitt eine zufällige Steigung für die Zeit einschließen könnte, um der Tatsache Rechnung zu tragen, dass sich bei einigen Schülern mehr Änderungen ergeben als bei anderen. Kann ich jedoch zu Recht davon ausgehen, dass es nicht möglich oder sinnvoll ist, den Wert der ersten Messung als Basiskovariate (und ihre Wechselwirkung mit der Zeit) einzubeziehen? Es fühlt sich für mich auf jeden Fall nicht richtig an. Andererseits verwirrt es mich, dass es nicht möglich wäre, den Effekt des Grundlinienwerts explizit mit einem festen Effekt zu modellieren. Ich muss zugeben, dass ich darüber etwas verwirrt bin. Jede Hilfe wäre sehr dankbar.
quelle
Antworten:
Dies scheint ein Wachstumsmodellszenario zu sein. Angenommen, wir hatten die folgenden Variablen:
occasion
: Mit Werten1
,2
,3
,4
, um5
die Gelegenheit zu reflektieren , dass Test genommen wurde,1
die erste oder Basislinie zu sein.ID
: die Kennung jedes Teilnehmers.score
: das Testergebnis für diesen Teilnehmer bei dieser Testgelegenheit.Zufällige Abschnitte für
ID
kümmern sich um die verschiedenen Basislinien (sofern genügend Teilnehmer vorhanden sind.Ein einfaches lineares Mischeffektmodell für diese Daten lautet daher (unter Verwendung der
lme4
Syntax):score ~ occasion + (1|ID)
oder
score ~ occasion + (occasion|ID)
wobei letzteres ermöglicht, dass die lineare Steigung des Anlasses zwischen den Teilnehmern variiert
Für das spezielle Beispiel im OP haben wir jedoch das zusätzliche Problem, dass die
score
Variable oben durch die maximale Punktzahl im Test begrenzt ist. Um dies zu ermöglichen, müssen wir nichtlineares Wachstum berücksichtigen. Dies könnte auf verschiedene Weise erreicht werden, wobei die einfachste die Hinzufügung quadratischer und möglicherweise kubischer Terme zum Modell ist:score ~ occasion + I(occasion^2) + I(occasion^3) + (1|ID)
Schauen wir uns ein Spielzeugbeispiel an:
Hier haben wir Diagramme für 6 Teilnehmer, die über 5 aufeinanderfolgende Gelegenheiten gemessen wurden, und wir haben die festen Effekte mit der durchgezogenen schwarzen Linie aufgezeichnet. Dies ist eindeutig kein gutes Modell für diese Daten. Daher führen wir nach dem Zentrieren der Daten einen quadratischen und dann einen kubischen Term ein, um die Kollinearität zu verringern:
Hier sehen wir, dass das quadratische Modell eine offensichtliche Verbesserung gegenüber dem Nur-Linear-Modell darstellt, aber nicht ideal ist, da es die Ergebnisse für die endgültige Messung unterschätzt und für die vorherige überschätzt.
Das kubische Modell scheint dagegen sehr gut zu funktionieren:
Ein etwas ausgefeilterer Ansatz besteht darin, die Explizität der oberen Grenze zu erkennen und (zum Beispiel) ein logistisches Wachstumskurvenmodell zu verwenden. Eine Möglichkeit, dies zu erreichen, besteht darin, das Ergebnis in einen Anteil (der Obergrenze) umzuwandeln, z. B. und dann das Logit dieses Anteils als Ergebnis eines linearen Mischeffektmodells zu modellieren . Zusätzlich zum Erkennen der Obergrenze hat dies den zusätzlichen Vorteil, dass die Heteroskastizität in den Residuen der nicht transformierten Daten modelliert wird, da es wahrscheinlich ist, dass bei aufeinanderfolgenden Tests (unter der Annahme, dass die Ergebnisse besser werden) weniger Varianz auftritt.π π/(1−π)
Wenn dies wie erwartet in die Praxis umgesetzt wird, wird auch der allgemeine Trend in den Daten sehr gut modelliert:
Das Folgende zeigt den kubischen Modus und die logistischen Wachstumsmodelle, die zusammen dargestellt sind, und wir sehen nur einen sehr geringen Unterschied zwischen ihnen, obwohl wir, wie oben erwähnt, das logistische Wachstumsmodell aufgrund des Problems der Heteroskedastizität bevorzugen könnten:
Ein differenzierterer Ansatz wäre immer noch die Verwendung eines nichtlinearen Modells mit gemischten Effekten, bei dem die logistische Wachstumskurve explizit modelliert wird, wodurch zufällige Variationen der Parameter der logistischen Funktion selbst ermöglicht werden.
quelle