Ich habe zwei Jahre Daten, die im Grunde so aussehen:
Datum _ __ Gewalt J / N? _ Anzahl der Patienten
01.01.2008 _ ___ 0 __ _ __ _ ____ 11
01.02.2008 _ __ _ 0 _ __ _ __ _ __ 11
01.03.2008 _ ____ 1 __ _ __ _ ____ 12
01.04.2008 _ ____ 0 __ _ __ _ ____ 12
...
31/12 / 2009_ _ __ 0_ _ __ _ __ _ __ 14
dh zwei Jahre Beobachtungen, eine pro Tag, einer psychiatrischen Station, die angeben, ob an diesem Tag ein Gewaltvorfall aufgetreten ist (1 ist ja, 0 nein), sowie die Anzahl der Patienten auf der Station. Die Hypothese, die wir testen möchten, lautet, dass mehr Patienten auf der Station mit einer erhöhten Wahrscheinlichkeit von Gewalt auf der Station verbunden sind.
Wir sind uns natürlich bewusst, dass wir uns darauf einstellen müssen, dass Gewalt bei mehr Patienten auf der Station wahrscheinlicher ist, weil es nur mehr von ihnen gibt. Wir sind daran interessiert, ob die Wahrscheinlichkeit von Gewalt bei jedem Einzelnen wann steigt Es gibt mehr Patienten auf der Station.
Ich habe mehrere Artikel gesehen, die nur logistische Regression verwenden, aber ich denke, das ist falsch, weil es eine autoregressive Struktur gibt (obwohl die Autokorrelationsfunktion bei jeder Verzögerung nicht über 0,1 liegt, obwohl diese über der liegt "Signifikante" blaue gestrichelte Linie, die R für mich zeichnet).
Um die Sache noch komplizierter zu machen, kann ich, wenn ich die Ergebnisse in einzelne Patienten aufteilen möchte, so dass die Daten genauso aussehen wie oben, außer ich hätte die Daten für jeden Patienten, 1.1.2008, 2 / 1/2008 usw. und einen ID-Code an der Seite, damit die Daten die gesamte Vorgeschichte der Vorfälle für jeden Patienten separat anzeigen (obwohl nicht alle Patienten für alle Tage anwesend sind, nicht sicher, ob dies wichtig ist).
Ich möchte lme4 in R verwenden, um die autoregressive Struktur innerhalb jedes Patienten zu modellieren, aber einige Googler kommen mit dem Zitat "lme4 ist nicht für autoregressive Strukturen eingerichtet". Selbst wenn es so wäre, bin ich mir nicht sicher, wie ich den Code schreiben soll.
Nur für den Fall, dass jemand etwas bemerkt, habe ich vor einiger Zeit eine Frage wie diese gestellt. Es handelt sich um unterschiedliche Datensätze mit unterschiedlichen Problemen, obwohl die tatsächliche Lösung dieses Problems bei diesem hilfreich ist (jemand schlug vor, dass ich zuvor gemischte Methoden verwendet habe, aber diese Autoregression hat mich dazu gebracht unsicher, wie das geht).
Also bin ich ein bisschen festgefahren und verloren, um ehrlich zu sein. Jede Hilfe dankbar erhalten!
quelle
pgmm
aus dem plm- Paket verwenden, aber da Ihre Antwortvariable binär ist, weiß ich nicht genau, wie es geht. Vielleicht können andere näher darauf eingehen ... (Und ja, Sie haben Recht: Mein Verständnis ist, dass Sie REML nicht zur Schätzung verwenden können, wenn Sie eine endogene Variable haben, in diesem Fall den verzögerten Wert, da dieser voreingenommen ist. Daher müssen Sie GMM verwenden .)Antworten:
Hier ist eine Idee, die Ihre binär abhängige Variable mit einer kontinuierlichen, nicht beobachteten Variablen verbindet. Eine Verbindung, mit der Sie die Leistung von Zeitreihenmodellen für kontinuierliche Variablen nutzen können.
Definieren:
wo,
Sie können dann ein Zeitreihenmodell für und die relevanten Parameter schätzen. Zum Beispiel könnten Sie wie modellieren :Pw,t Pw,t
wo,
w tnw,t ist die Anzahl der Patienten auf der Station zum Zeitpunkt .w t
Sie könnten sehen, ob signifikant von 0 abweicht, um Ihre Hypothese zu testen, dass "mehr Patienten zu einer Erhöhung der Wahrscheinlichkeit von Gewalt führen".β
Die Herausforderung der obigen Modellspezifikation besteht darin, dass Sie nicht wirklich beobachten und das Obige daher nicht Ihr übliches Zeitreihenmodell ist. Ich weiß nichts über R, also wird vielleicht jemand anderes eingreifen, wenn es ein Paket gibt, mit dem Sie Modelle wie die oben genannten schätzen können.Pw,t
quelle