Sollte ich in einer Längsschnittstudie das zum Zeitpunkt 2 gemessene Ergebnis Y für Personen unterstellen, die für die Nachsorge verloren gegangen sind?

10

Ich habe zu zwei Zeitpunkten Wiederholungsmessungen in einer Stichprobe von Personen. Zum Zeitpunkt 1 sind 18.000 Personen und zum Zeitpunkt 2 13.000 Personen (5000 durch Nachverfolgung verloren).

Ich möchte ein zum Zeitpunkt 2 gemessenes Ergebnis Y (und das Ergebnis kann zum Zeitpunkt 1 nicht gemessen werden) auf einen zum Zeitpunkt 1 gemessenen Satz von Prädiktoren X zurückführen. Alle Variablen haben einige fehlende Daten. Das meiste davon scheint relativ zufällig zu sein, oder das Fehlen scheint durch die beobachteten Daten gut beschrieben zu sein. Die überwiegende Mehrheit der fehlenden Ergebnisse im Ergebnis Y ist jedoch auf den Verlust der Nachverfolgung zurückzuführen. Ich werde mehrere Imputationen (R :: Mäuse) verwenden und den vollständigen Datensatz verwenden, um Werte für X zu imputieren, aber ich habe 2 widersprüchliche Ratschläge bezüglich der Imputation von Y erhalten:

1) Imputiere Y aus X und V (V = nützliche Hilfsvariablen) in der vollständigen Stichprobe von 18k.

2) Setzen Sie Y nicht in Einzelpersonen unter, die für die Nachverfolgung verloren gegangen sind (und löschen Sie sie daher aus einer nachfolgenden Regressionsmodellierung).

Ersteres ist sinnvoll, weil Informationen Informationen sind. Warum also nicht alles verwenden? Letzteres macht aber auch auf intuitivere Weise Sinn - es scheint einfach falsch, das Ergebnis für 5000 Personen basierend auf Y ~ X + V zu unterstellen, um sich dann umzudrehen und Y ~ X zu schätzen.

Welches ist (mehr) richtig?

Diese vorherige Frage ist nützlich, geht jedoch nicht direkt auf das Fehlen von Folgemaßnahmen ein (obwohl die Antwort möglicherweise dieselbe ist; ich weiß es nicht).

Multiple Imputation für Ergebnisvariablen

DL Dahly
quelle
Dies scheint mir widersprüchlich - können Sie das erklären?: "Das meiste davon erscheint relativ zufällig, oder das Fehlen scheint durch die beobachteten Daten gut beschrieben zu sein."
Rolando2
1
Bei der Mehrfachimputation und den meisten anderen Imputationsverfahren müssen Ihre Daten zufällig fehlen (MAR). Es wäre notwendig, den Abnutzungsmechanismus in Ihrer Studie zu verstehen. Ich würde vermuten, dass in Ihren Folgestudien Ihre fehlenden Werte jedoch wahrscheinlich nicht MAR oder MCAR sind.
StatsStudent

Antworten:

2

Ich denke, das ist ein Instrumentierungsfall. Sie möchten ein fehlendes X, kein fehlendes Y.

Y~X

Aber X fehlt häufig oder wird nicht gemessen.

X~Z and Z does not impact Y- except through X.

Dann können Sie ausführen:

 X~Z
 Y~Predicted(X)

Und erfordern einige Anpassungen für die Standardfehler.

Sie können sich auch das Heckmann-2-Schritt-Verfahren ansehen, wenn Sie viel Probenabrieb haben. http://en.wikipedia.org/wiki/Heckman_correction

RegressForward
quelle
2

Ich würde argumentieren, dass beides nicht am besten geeignet ist.

Eine Imputation ist im Allgemeinen nicht angemessen, wenn die Daten nicht MAR oder MCAR sind und Daten selten auf diese Weise auftreten. Wenn Sie Ihre Werte eingeben , ist dies möglicherweise eine vernünftige Annahme, aber sicherlich nicht für Ihre Daten.Y.XY

Wenn Sie alle fehlenden Daten aus Ihren Daten löschen, werden Ihre Parameter verzerrt (wenn die Daten nicht MCAR sind, siehe oben), und die Genauigkeit Ihrer Schätzungen wird erheblich verringert. Dies ist eine "vollständige Fallanalyse" und wird nicht empfohlen.

Ich würde vorschlagen, die Methoden der Überlebensanalyse zu überprüfen. Hierbei handelt es sich um Methoden zur Analyse Ihrer Daten, da einige Ihrer Ergebnisse aufgrund von Zensur nicht beobachtet werden. Es gibt Modelle, die dies berücksichtigen, wenn Sie feststellen können, welche Beobachtungen zensiert werden.Y

Matt Brems
quelle