Ich frage mich, ob jemand einen Einblick geben könnte, ob eine Warum-Imputation für fehlende Daten besser ist, als einfach verschiedene Modelle für Fälle mit fehlenden Daten zu erstellen. Besonders im Fall von [verallgemeinerten] linearen Modellen (ich kann vielleicht in nichtlinearen Fällen sehen, dass die Dinge anders sind)
Angenommen, wir haben das grundlegende lineare Modell:
Unser Datensatz enthält jedoch einige Datensätze, bei denen fehlt. In dem Vorhersagedatensatz, in dem das Modell verwendet wird, fehlen auch . Es scheint zwei Möglichkeiten zu geben:
Mehrere Modelle
Wir könnten die Daten in und Nicht- Fälle und für jeden ein eigenes Modell . Wenn wir annehmen, dass eng mit verwandt ist, kann das fehlende Datenmodell übergewichten , um die beste Zwei-Prädiktor-Vorhersage zu erhalten. Auch wenn die Fälle für fehlende Daten geringfügig unterschiedlich sind (aufgrund des Mechanismus für fehlende Daten), kann dieser Unterschied berücksichtigt werden. Auf der anderen Seite passen die beiden Modelle jeweils nur auf einen Teil der Daten und "helfen" sich nicht gegenseitig, sodass die Anpassung bei begrenzten Datensätzen möglicherweise schlecht ist.
Imputation
Regressions-Mehrfachimputation würde zuerst ausfüllen, indem ein Modell basierend auf und und dann zufällig abgetastet wird, um das Rauschen in den imputierten Daten aufrechtzuerhalten. Da dies wieder zwei Modelle sind, wird dies nicht einfach das gleiche sein wie die oben beschriebene Methode mit mehreren Modellen? Wenn es in der Lage ist zu übertreffen - woher kommt der Gewinn? Ist es nur so, dass die Anpassung für für den gesamten Satz erfolgt?
BEARBEITEN:
Während Steffans bisherige Antwort erklärt, dass die Anpassung des vollständigen Fallmodells an unterstellte Daten die Anpassung an vollständige Daten übertrifft, und es offensichtlich ist, dass das Gegenteil der Fall ist, gibt es immer noch einige Missverständnisse hinsichtlich der Vorhersage fehlender Daten.
Wenn ich das obige Modell habe, das sogar perfekt passt, wird es im Allgemeinen ein schreckliches Prognosemodell sein, wenn ich bei der Vorhersage nur Null einsetze. Stellen Sie sich zum Beispiel vor, dass dann ist völlig nutzlos ( ), wenn vorhanden ist, wäre aber ohne immer noch nützlich .
Die Schlüsselfrage, die ich nicht verstehe, ist: es besser, zwei Modelle zu erstellen, eines mit und eines mit , oder ist es besser, ein einzelnes (vollständiges) Modell zu erstellen und zu verwenden Anrechnung auf die Prognosedatensätze - oder sind das die gleichen?
Wenn man Steffans Antwort einbringt, scheint es besser zu sein, das vollständige auf einem unterstellten Trainingssatz aufzubauen, und umgekehrt ist es wahrscheinlich am besten, das fehlende Datenmodell auf dem vollständigen Datensatz zu , wobei verworfen wird. Unterscheidet sich dieser zweite Schritt von der Verwendung eines Imputationsmodells in den Prognosedaten?
Ich gehe davon aus, dass Sie daran interessiert sind, unvoreingenommene Schätzungen der Regressionskoeffizienten zu erhalten. Die Analyse der vollständigen Fälle liefert unvoreingenommene Schätzungen Ihrer Regressionskoeffizienten, vorausgesetzt , die Wahrscheinlichkeit, dass X3 fehlt, hängt nicht von Y ab. Dies gilt auch dann, wenn die Wahrscheinlichkeit des Fehlens von X1 oder X2 abhängt, und für jede Art von Regressionsanalyse.
Natürlich können die Schätzungen ineffizient sein, wenn der Anteil der vollständigen Fälle gering ist. In diesem Fall können Sie die Mehrfachimputation von X3 bei X2, X1 und Y verwenden, um die Genauigkeit zu erhöhen. Siehe White and Carlin (2010) Stat Med für Details.
quelle
Eine Studie aus Harvard schlägt eine mehrfache Imputation mit fünf Prognosen der fehlenden Daten vor (hier die Referenz http://m.circoutcomes.ahajournals.org/content/3/1/98.full ). Selbst dann erinnere ich mich an Kommentare, dass Imputationsmodelle möglicherweise immer noch keine Deckungsintervalle für die Modellparameter erzeugen, die nicht die wahren zugrunde liegenden Werte enthalten!
Vor diesem Hintergrund erscheint es am besten, fünf einfache naive Modelle für den fehlenden Wert zu verwenden (vorausgesetzt, dass sie in der aktuellen Diskussion nicht zufällig fehlen), die eine gute Streuung der Werte ergeben, sodass die Abdeckungsintervalle zumindest die wahren Parameter enthalten können .
Meine Erfahrung in der Stichprobentheorie zeigt, dass häufig viele Ressourcen für die Unterabtastung der Nichtantwortpopulation aufgewendet werden, die sich manchmal sehr von der Antwortpopulation zu unterscheiden scheint. Daher würde ich eine ähnliche Übung zur Regression fehlender Werte mindestens einmal in dem jeweiligen Anwendungsbereich empfehlen. Die bei einer solchen Untersuchung der fehlenden Daten nicht wiederhergestellten Beziehungen können für die Erstellung besserer Prognosemodelle für fehlende Daten für die Zukunft von historischem Wert sein.
quelle