Fehlende Raten und mehrfache Anrechnung

8

Gibt es eine Grenze, die bei Verwendung der Mehrfachimputation (MI) am wenigsten akzeptabel ist?

Kann ich beispielsweise MI verwenden, wenn die fehlenden Werte in einer Variablen 20% der Fälle ausmachen, während andere Variablen fehlende Werte aufweisen, jedoch nicht auf einem so hohen Niveau?

Nick
quelle
Ich würde 20% nicht als sehr hoch betrachten, daher bin ich sicher, dass die Antwort auf Ihre zweite Frage Ja lautet, obwohl ich keine strenge Rechtfertigung habe. Mein Bauchgefühl ist, dass die einzige Grenze die ist, die verhindert, dass der Algorithmus überhaupt funktioniert. Ich erinnere mich vage, dass ich in Rubins Buch eine Tabelle mit Ergebnissen für sehr hohe Fehlzeiten gesehen habe. Ob es sich lohnt (im Gegensatz zu einer gültigen), MI mit sehr hohen Fehlzeiten zu machen, ist eine andere Frage.
Mark999
1
Viel hängt davon ab, wie viel Sie davon ausgehen können, dass Ihre Fehler völlig zufällig fehlen. Wenn es einen hohen Prozentsatz an Fehlschlägen gibt und diese nicht zufällig fehlen, erhalten Sie möglicherweise voreingenommene Schätzungen für die Imputation. Da dies in Fällen erfolgen muss, die in den Daten vorhanden sind (per Definition), in denen in den fehlenden Fällen eine systematische Verzerrung besteht, sind die vorliegenden Fälle aus Sicht der Genauigkeit möglicherweise nicht sehr informativ.
Michelle
@ mark999 - Danke für die Antwort. Wann kann die Fehlende Rate für eine Variable als hoch angesehen werden? Haben Sie zu Ihrer letzten Frage eine Antwort?
Nick
@ Michael - Danke. Glücklicherweise ist die Hypothese MAR ziemlich plausibel (und sogar die MCAR könnte als plausibel angesehen werden)
Nick
@ Nick: Ich weiß nicht, was als sehr hohe Rate angesehen werden soll, und ich denke nicht, dass es notwendig ist, eine bestimmte Nummer darauf zu setzen. Ich habe keine Antwort auf die letzte Frage.
Mark999

Antworten:

3

Aus den Kommentaren geht hervor, dass Sie sich in einer MAR- oder MCAR-Situation befinden. Dann ist eine mehrfache Imputation zumindest sinnvoll. Wie viel Fehlen ist also nachvollziehbar? Denk darüber so:

Grundsätzlich macht die Mehrfachimputation alle Ihre Modellparameterschätzungen in Abhängigkeit von der Genauigkeit, mit der die fehlenden Daten mit Ihrem Imputationsmodell vorhergesagt werden können, weniger sicher. Dies hängt unter anderem von der Menge der fehlenden Imputationen ab, die berechnet werden müssen Anzahl der von Ihnen verwendeten Imputationen.

REλmRE1/(1+λ/m)

Anstatt hier die Definitionen fehlender Informationen usw. zu generieren, können Sie einfach die MI-FAQ lesen, die die Dinge sehr klar formuliert. Von dort wissen Sie, ob Sie die Originalquellen in Angriff nehmen möchten: Rubin usw.

In der Praxis sollten Sie wahrscheinlich nur eine Imputationsanalyse durchführen und sehen, wie sie funktioniert.

Konjugatprior
quelle
Der FAQ-Link ist defekt. Gibt es eine Chance, dass Sie eine aktuelle haben? (es sieht nützlich aus)
Drstevok
Hinzugefügt. Ich bin mir nicht sicher, wie offiziell es ist.
Conjugateprior
1

Sie könnten finden

Rubin, Donald B. und Nathaniel Schenker. 1986. "Multiple Imputation zur Intervallschätzung aus einfachen Zufallsstichproben mit ignorierbarer Nichtantwort." Journal of the American Statistical Association 81 (394): 366–374.

hilfreich.

RTM
quelle
1
Könnten Sie bitte Rubins Empfehlungen in wenigen Worten zusammenfassen, damit diese Antwort in sich geschlossen bleibt?
Chl
Das muss ich bekommen. Ich habe auch Joe Shaffer von Penn State sagen hören (viel in jüngerer Zeit), dass MI gut ist, es sei denn, die Daten sind "WIRKLICH nicht zu unterschätzen"
Peter Flom
@ Peter Flom: Shaffers Aussage ist interessant - kennen Sie Details?
Mark999
1
@ Peter Flom: Danke (ich habe dein "viel jünger" fälschlicherweise als "kürzlich" interpretiert).
Mark999
1
@ Peter Flom. Tippfehler meinerseits fürchte ich. Der Rest meines Kommentars macht Sinn, wenn Sie das fehlende "Nicht" voranstellen!
Conjugateprior