Ich habe einen Datensatz, der sich mit Einwanderungsanträgen und Visumannahmen (Erteilung von Visa) befasst. Die Preise werden für "akzeptiert" und "abgelehnt" von Visumanträgen berechnet.
Der Datensatz enthält jedoch auch Werte für Fälle, die geschlossen wurden. Normalerweise ist dies der Fall, wenn der Einwanderer entweder nicht mehr zu Terminen erscheint, woanders hinwandert oder stirbt. Da diese Zahlen bei der Berechnung der Tarife nicht verwendet werden, werden die Tarife häufig als fehlend angezeigt (da die Fälle weder akzeptiert noch abgelehnt wurden).
Wenn die einzigen Fälle für dieses Jahr "ansonsten abgeschlossen" wären, wäre es dann jemals in Ordnung, diese Beobachtungen fallen zu lassen? Ein Teil des Problems, das ich habe, ist, dass zufällige Jahre im Datensatz gelöscht werden, da die einzigen Entscheidungen für dieses Jahr geschlossen wurden.
Die ansonsten abgeschlossenen Fälle sind sehr willkürlich, und wie ich bereits erwähnt habe, handelt es sich höchstwahrscheinlich um Fälle, in denen der Einwanderer an einen anderen Ort eingewandert ist und wahrscheinlich nur das erste Land als vorübergehenden Transitort genutzt hat. Die Daten sagen nicht ausdrücklich aus, warum die Einwanderer gegangen sind, warum sie geschlossen wurden usw. Ich bin mir nicht sicher, wie ich mit diesen fehlenden Werten umgehen soll. Ich glaube nicht, dass Standard-Imputationsmethoden hier aufgrund der Ratenberechnungen funktionieren würden (aber ich könnte mich irren).
quelle
Antworten:
Die wichtige Unterscheidung ist in Ihrem Fall nicht die Unterscheidung zwischen MCAR, MAR und NMAR, sondern zwischen tatsächlich fehlenden Werten und mechanisch fehlenden Werten. Echte fehlende Werte sind Werte, die existieren, aber aus irgendeinem Grund nicht aufgezeichnet wurden. Mechanisch fehlende Werte existieren nicht, aber die rechteckige Struktur eines Datensatzes zwingt uns, ihm einen Wert zu geben, z. B. den Schwangerschaftsstatus, wenn Ihr Datensatz auch Männer enthält. Imputationstechniken sind auf echte fehlende Werte ausgelegt. Ihr Beispiel ist ein Fall von mechanisch fehlenden Werten. Die Entscheidung wurde nicht getroffen, daher existiert ihr Wert nicht. Wenn ein erheblicher Teil der Migranten weiterzieht, ist dies ein wichtiges Merkmal des Migrationsprozesses, und die Eingabe dieser Werte verbirgt dieses Merkmal.
quelle
Es ist klar, eine Mischung aus mindestens 2 verschiedenen Fehlprozessen.
Was mit MNAR zu tun ist, ist schwierig. Die Annahme, dass solche Fälle keinen Erfolg hatten, kann etwas extrem sein (oder sehr angemessen, schließlich waren sie nicht erfolgreich). Oder unterstellen Sie sich unter MAR und versuchen Sie, diese Fälle weniger erfolgreich zu machen, bis Sie 0% erreichen und diesen Wertebereich in Betracht ziehen.
quelle