Ist es jemals in Ordnung, fehlende Beobachtungen fallen zu lassen?

8

Ich habe einen Datensatz, der sich mit Einwanderungsanträgen und Visumannahmen (Erteilung von Visa) befasst. Die Preise werden für "akzeptiert" und "abgelehnt" von Visumanträgen berechnet.

Der Datensatz enthält jedoch auch Werte für Fälle, die geschlossen wurden. Normalerweise ist dies der Fall, wenn der Einwanderer entweder nicht mehr zu Terminen erscheint, woanders hinwandert oder stirbt. Da diese Zahlen bei der Berechnung der Tarife nicht verwendet werden, werden die Tarife häufig als fehlend angezeigt (da die Fälle weder akzeptiert noch abgelehnt wurden).

Wenn die einzigen Fälle für dieses Jahr "ansonsten abgeschlossen" wären, wäre es dann jemals in Ordnung, diese Beobachtungen fallen zu lassen? Ein Teil des Problems, das ich habe, ist, dass zufällige Jahre im Datensatz gelöscht werden, da die einzigen Entscheidungen für dieses Jahr geschlossen wurden.

Die ansonsten abgeschlossenen Fälle sind sehr willkürlich, und wie ich bereits erwähnt habe, handelt es sich höchstwahrscheinlich um Fälle, in denen der Einwanderer an einen anderen Ort eingewandert ist und wahrscheinlich nur das erste Land als vorübergehenden Transitort genutzt hat. Die Daten sagen nicht ausdrücklich aus, warum die Einwanderer gegangen sind, warum sie geschlossen wurden usw. Ich bin mir nicht sicher, wie ich mit diesen fehlenden Werten umgehen soll. Ich glaube nicht, dass Standard-Imputationsmethoden hier aufgrund der Ratenberechnungen funktionieren würden (aber ich könnte mich irren).

EJ16
quelle
1
Sie würden sie nicht einfach fallen lassen. Sie können mehrere Imputationen anwenden. Siehe Artikel und Bücher von Donald Rubin und Rod Little.
Michael R. Chernick
1
Geht die Mehrfachzuschreibung davon aus, dass die Daten zufällig fehlen? Fehlen diese Daten zufällig? MI wirft mich immer ein bisschen ab, und das ist ein Grund.
EJ16
2
Sie sprechen einen guten Punkt an. Sie klassifizieren fehlende Daten als 1) vollständig zufällig fehlend, 2) zufällig fehlend und 3) nicht zufällig fehlend. Diese Kategorien werden in ihren Büchern erklärt. Wenn Sie ihre Arbeit lesen und Ihre Daten verstehen, sollten Sie in der Lage sein, die Methode ordnungsgemäß anzuwenden. Sie haben drei Situationen: Einwanderer tauchten nicht mehr auf, gingen woanders hin oder starben. Dies scheint nicht zufällig zu sein, aber Sie können anhand der Ereignisse die Wahrscheinlichkeit der Akzeptanz erkennen.
Michael R. Chernick
In Fällen, in denen Sie sich nicht sicher sind, ob Ihre Daten MCAR, MAR oder MNAR sind, kann es hilfreich sein, fehlende Datenplots zu berücksichtigen. Hier ist ein Beispiel für die Erstellung eines solchen Diagramms mit ggplot2 und dem R-Statistikpaket.
Wes
1
Können Sie nicht eine dritte Kategorie, "Fall fallen gelassen", in Ihre Daten aufnehmen? Vielleicht wird dann eine andere Analyse es anders behandeln? Nur fallen zu lassen scheint seltsam.
kjetil b halvorsen

Antworten:

6

Die wichtige Unterscheidung ist in Ihrem Fall nicht die Unterscheidung zwischen MCAR, MAR und NMAR, sondern zwischen tatsächlich fehlenden Werten und mechanisch fehlenden Werten. Echte fehlende Werte sind Werte, die existieren, aber aus irgendeinem Grund nicht aufgezeichnet wurden. Mechanisch fehlende Werte existieren nicht, aber die rechteckige Struktur eines Datensatzes zwingt uns, ihm einen Wert zu geben, z. B. den Schwangerschaftsstatus, wenn Ihr Datensatz auch Männer enthält. Imputationstechniken sind auf echte fehlende Werte ausgelegt. Ihr Beispiel ist ein Fall von mechanisch fehlenden Werten. Die Entscheidung wurde nicht getroffen, daher existiert ihr Wert nicht. Wenn ein erheblicher Teil der Migranten weiterzieht, ist dies ein wichtiges Merkmal des Migrationsprozesses, und die Eingabe dieser Werte verbirgt dieses Merkmal.

Maarten Buis
quelle
Anders als bei einer männlichen Schwangerschaft hätte es jedoch eine Annahme- / Ablehnungsentscheidung geben können, wenn Menschen starben, weitergingen oder nicht mehr auftauchten. In der Überlebensanalyse konnten diese intelligent als zensierte Fälle behandelt werden, vorausgesetzt, die Zensur war nicht informativ. Ich frage mich, ob es eine Möglichkeit gibt, den zensierten Status in die Analyse für diesen Fall einzubeziehen.
EdM
Maarten, vielen Dank. Es ergibt Sinn. Ich dachte auch, dass es vielleicht eine Form der Zensur ist (zB Tod von Migranten). Aber ich verstehe nicht, was "das Unterstellen dieser Werte dieses Merkmal verbirgt". Bedeutet dies dann, dass keine Mehrfachzuschreibung durchgeführt werden sollte? Wenn ja, welche anderen Optionen gibt es? Ich kratzte mich immer noch am Kopf.
EJ16
Vielleicht, und diese wurden als akzeptiert / abgelehnt aufgezeichnet. Aber es gibt Jahre, in denen überhaupt keine Entscheidungen getroffen wurden, und die einzigen Entscheidungen, die getroffen wurden, waren "ansonsten geschlossen". Das ist der Teil, an dem ich gerade festhalte.
EJ16
Maarten, egal. Ich habe die Antwort noch einmal gelesen und verstehe jetzt, dass MI dafür nicht ausreichen würde. Derzeit zeigt sich, dass etwa die Hälfte der Fälle ansonsten abgeschlossen ist und daher fehlt. Ich denke, meine Frage ist immer noch, was ich mit diesen Fällen anfangen soll, da das Standardverfahren darin besteht, sie nicht in die Ratenberechnungen einzubeziehen.
EJ16
+1 Gute Antwort. Ein erwähnenswerter Punkt ist, dass "mechanische" MVs zumindest in der US-Literatur häufiger als "strukturelle Nullen" oder Nullwerte bezeichnet werden.
Mike Hunter
1

Es ist klar, eine Mischung aus mindestens 2 verschiedenen Fehlprozessen.

  1. Menschen, die an verfahrensunabhängigen Ursachen sterben / aufgeben / etc. aus anderen Gründen als dem wahrscheinlichen Ergebnis des Verfahrens. Hier ist eine Imputation unter MAR sinnvoll (wenn Sie die Fälle eindeutig identifizieren können).
  2. Menschen, die aufgeben / sich zurückziehen / aussteigen, weil sie einige Regeln nicht erfüllen und / oder denken, dass sie wahrscheinlich nicht erfolgreich sind oder dass es zu viel Aufwand ist. Hier kommt es darauf an, ob Sie anhand der Daten, die Sie haben, ihre Chancen einschätzen können, wenn sie fortgesetzt wurden. Wenn Sie können, ist eine MAR-Annahme in Ordnung, andernfalls haben Sie eine schwierige MNAR-Situation.

Was mit MNAR zu tun ist, ist schwierig. Die Annahme, dass solche Fälle keinen Erfolg hatten, kann etwas extrem sein (oder sehr angemessen, schließlich waren sie nicht erfolgreich). Oder unterstellen Sie sich unter MAR und versuchen Sie, diese Fälle weniger erfolgreich zu machen, bis Sie 0% erreichen und diesen Wertebereich in Betracht ziehen.

Björn
quelle
Tatsächlich. Am Anfang glaubte ich, dass die Daten MNAR waren. Ich denke jedoch, dass Maarten Recht hat. Nur hat es mich etwas verwirrter gemacht, was ich mit den strukturellen Nullen anfangen soll.
EJ16