Multiple Imputationsfragen für multiple Regression in SPSS

9

Ich verwende derzeit ein Modell mit mehreren Regressionen unter Verwendung von unterstellten Daten und habe einige Fragen.

Hintergrund:

Verwenden von SPSS 18. Meine Daten scheinen MAR zu sein. Durch das listweise Löschen von Fällen habe ich nur 92 Fälle, durch mehrfache Imputation bleiben 153 Fälle zur Analyse übrig. Alle Annahmen erfüllt - ein variables Protokoll transformiert. 9 IV 5 - 5 kategorisch, 3 Skala, 1 Intervall. DV-Skala. Verwenden der Enter-Methode der standardmäßigen multiplen Regression.

  • Mein DV ist die Differenz der Punktzahlen zwischen einem Pre-Score- und einem Post-Score-Maß. Bei diesen beiden Variablen fehlt eine Reihe von Fällen. Sollte ich für jeden dieser Werte fehlende Werte unterstellen und dann den Unterschied zwischen ihnen berechnen, um meinen DV zu berechnen (Wie mache ich das) oder kann ich einfach Daten für meinen DV unterstellen? Welches ist der am besten geeignete Ansatz?
  • Sollte ich Imputationen für transformierte Daten oder verzerrte nicht transformierte Daten durchführen?
  • Sollte ich alle Variablen in den Imputationsprozess eingeben, auch wenn ihnen keine Daten fehlen, oder sollte ich nur Daten für die Variablen unterstellen, bei denen mehr als 10% der Fälle fehlen?

Ich habe die Regression für die listweise gelöschten Fälle ausgeführt und mein IV-Konto hat nur einen sehr geringen Anteil an der Varianz in meinem DV. Anschließend habe ich die Regression für eine vollständige Datei nach mehrfacher Imputation ausgeführt. Die Ergebnisse sind sehr ähnlich, da meine 9 IVs immer noch vorhanden sind prognostizieren nur ca. 12% der Varianz in meinem DV, aber jetzt zeigt einer meiner IVs an, dass er einen signifikanten Beitrag leistet (dies ist zufällig eine logarithmisch transformierte Variable) ...

  • Sollte ich Originaldaten melden, wenn es kaum einen Unterschied zwischen meinen Schlussfolgerungen gibt - dh meine IVs sagen den dv schlecht voraus oder die vollständigen Daten melden?
Dara
quelle
Was bedeutet "Skalierung" für SPSS, bezieht es sich auf Ordnungsdaten ?
Gung - Reinstate Monica
Skalieren in SPSS-Formaten bedeutet normalerweise "Intervall / Verhältnis" -Messungen, siehe Befehl VARIABLE LEVEL . Aber dann bleibt die Frage, was der Unterschied zwischen der 3-Skala und der 1-Intervall-Frage ist. Dies sollte jedoch ausreichen, um Ihre Frage effektiv zu beantworten.
Andy W
2
Der einzige Rat, den ich geben könnte, ist, dass die Vorhersage der Änderungswerte in der Regel viel schwieriger ist als die Vorhersage der Werte (daher ist es in vielen Situationen nicht überraschend, dass ein Tief R^2auftritt). Sehen Sie hier eine nette Diskussion über Pre-Post-Designs . Obwohl das Ihre Frage immer noch nicht beantwortet!
Andy W

Antworten:

2
  1. Ob Sie sowohl die Pre- als auch die Post-Scores oder die Differenzbewertung unterstellen sollten, hängt davon ab, wie Sie die Pre-Post-Differenz analysieren. Sie sollten sich bewusst sein, dass die Analyse von Differenzwerten legitime Einschränkungen aufweist (siehe Edwards, 1994, für eine schöne Übersicht), und dass ein Regressionsansatz, bei dem Sie den Rest für Nachbewertungen analysieren, nachdem Sie die Vorbewertungen kontrolliert haben, möglicherweise besser ist. In diesem Fall möchten Sie Pre- und Post-Scores unterstellen, da dies die Variablen sind, die in Ihrem Analysemodell enthalten sind. Wenn Sie jedoch beabsichtigen, Differenzwerte zu analysieren, setzen Sie die Differenzwerte unter, da es unwahrscheinlich ist, dass Sie Differenzwerte für alle unterstellten Datensätze manuell berechnen möchten. Mit anderen Worten, unabhängig davon, welche Variablen Sie in Ihrem tatsächlichen Analysemodell verwenden.
  2. Auch hier würde ich mit der transformierten Variablen rechnen, da dies in Ihrem analytischen Modell verwendet wird.
  3. Das Hinzufügen von Variablen zum Imputationsmodell erhöht die Rechenanforderungen des Imputationsprozesses, ABER wenn Sie Zeit haben, sind immer mehr Informationen besser. Variablen mit vollständigen Daten könnten möglicherweise sehr nützliche Hilfsvariablen zur Erklärung des Fehlens von MAR sein. Wenn die Verwendung all Ihrer Variablen zu einem zu hohen Zeit- / Rechenaufwand für ein Imputationsmodell führt (dh wenn Sie über einen großen Datensatz verfügen), erstellen Sie Dummy-Variablen für das Fehlen jedes Falls für jede Variable und prüfen Sie, welche vollständigen Variablen diese fehlenden Variablen in der Logistik vorhersagen Modelle - Nehmen Sie dann diese bestimmten vollständigen Fallvariablen in Ihr Imputationsmodell auf.
  4. Ich würde die ursprünglichen (dh listweise gelöschten) Analysen nicht melden. Wenn Ihr Fehlmechanismus MAR ist, gibt Ihnen MI nicht nur mehr Leistung, sondern auch genauere Schätzungen (Enders, 2010). Daher kann der signifikante Effekt bei MI bei listweiser Löschung nicht signifikant sein, da diese Analyse unzureichend, voreingenommen oder beides ist.

Verweise

Edwards, JR (1994). Regressionsanalyse als Alternative zu Differenzwerten. Journal of Management , 20 , 683 & ndash; 689.

Enders, CK (2010). Angewandte Analyse fehlender Daten . New York, NY: Guilford Press.

jsakaluk
quelle
1

Nach meiner Erfahrung ist die Imputationsfunktion von SPSS einfach zu verwenden, sowohl beim Erstellen von Datensätzen als auch beim Analysieren und Zusammenführen der resultierenden Imputationsdatensätze. Die Benutzerfreundlichkeit ist jedoch auch der Nachteil. Wenn Sie sich eine ähnliche Imputationsfunktion in der RStatistiksoftware ansehen (siehe zum Beispiel das micePaket), sehen Sie weitaus mehr Optionen. Auf der Website von Stef van Buurens finden Sie eine hervorragende Erklärung für die multiple Imputation im Allgemeinen (mit oder ohne Verwendung des Mäusepakets).

Es ist sehr wichtig zu beachten, dass diese zusätzlichen Optionen nicht nur für fortgeschrittene Benutzer eine Luxusoption darstellen . Einige sind wichtig, um eine ordnungsgemäße Kongenialität zu erreichen , bestimmte Modelle für bestimmte fehlende Variablen , bestimmte Prädiktoren für bestimmte fehlende Variablen , Imputationsdiagnose und mehr, die in der SPSS-Imputationsfunktion nicht verfügbar sind.

Zu Ihren Fragen:

  1. Die Imputation von Pre- und Post-Scores und das passive Ersetzen der fehlenden Unterschiede ist angemessen, wenn Sie die Beziehung zwischen den Pre- und Post-Scores und der Differenz (wie von jsakaluk beantwortet) beibehalten möchten. In Ihrem Fall kann dies der Fall sein, wenn Sie ein Modell mit dem Unterschied zwischen Vor- und Nachbewertung als Ergebnis / abhängige Variable und der Basislinie (Vorbewertung) als (einer der) Prädiktoren / unabhängigen Variablen erstellen möchten.
  2. Jedes Modell, das zum Ersetzen fehlender Werte verwendet wird, sollte seine Annahmen einhalten. Das heißt, um eine kontinuierliche Variable zu ersetzen, müssen Sie die Annahmen eines linearen Regressionsmodells einhalten (im einfachsten Fall). Für die lineare Regression und die meisten anderen Regressionsmodelle müssen die Prädiktorvariablen nicht normal verteilt sein, die Residuen des Modells müssen es jedoch sein! In letzterem Fall kann daher eine gewisse Transformation erforderlich sein.
  3. Siehe jsakaluks Antwort. Beachten Sie jedoch, dass SPSS eine massive Imputation verwendet , was im Grunde bedeutet, dass alle eingegebenen Variablen verwendet werden, um Variablen durch fehlende Fälle zu ersetzen. Wenn Sie nur eine Variable haben, die fehlt, ist dies kein Problem. Wenn Sie jedoch mehrere Variablen haben, bedeutet dies, dass die fehlenden Variablen auch verwendet werden, um die anderen fehlenden Variablen zu vervollständigen. Dies ist möglicherweise kein Problem, führt jedoch in einigen Fällen zu Rückkopplungsschleifen, die Ihre endgültigen Imputationswerte beeinflussen. Überprüfen Sie dies unbedingt, indem Sie während der Iterationen Ihrer Imputation nach Trends suchen, anstatt die ersetzten Werte zu "stabilisieren".
  4. Ich stimme der Antwort von jsakaluk in dieser Frage zu. Wenn Sie sich entschließen, Ihren vollständigen Daten zu "misstrauen", weil Sie den Verdacht auf selektive Fehler haben, und dies durch die Verwendung mehrerer Imputationstechniken (die meiner Meinung nach am wenigsten voreingenommen sind) zu lösen oder teilweise zu beheben, sollten Ihre Ergebnisse der multiplen Imputation die Hauptergebnisse für Sie sein Show. Leider hat die Erfahrung gezeigt, dass Gutachter oder andere interessierte Personen manchmal auch vollständige Fallanalysen sehen möchten (halten Sie sie also bereit).
IWS
quelle