Ich hoffe, die Ergebnisse einer ziemlich einfachen Analyse zusammenfassen zu können, die mit mehrfach unterstellten Daten durchgeführt wurde (z. B. multiple Regression, ANOVA). Die mehrfache Imputation und die Analysen wurden in SPSS abgeschlossen, aber SPSS liefert keine gepoolten Ergebnisse für einige Statistiken, einschließlich F-Wert, Kovarianzmatrix, R-Quadrat usw.
Ich habe einige Versuche unternommen, um dieses Problem zu beheben, indem ich mich in R gewagt habe oder Makros ausprobiert habe, die verfügbar sind und das Problem nicht erfolgreich gelöst haben (z. B. Probleme beim Poolen der Statistiken für mehr als 5 Imputationen in Mäusen).
An dieser Stelle möchte ich versuchen, diese von Hand unter Anwendung der Rubin-Regel unter Verwendung der von SPSS generierten Ausgabe zu berechnen. Ich bin mir jedoch nicht sicher, wie ich die Varianz innerhalb der Imputation ( ) basierend auf der von SPSS erzeugten Ausgabe .
Ich würde mich sehr über eine ausführliche Anleitung dazu freuen.
quelle
Antworten:
Rubins Regeln können nur auf Parameter angewendet werden, die einer Normalverteilung folgen. Für Parameter mit einer F- oder Chi-Quadrat-Verteilung wird ein anderer Satz von Formeln benötigt:
Für die Durchführung einer ANOVA für mehrere unterstellte Datensätze können Sie das R-Paket miceadds ( pdf ;
miceadds::mi.anova
) verwenden.Update 1
Hier ist ein vollständiges Beispiel:
Exportieren Sie Ihre Daten von SPSS nach R. Speichern Sie in Spss Ihren Datensatz als .csv
Lesen Sie Ihren Datensatz ein:
Nehmen wir an, dassr e a di n g Ihre abhängige Variable ist und dass Sie zwei Faktoren haben
Lassen Sie uns sie nun in Faktoren umwandeln:
Konvertieren Sie Ihren Datensatz in ein Mittenobjekt. Wir gehen davon aus, dass die erste Variable die Imputationsnummer enthält (Imputation_ in SPSS):
Jetzt können Sie eine ANOVA durchführen:
Update 2 Dies ist eine Antwort auf Ihren zweiten Kommentar:
Was Sie beschreiben , ist hier eine Daten - Import / Export verwandtes Problem zwischen SPSS und R. Sie könnten versuchen , die zu importierende
.sav
Datei direkt in R und es gibt eine Reihe von speziellen Paketen für das:foreign
,rio
,gdata
,Hmisc
, usw. Ich ziehe die csv-Wege , aber das ist Geschmackssache und / oder hängt von der Art Ihres Problems ab. Vielleicht sollten Sie auch einige Tutorials auf Youtube oder anderen Quellen im Internet lesen.Update 3 Dies ist eine Antwort auf Ihren ersten Kommentar:
Ja, Sie können Ihre Analyse in SPSS durchführen und die F-Werte in bündeln
miceadds
(bitte beachten Sie, dass dieses Beispiel von dermiceadds::micombine.F
Hilfeseite stammt):quelle
$<-.data.frame
*tmp*
Sie haben den gepoolten Schätzer korrekt notiert:
Rubins Regeln verwenden das Gesetz der Gesamtvarianz , um die Varianz als die Summe einer zwischen und innerhalb der Imputationsvarianz aufzuschreiben:
Da die empfohlene Anzahl von Imputationen gering ist (Rubin schlägt nur 5 vor), ist es normalerweise möglich, diese Anzahl durch manuelles Anpassen jeder Analyse zu berechnen. Ein Beispiel von Hand ist unten aufgeführt:
Gibt die folgende Ausgabe:
Die innere Varianz ist also der Durchschnitt der imputationsspezifischen Punktschätzungsvarianzen: 3,8 (Durchschnitt der zweiten Spalte). Die Zwischenvarianz beträgt 0,35 Varianz der ersten Spalte. Mit der DF-Korrektur erhalten wir die Varianz 4.23. Dies stimmt mit dem
pool
immice
Paket angegebenen Befehl überein .Dies zeigt die SE = 2,057 für den Modellkoeffizienten (Varianz = SE ** 2 = 4,23).
Ich kann nicht erkennen, wie die Erhöhung der Anzahl der unterstellten Datensätze zu einem bestimmten Problem führt. Wenn Sie kein Beispiel für den Fehler angeben können, weiß ich nicht, wie ich hilfreicher sein kann. Die Kombination von Hand ist jedoch sicher für eine Vielzahl von Modellierungsstrategien geeignet.
In diesem Artikel werden andere Möglichkeiten erörtert, wie das Gesetz der Gesamtvarianz andere Schätzungen der Varianz der gepoolten Schätzung ableiten kann. Insbesondere weisen die Autoren (richtig) darauf hin, dass die notwendige Annahme für Rubins Regeln nicht die Normalität der Punktschätzungen ist, sondern etwas, das als Kongenialität bezeichnet wird. WRT-Normalität, die meisten Punktschätzungen, die aus Regressionsmodellen stammen, weisen unter dem zentralen Grenzwertsatz eine schnelle Konvergenz auf, und der Bootstrap kann Ihnen dies zeigen.
quelle
pool(fit)