Ich habe diesen riesigen Datensatz mit ungefähr 2500 Variablen und ungefähr 142 Beobachtungen.
Ich möchte eine Korrelation zwischen Variable X und dem Rest der Variablen ausführen. Bei vielen Spalten fehlen jedoch Einträge.
Ich habe versucht, dies in R mit dem Argument "pairwise-complete" ( use=pairwise.complete.obs
) zu tun, und es wurden eine Reihe von Korrelationen ausgegeben. Aber dann hat jemand auf StackOverflow einen Link zu diesem Artikel http://bwlewis.github.io/covar/missing.html gepostet , der die "paarweise vollständige" Methode in R unbrauchbar macht.
Meine Frage: Woher weiß ich, wann es angemessen ist, die Option "paarweise vollständig" zu verwenden?
Ich bin use = complete.obs
zurückgekehrt no complete element pairs
. Wenn Sie also erklären könnten, was das auch bedeutet, wäre das großartig.
quelle
Antworten:
Das Problem mit Korrelationen zu paarweise vollständigen Beobachtungen
In dem von Ihnen beschriebenen Fall ist das Hauptproblem die Interpretation. Da Sie paarweise vollständige Beobachtungen verwenden, analysieren Sie tatsächlich leicht unterschiedliche Datensätze für jede der Korrelationen, je nachdem, welche Beobachtungen fehlen.
Betrachten Sie das folgende Beispiel:
Drei Variablen im Datensatz,
a
,b
, undc
jeder hat einige fehlende Werte. Wenn Sie hier Korrelationen für Variablenpaare berechnen, können Sie nur Fälle verwenden, in denen für beide fraglichen Variablen keine Werte fehlen. In diesem Fall bedeutet dies, dass Sie nur die letzten drei Fälle auf die Korrelation zwischena
und analysierenb
, nur die ersten drei Fälle auf die Korrelation zwischenb
undc
usw.Die Tatsache, dass Sie bei der Berechnung jeder Korrelation völlig unterschiedliche Fälle analysieren, bedeutet, dass das resultierende Korrelationsmuster unsinnig aussehen kann. Sehen:
Das sieht wie ein logischer Widerspruch ---
a
undb
sind stark positiv korreliert, undb
undc
sind stark positiv korreliert auch, so würden Sie erwarten ,a
undc
positiv als auch korreliert zu sein, aber es ist eigentlich eine starke Assoziation in die entgegengesetzte Richtung. Sie können sehen, warum viele Analysten das nicht mögen.Bearbeiten, um nützliche Erläuterungen von whuber aufzunehmen:
Beachten Sie, dass ein Teil des Arguments davon abhängt, was "starke" Korrelation bedeuten könnte. Es ist durchaus möglich, dass
a
undb
sowieb
undc
"stark positiv korreliert" werden, während zwischena
und eine "starke Assoziation in die entgegengesetzte Richtung" bestehtc
, aber nicht ganz so extrem wie in diesem Beispiel. Der Kern der Sache ist, dass die geschätzte Korrelations- (oder Kovarianz-) Matrix möglicherweise nicht positiv-eindeutig ist: So sollte man "stark" quantifizieren.Das Problem mit der Art des Fehlens
Sie denken sich vielleicht: "Ist es nicht in Ordnung anzunehmen, dass die Teilmenge der Fälle, die ich für jede Korrelation zur Verfügung habe, mehr oder weniger dem gleichen Muster folgt, das ich erhalten würde, wenn ich vollständige Daten hätte?" Und ja, das stimmt - es ist nichts grundsätzlich Falsches daran, eine Korrelation für eine Teilmenge Ihrer Daten zu berechnen (obwohl Sie natürlich aufgrund der kleineren Stichprobengröße an Präzision und Leistung verlieren), solange die verfügbaren Daten zufällig sind Beispiel aller Daten, die dort gewesen wären, wenn Sie nicht gefehlt hätten.
Wenn das Fehlen rein zufällig ist , nennt man das MCAR (völlig zufällig fehlend). In diesem Fall wird die Analyse der Teilmenge der Daten, die nicht fehlen, Ihre Ergebnisse nicht systematisch beeinflussen, und es ist unwahrscheinlich (aber nicht unmöglich), das verrückte Korrelationsmuster zu erhalten, das ich im obigen Beispiel gezeigt habe.
Wenn Ihre Fehlzeiten in irgendeiner Weise systematisch sind (oft als MAR oder NI abgekürzt, wobei zwei verschiedene Arten systematischer Fehlzeiten beschrieben werden), haben Sie viel ernstere Probleme, sowohl hinsichtlich der möglichen Einführung von Verzerrungen in Ihre Berechnungen als auch hinsichtlich Ihrer Fähigkeit, Ihre zu verallgemeinern Ergebnisse für die interessierende Population (da die von Ihnen analysierte Stichprobe keine Zufallsstichprobe aus der Population ist, selbst wenn Ihr vollständiger Datensatz gewesen wäre).
Es gibt viele großen Ressourcen zur Verfügung , um zu erfahren fehlenden Daten und wie sie damit umgehen, aber meine Empfehlung ist Rubin: ein Klassiker , und ein jüngerer Artikel
quelle
Eine große Sorge ist, ob Daten auf systematische Weise fehlen, was Ihre Analyse beschädigen würde. Ihre Daten fehlen möglicherweise nicht zufällig.
Dies wurde in früheren Antworten erwähnt, aber ich dachte, ich würde ein Beispiel beisteuern.
Finanzbeispiel: Fehlende Renditen können schlechte Renditen sein
In diesen Situationen ist nicht unbedingt alles verloren (es gibt Dinge, die Sie tun können), aber eine naive Regression (oder Berechnung von Korrelationen) für die nicht fehlenden Daten kann zu ernsthaft voreingenommenen, inkonsistenten Schätzungen der wahren Parameter in der Bevölkerung führen.
quelle
Eine paarweise Korrelation ist angemessen, wenn Ihre fehlenden Daten "Missing Complete At Random" (MCAR) sind. Paul Allisons Missing Data- Buch ist ein guter Ausgangspunkt, um herauszufinden, warum.
Sie können dies mit dem im
BaylorEdPsych
Paket enthaltenen MCAR-Test von Little (1988) testen .quelle