Gibt es ein ernstes Problem beim Löschen von Beobachtungen mit fehlenden Werten bei der Berechnung der Korrelationsmatrix?

12

Ich habe diesen riesigen Datensatz mit ungefähr 2500 Variablen und ungefähr 142 Beobachtungen.

Ich möchte eine Korrelation zwischen Variable X und dem Rest der Variablen ausführen. Bei vielen Spalten fehlen jedoch Einträge.

Ich habe versucht, dies in R mit dem Argument "pairwise-complete" ( use=pairwise.complete.obs) zu tun, und es wurden eine Reihe von Korrelationen ausgegeben. Aber dann hat jemand auf StackOverflow einen Link zu diesem Artikel http://bwlewis.github.io/covar/missing.html gepostet , der die "paarweise vollständige" Methode in R unbrauchbar macht.

Meine Frage: Woher weiß ich, wann es angemessen ist, die Option "paarweise vollständig" zu verwenden?

Ich bin use = complete.obszurückgekehrt no complete element pairs. Wenn Sie also erklären könnten, was das auch bedeutet, wäre das großartig.

Stan Shunpike
quelle
4
Eine klassische Geschichte ist die Geschichte von Abraham Wald und die Frage, wo Flugzeuge im Zweiten Weltkrieg gepanzert werden sollen . Es ist wichtig zu verstehen, warum Ihre Daten fehlen.
Matthew Gunn

Antworten:

11

Das Problem mit Korrelationen zu paarweise vollständigen Beobachtungen

In dem von Ihnen beschriebenen Fall ist das Hauptproblem die Interpretation. Da Sie paarweise vollständige Beobachtungen verwenden, analysieren Sie tatsächlich leicht unterschiedliche Datensätze für jede der Korrelationen, je nachdem, welche Beobachtungen fehlen.

Betrachten Sie das folgende Beispiel:

a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA) 

Drei Variablen im Datensatz, a, b, und cjeder hat einige fehlende Werte. Wenn Sie hier Korrelationen für Variablenpaare berechnen, können Sie nur Fälle verwenden, in denen für beide fraglichen Variablen keine Werte fehlen. In diesem Fall bedeutet dies, dass Sie nur die letzten drei Fälle auf die Korrelation zwischen aund analysieren b, nur die ersten drei Fälle auf die Korrelation zwischen bund cusw.

Die Tatsache, dass Sie bei der Berechnung jeder Korrelation völlig unterschiedliche Fälle analysieren, bedeutet, dass das resultierende Korrelationsmuster unsinnig aussehen kann. Sehen:

> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289

Das sieht wie ein logischer Widerspruch --- aund bsind stark positiv korreliert, und bund csind stark positiv korreliert auch, so würden Sie erwarten , aund cpositiv als auch korreliert zu sein, aber es ist eigentlich eine starke Assoziation in die entgegengesetzte Richtung. Sie können sehen, warum viele Analysten das nicht mögen.

Bearbeiten, um nützliche Erläuterungen von whuber aufzunehmen:

Beachten Sie, dass ein Teil des Arguments davon abhängt, was "starke" Korrelation bedeuten könnte. Es ist durchaus möglich, dass aund bsowie bund c"stark positiv korreliert" werden, während zwischen aund eine "starke Assoziation in die entgegengesetzte Richtung" besteht c, aber nicht ganz so extrem wie in diesem Beispiel. Der Kern der Sache ist, dass die geschätzte Korrelations- (oder Kovarianz-) Matrix möglicherweise nicht positiv-eindeutig ist: So sollte man "stark" quantifizieren.

Das Problem mit der Art des Fehlens

Sie denken sich vielleicht: "Ist es nicht in Ordnung anzunehmen, dass die Teilmenge der Fälle, die ich für jede Korrelation zur Verfügung habe, mehr oder weniger dem gleichen Muster folgt, das ich erhalten würde, wenn ich vollständige Daten hätte?" Und ja, das stimmt - es ist nichts grundsätzlich Falsches daran, eine Korrelation für eine Teilmenge Ihrer Daten zu berechnen (obwohl Sie natürlich aufgrund der kleineren Stichprobengröße an Präzision und Leistung verlieren), solange die verfügbaren Daten zufällig sind Beispiel aller Daten, die dort gewesen wären, wenn Sie nicht gefehlt hätten.

Wenn das Fehlen rein zufällig ist , nennt man das MCAR (völlig zufällig fehlend). In diesem Fall wird die Analyse der Teilmenge der Daten, die nicht fehlen, Ihre Ergebnisse nicht systematisch beeinflussen, und es ist unwahrscheinlich (aber nicht unmöglich), das verrückte Korrelationsmuster zu erhalten, das ich im obigen Beispiel gezeigt habe.

Wenn Ihre Fehlzeiten in irgendeiner Weise systematisch sind (oft als MAR oder NI abgekürzt, wobei zwei verschiedene Arten systematischer Fehlzeiten beschrieben werden), haben Sie viel ernstere Probleme, sowohl hinsichtlich der möglichen Einführung von Verzerrungen in Ihre Berechnungen als auch hinsichtlich Ihrer Fähigkeit, Ihre zu verallgemeinern Ergebnisse für die interessierende Population (da die von Ihnen analysierte Stichprobe keine Zufallsstichprobe aus der Population ist, selbst wenn Ihr vollständiger Datensatz gewesen wäre).

Es gibt viele großen Ressourcen zur Verfügung , um zu erfahren fehlenden Daten und wie sie damit umgehen, aber meine Empfehlung ist Rubin: ein Klassiker , und ein jüngerer Artikel

Rose Hartman
quelle
2
einbbceinc
1
@whuber Danke, das ist ein wichtiger Punkt. Ich habe diesen Abschnitt der Antwort aktualisiert, um diese Klarstellung aufzunehmen.
Rose Hartman
7

Eine große Sorge ist, ob Daten auf systematische Weise fehlen, was Ihre Analyse beschädigen würde. Ihre Daten fehlen möglicherweise nicht zufällig.

Dies wurde in früheren Antworten erwähnt, aber ich dachte, ich würde ein Beispiel beisteuern.

Finanzbeispiel: Fehlende Renditen können schlechte Renditen sein

  • Im Gegensatz zu Investmentfonds sind Private-Equity-Fonds (und andere private Fonds) gesetzlich nicht verpflichtet, ihre Renditen an eine zentrale Datenbank zu melden.
  • Daher besteht ein Hauptanliegen darin, dass die Berichterstattung endogen ist, insbesondere, dass einige Unternehmen keine schlechten Renditen melden.
  • 1nichR.ichR.ich

In diesen Situationen ist nicht unbedingt alles verloren (es gibt Dinge, die Sie tun können), aber eine naive Regression (oder Berechnung von Korrelationen) für die nicht fehlenden Daten kann zu ernsthaft voreingenommenen, inkonsistenten Schätzungen der wahren Parameter in der Bevölkerung führen.

Matthew Gunn
quelle
4

Eine paarweise Korrelation ist angemessen, wenn Ihre fehlenden Daten "Missing Complete At Random" (MCAR) sind. Paul Allisons Missing Data- Buch ist ein guter Ausgangspunkt, um herauszufinden, warum.

Sie können dies mit dem im BaylorEdPsychPaket enthaltenen MCAR-Test von Little (1988) testen .

Tim
quelle
1
Es gibt immer noch Anlass zur Sorge: Selbst bei MCAR-Daten kann die über die paarweise Korrelation geschätzte Korrelationsmatrix nicht eindeutig positiv sein.
whuber
Sicher, aber die Frage nach der Korrelation erwähnt nicht die Verwendung der resultierenden Korrelationsmatrix als Eingabe für einen anderen Algorithmus. Und angesichts der Stichprobengröße ist MCAR sowieso ziemlich unwahrscheinlich.
Tim
1
Wenn die Matrix nicht positiv-definitiv ist, handelt es sich um eine ungültige Schätzung. Zumindest müssen wir uns über diese Inkonsistenz Sorgen machen. Ich fürchte, ich sehe nicht, wie die Wahrscheinlichkeit von MCAR (ein Mechanismus des Fehlens) mit der Stichprobengröße zusammenhängt.
whuber
Der Fragesteller interessiert sich für eine einzelne Zeile der Korrelationsmatrix. Haben Sie einen Beweis, der zeigt, dass die Korrelationen einer Zeile alle ungültig sind, wenn die Matrix nicht positiv-definitiv ist? Ich würde gerne einen Beweis dafür sehen und etwas Weisheit gewinnen. MCAR ist mit Daten aus der realen Welt im Allgemeinen ziemlich unwahrscheinlich. Bei einer großen Stichprobengröße steigt die Leistung des Little-Tests, sodass eine gute Chance besteht, die Nullhypothese von MCAR abzulehnen. Verstehen Sie mich hier nicht falsch: Ich würde niemals eine partielle Datenkorrelationsmatrix als Eingabe für eine multivariate Methode verwenden, aber darum geht es in der Frage nicht.
Tim
1
Lassen Sie mich klarstellen: Ich habe nicht behauptet, die Korrelationen seien "alle ungültig". I , dadurch gekennzeichnet , dass die Sammlung von Korrelationsschätzwerten (das heißt, die Matrix) sein kann ungültig. Das ist unbestreitbar (erfordert keinen Beweis), da nur eine Instanz einer ungültigen Schätzung angezeigt werden muss, die @RoseHartman bereits in diesem Thread durchgeführt hat. Ich werde Ihre Behauptung nicht bestreiten, dass MCAR unwahrscheinlich sein könnte - vorausgesetzt, es wird im persönlichen Sinne verstanden: Nach Ihrer Erfahrung ist MCAR mit den Arten von Daten, mit denen Sie vertraut sind, selten. Ich sehe nicht ein, wie Sie eine breitere Auslegung dieser Behauptung rechtfertigen können.
whuber