Ich habe mehrere hundert Messungen. Jetzt überlege ich mir, irgendeine Art von Software zu verwenden, um jede Maßnahme mit jeder Maßnahme in Beziehung zu setzen. Dies bedeutet, dass es Tausende von Korrelationen gibt. Darunter sollte (statistisch) eine hohe Korrelation bestehen, auch wenn die Daten vollständig zufällig sind (jede Messung hat nur etwa 100 Datenpunkte).
Wie kann ich die Informationen darüber, wie intensiv ich nach einer Korrelation gesucht habe, in eine Korrelation einbeziehen?
Ich bin in der Statistik nicht auf einem hohen Niveau, bitte nehmen Sie Kontakt mit mir auf.
R
auf diesem Computer benötigt 18 Sekunden, um 1000 Realisierungen der Nullpermutationsverteilung des maximalen Korrelationskoeffizienten für eine 300x
correl <- function(x, k=1) { n <- dim(x)[2] * (dim(x)[2]-1) / 2; v <- cor(x); sort(v[lower.tri(v)])[(n-k+1):n] }; sim <- replicate(1000, correl(apply(x,2,sample)))
Antworten:
Dies ist eine ausgezeichnete Frage, die eines klaren statistischen Denkers würdig ist, da sie einen subtilen, aber wichtigen Aspekt von Mehrfachtests erkennt.
Es gibt Standardmethoden zum Anpassen der p-Werte mehrerer Korrelationskoeffizienten (oder gleichwertig zum Erweitern ihrer Konfidenzintervalle), wie beispielsweise die Bonferroni- und Sidak-Methoden ( s . V ). Diese sind jedoch bei großen Korrelationsmatrizen aufgrund der inhärenten mathematischen Beziehungen, die zwischen den Korrelationskoeffizienten im Allgemeinen gelten müssen, viel zu konservativ. (Für einige Beispiele solcher Beziehungen siehe die aktuelle Frage und den folgenden Thread .) Eine der besten Methoden, um mit dieser Situation umzugehen, ist die Durchführung eines Permutations- (oder Resampling-) Tests. Dies ist bei Korrelationen einfach zu bewerkstelligen: Verwürfeln Sie bei jeder Testiteration einfach die Reihenfolge der Werte der einzelnen Felder nach dem Zufallsprinzip (wodurch die inhärente Korrelation zerstört wird) und berechnen Sie die vollständige Korrelationsmatrix neu. Führen Sie dies für mehrere tausend Iterationen (oder mehr) durch, und fassen Sie dann die Verteilungen der Einträge der Korrelationsmatrix zusammen, indem Sie beispielsweise ihre 97,5- und 2,5-Perzentile angeben: Diese dienen als gegenseitige symmetrische zweiseitige 95% -Konfidenzintervalle unter der Null Hypothese ohne Korrelation. (Wenn Sie dies zum ersten Mal mit einer großen Anzahl von Variablen tun, werden Sie erstaunt sein, wie hoch einige der Korrelationskoeffizienten sein können, auch wenn es keine inhärente Korrelation gibt.)
Wenn Sie die Ergebnisse unabhängig von Ihren Berechnungen melden, sollten Sie Folgendes einbeziehen:
Die Größe der Korrelationsmatrix ( dh wie viele Variablen Sie sich angesehen haben).
Wie Sie die p-Werte oder die "Signifikanz" eines der Korrelationskoeffizienten bestimmt haben ( z. B. unverändert gelassen, eine Bonferroni-Korrektur angewendet, einen Permutationstest durchgeführt oder was auch immer).
Gibt an, ob Sie alternative Korrelationsmaße wie die Spearman-Rangkorrelation untersucht haben . Wenn ja, geben Sie auch an, warum Sie die Methode ausgewählt haben, über die Sie tatsächlich berichten und die Sie verwenden.
quelle
Aus Ihrer Antwort auf die Frage von Peter Flom geht hervor, dass Sie möglicherweise besser mit Techniken bedient werden, die sich mit der Struktur auf höherer Ebene in Ihrer Korrelationsmatrix befassen.
Techniken wie Faktoranalyse, PCA, mehrdimensionale Skalierung und Clusteranalyse von Variablen können verwendet werden, um Ihre Variablen in Gruppen von relativ verwandten Variablen zu gruppieren.
Vielleicht möchten Sie auch theoretisch darüber nachdenken, welche Art von Struktur vorhanden sein sollte. Wenn Ihre Anzahl von Variablen groß und die Anzahl von Beobachtungen klein ist, verlassen Sie sich oft besser auf vorherige Erwartungen.
quelle
Dies ist ein Beispiel für mehrere Vergleiche. Es gibt eine große Literatur dazu.
Wenn Sie beispielsweise 100 Variablen haben, haben Sie 100 * 99/2 = 4950 Korrelationen.
Wenn die Daten nur Rauschen sind, würden Sie erwarten, dass 1 von 20 bei p = 0,05 signifikant ist. Das ist 247,5
Bevor Sie jedoch weitermachen, wäre es gut, wenn Sie sagen könnten, WARUM Sie dies tun. Was sind diese Variablen, warum korrelieren Sie sie, was ist Ihre inhaltliche Idee?
Oder fischen Sie nur nach hohen Korrelationen?
quelle
Vielleicht könnten Sie eine vorläufige Analyse einer zufälligen Teilmenge der Daten durchführen, um Hypothesen zu bilden, und dann diese wenigen Hypothesen von Interesse unter Verwendung der restlichen Daten testen. Auf diese Weise müssten Sie nicht annähernd so viele Tests korrigieren. (Ich denke...)
Wenn Sie ein solches Verfahren anwenden, reduzieren Sie natürlich die Größe des Datensatzes, der für die endgültige Analyse verwendet wird, und reduzieren so Ihre Fähigkeit, echte Effekte zu finden. Korrekturen für mehrere Vergleiche verringern jedoch auch die Leistung, und ich bin mir nicht sicher, ob Sie notwendigerweise etwas verlieren würden.
quelle