Schwellenwert für den Korrelationskoeffizienten zur Angabe der statistischen Signifikanz einer Korrelation in einer Korrelationsmatrix

10

Ich habe eine Korrelationsmatrix eines Datensatzes berechnet, der 455 Datenpunkte enthält, wobei jeder Datenpunkt 14 Merkmale enthält. Die Dimension der Korrelationsmatrix beträgt also 14 x 14.

Ich habe mich gefragt, ob es einen Schwellenwert für den Wert des Korrelationskoeffizienten gibt, der darauf hinweist, dass zwischen zwei dieser Merkmale eine signifikante Korrelation besteht.

Ich habe einen Wert zwischen -0,2 und 0,85 und dachte, dass die wichtigsten diejenigen sind, die über 0,7 liegen.

  • Gibt es einen allgemeinen Wert für den Korrelationskoeffizienten, der für den Schwellenwert berücksichtigt werden sollte, oder ist er nur kontextabhängig von dem Datentyp, den ich untersuche?
Simon
quelle
1
Haben Sie stats.stackexchange.com/questions/5750/… überprüft ?
user603
@ user603 Guter Fang: Es ist praktisch die gleiche Frage. Die Neuerung besteht darin, zu fragen, ob Tests auf signifikante Korrelation vom "Datentyp" abhängen könnten (sprich: Datenverteilung). Hoffen wir, dass sich die Antworten auf diesen Aspekt konzentrieren, anstatt über alten Boden zu gehen.
whuber

Antworten:

8

Signifikanztests für Korrelationen

Es gibt Tests von statistischer Signifikanz, die auf einzelne Korrelationen angewendet werden können, die die Wahrscheinlichkeit angeben, eine Korrelation zu erhalten, die größer oder größer als die Stichprobenkorrelation ist, vorausgesetzt, die Nullhypothese ist wahr.

Der entscheidende Punkt ist, dass das, was einen statistisch signifikanten Korrelationskoeffizienten ausmacht, abhängt von:

  • Stichprobengröße : Größere Stichprobengrößen führen zu kleineren Schwellenwerten
  • Alpha : Oft auf 0,05 eingestellt, führen kleinere Alphas zu höheren Schwellenwerten für die statistische Signifikanz
  • einseitiger / zweiseitiger Test : Ich vermute, dass Sie einen zweiseitigen Test verwenden würden, daher spielt dies wahrscheinlich keine Rolle
  • Art des Korrelationskoeffizienten : Ich vermute, Sie verwenden Pearson's
  • Verteilungsannahmen von x und y

Unter normalen Umständen, wenn Alpha 0,05 ist, unter Verwendung eines zweiseitigen Tests mit Pearson-Korrelation, und wenn Normalität mindestens eine angemessene Annäherung ist, ist der Hauptfaktor, der den Grenzwert beeinflusst, die Stichprobengröße.

Schwelle von Bedeutung

Eine andere Möglichkeit, Ihre Frage zu interpretieren, besteht darin, zu berücksichtigen, dass Sie nicht daran interessiert sind, ob eine Korrelation statistisch signifikant ist, sondern ob sie praktisch wichtig ist.

Einige Forscher haben Faustregeln zur Interpretation der Bedeutung von Korrelationskoeffizienten angeboten, aber diese Faustregeln sind domänenspezifisch.

Multiple Signifikanzprüfung

Da Sie jedoch daran interessiert sind, signifikante Korrelationen in einer Matrix zu kennzeichnen, ändert dies den inferentiellen Kontext. Sie haben Korrelationen, wobei die Anzahl der Variablen ist (dh Wenn die Nullhypothese für alle Korrelationen in der Matrix wahr wäre, dann führen Sie mehr Signifikanztests durch Je wahrscheinlicher es ist, dass Sie einen Fehler vom Typ I machen. In Ihrem Fall würden Sie beispielsweise durchschnittlich Fehler vom Typ I machen, wenn die Nullhypothese für alle Korrelationen wahr wäre.k 14 ( 13 ) / 2 = 91 91 0,05 = 4,55k(k1)/2k14(13)/2=9191.05=4.55

Wie @ user603 hervorgehoben hat, wurden diese Probleme in dieser früheren Frage ausführlich erörtert .

Im Allgemeinen finde ich es nützlich, wenn ich eine Korrelationsmatrix interpretiere, um mich auf eine übergeordnete Struktur zu konzentrieren. Dies kann auf informelle Weise erfolgen, indem allgemeine Muster in der Korrelationsmatrix betrachtet werden. Dies kann formal mithilfe von Techniken wie PCA und Faktoranalyse erfolgen. Solche Ansätze vermeiden viele der Probleme, die mit dem Testen mehrerer Signifikanzen verbunden sind.

Jeromy Anglim
quelle
1

Eine Option wäre Simulation oder Permutationstest. Wenn Sie die Verteilung kennen, aus der Ihre Daten stammen, können Sie diese Verteilung simulieren, wobei jedoch alle Beobachtungen unabhängig sind. Wenn Sie die Verteilung nicht kennen, können Sie jede Ihrer Variablen unabhängig voneinander permutieren. Dadurch erhalten Sie die gleiche allgemeine Randverteilung für jede Variable, wobei jedoch jede Korrelation entfernt wird.

Führen Sie einen der oben genannten Schritte (wobei die Stichprobengröße und die Matrixabmessungen gleich bleiben) einige Male (etwa 10.000) aus und betrachten Sie die maximale absolute Korrelation oder ein anderes hohes Quantil, das von Interesse sein kann. Dies gibt Ihnen die Verteilung aus der Nullhypothese, mit der Sie dann das Maximum Ihrer tatsächlich beobachteten Korrelationen (und der anderen interessierenden hohen Quantile) vergleichen können.

Greg Snow
quelle
0

Sie können zeigen, dass der Standardfehler in der Pearson-Korrelation von zwei stochastisch unabhängigen Vektoren, die aus der Normalverteilung abgetastet wurden, , wobei die Länge des Vektors ist. Eine statistisch signifikante Korrelation zweier Vektoren hätte also eine Korrelation n c o r r > > n - 2n2ncorr>>n2

Hrobjartur
quelle