Angenommen, Sie haben zwei Merkmale, die in einer bestimmten Population korrelieren, wie den BMI einer Person und ihren Blutdruck. Angenommen, ich möchte die Wahrscheinlichkeit abschätzen, dass bei einem zufällig ausgewählten Personenpaar aus dieser Population derjenige mit dem höheren BMI auch einen höheren Blutdruck aufweist. Wenn ich den Pearson-Korrelationskoeffizienten kenner (oder äquivalent r ^ 2, der Anteil der Varianz des Blutdrucks, der durch den BMI erklärt wird), kann dies verwendet werden, um diese Wahrscheinlichkeit zu erhalten? Wenn nicht, könnte ich dies mit einem anderen Korrelationsmaß tun oder indem ich eine vereinfachende Annahme über die funktionelle Beziehung zwischen ihnen mache (z. B. die Annahme, dass der Blutdruck bei jedem Individuum eine lineare Funktion des BMI ist, zusammen mit mehreren anderen unabhängigen Variablen) und / oder die individuelle Verteilung jedes Einzelnen (vorausgesetzt, sowohl der BMI als auch der Blutdruck sind normal verteilt)?
quelle
Antworten:
Nein - die Korrelation (und sogar die lineare Regressionsformel) zwischen zwei Merkmalen zu kennen, reicht nicht aus, um die Wahrscheinlichkeit vorherzusagen, dass ein höherer BMI einen höheren Blutdruck haben wird.
In Anscombes Quartett finden Sie ein visuelles Beispiel für vier unterschiedliche Verteilungen mit identischen Korrelationen und angepassten linearen Regressionslinien, um zu sehen, wohin Wahrscheinlichkeitsvorhersagen auf der Grundlage der Korrelation Sie in die Irre führen können.
Wenn Sie vereinfachende Annahmen treffen: dh eine lineare Beziehung zwischen BMI und Blutdruck und Normalverteilungen, dann können Sie Vorhersageintervalle für neue Messungen unter Verwendung der Gleichung der kleinsten Quadrate erstellen.
Bei der Arbeit mit realen Daten würde ich jedoch empfehlen, Annahmen über die Datenverteilung zu vermeiden. Eine bessere Alternative wäre die Verwendung von Bootstrapping zur Schätzung der kumulativen Verteilungsfunktion.
quelle
Es hängt davon ab, welche Populationskorrelation Sie betrachten.
Für die Pearson-Korrelation erwähnen Sie (ρ ) lautet die Antwort "nein", zumindest nicht ohne zusätzliche Annahmen. (Die Antwort von RobertF ist richtig)
Wenn Sie stattdessen die Populations- Kendall- Korrelation kennen ( Kendalls Tau , hier bezeichnetτK. ) In einer kontinuierlichen bivariaten Verteilung lautet die Antwort dann tatsächlich Ja.
Die Populations-Kendall-Korrelation ist die Differenz zwischen der Wahrscheinlichkeit eines konkordanten Paares und der Wahrscheinlichkeit eines nicht übereinstimmenden Paares:
(Die Stichproben-Kendall-Korrelation ist in ähnlicher Weise der Unterschied in den Stichprobenanteilen von übereinstimmenden und nicht übereinstimmenden Paaren).
Da in kontinuierlichen bivariaten PopulationenpC.+pD.= 1 , wenn du weißt τK. Sie können berechnen pC. ::
DaherpC.=12(τK.+ 1 ) , ein schönes einfaches Ergebnis.
WährendτK. bestimmt die Wahrscheinlichkeit, nach der Sie fragen (zumindest im kontinuierlichen Fall), die Beziehung zwischen ρ und τK. hängt von der Struktur der bivariaten Beziehung zwischen den Variablen (dh der Kopula ) ab.
Wenn Sie von einer bivariaten Normalität ausgehen, können Sie die (nichtlineare) Verbindung zwischen herausfindenτK. und ρ . In der Tat ist dies ein bekanntes Ergebnis; wir haben:
- siehe Abschnitt 5.3.2 von Embrechts et al. (2005) [1], deren Ergebnis auch an verschiedenen Stellen zu finden ist - zum Beispiel in Meyer (2009) [2]. Also in diesem Fall
(Eine Annahme einer bivariaten Normalität erscheint jedoch für den BMI und den Blutdruck zweifelhaft.)
Diese Beziehung zwischenτK. und ρ gilt eigentlich für elliptische Verteilungen allgemeiner. Siehe zum Beispiel Lindskog, McNeil & Schmock (2003) [3]. Diese Annahme für BMI und Blutdruck kann jedoch wiederum zweifelhaft sein - beispielsweise sind beide Maßnahmen in der Praxis tendenziell rechtwinklig.
[1] Embrechts, P., Frey, R., McNeil, AJ (2005),
Quantitatives Risikomanagement: Konzepte, Techniken, Werkzeuge ,
Princeton-Reihe in Finance, Princeton University Press
[2] Meyer, C. (2009),
The Bivariate Normal Copula ,
arXiv: 0912.2816v1 [math.PR] pdf (15. Dezember)
[3] Lindskog, F., McNeil, AJ, Schmock, U. (2003),
"Kendalls Tau für elliptische Verteilungen"
in: Kreditrisiko; Messung, Bewertung und Management , hrsg. G. Bol et al.,
Beiträge zur Wirtschaft, Physica-Verlag Heidelberg, S. 149–156.
(oder siehe http://www.macs.hw.ac.uk/~mcneil/ftp/KendallsTau.pdf )
quelle
Ich empfehle, die zu messenden Variablen zu erhöhen. Alter, Geschlecht, Ort usw. gewichten sie in Ihrer Formel, um die Wahrscheinlichkeit falsch negativer Ergebnisse zu verringern. Maximieren Sie Ihre ROC-Kurve. Es wäre interessant, ein Modell zu sehen, das bei verschiedenen Datensätzen über verschiedene Jahrzehnte hinweg die gleiche Korrelation beibehält.
quelle