Wann kann Korrelation ohne Ursache nützlich sein?

27

Ein Lieblingsspruch vieler Statistiker lautet: "Korrelation impliziert keine Kausalität." Dies ist sicherlich wahr, aber eine Sache, die hier impliziert zu sein scheint, ist, dass Korrelation wenig oder keinen Wert hat. Ist das wahr? Ist es sinnlos zu wissen, dass zwei Variablen miteinander korrelieren?

Ich kann mir nicht vorstellen, dass dies der Fall ist. Ich kenne mich mit Vorhersageanalysen nicht so gut aus, aber es scheint, als wäre Xes ein Prädiktor dafür Y, zukünftige Werte Ybasierend auf vorherzusagen X, unabhängig von der Kausalität.

Bin ich falsch darin, den Wert in der Korrelation zu sehen? Und wenn nicht, in welchen Situationen könnte ein Statistiker oder Datenwissenschaftler die Korrelation ohne Ursache verwenden?

Indigenität
quelle
5
Meiner Meinung nach wird der Ausdruck "Kausalität impliziert keine Korrelation" oft missbraucht, um zu implizieren, dass Statistiken nicht immer vertrauenswürdig sind (wahr, aber nicht immer aufgrund mangelnder Kausalität). Ich werde so ärgerlich, wenn ich sehe, dass Leute diesen Satz fallen lassen, um zu erklären, warum eine Vorhersage falsch ist. Beispielsweise ist facebook.com/notes/mike-develin/debunking-princeton/… ein großartiges Beispiel für eine schreckliche Analyse UND für ein schreckliches Debunking einer schrecklichen Analyse.
Cliff AB
10
Angenommen, Sie stellen fest, dass das Leben in einer bestimmten Stadt mit dem frühen Tod zusammenhängt. Sie können nicht den Schluss ziehen, dass das Leben in dieser Stadt einen frühen Tod zur Folge hat, und dass das Verlassen dieser Stadt ihnen auch helfen würde, länger zu leben. (Vielleicht ist die Stadt aus irgendeinem Grund für kranke Menschen attraktiv.) Aber wenn Sie ein Versicherungsmathematiker sind, wäre es völlig gerechtfertigt, Mitgliedern dieser Stadt höhere Lebensversicherungsprämien in Rechnung zu stellen - die Kenntnis dieses Zusammenhangs könnte für Sie sehr wertvoll sein Sie.
Nate Eldredge
2
Im Süden Englands, @NateEldredge, sterben mehr Menschen. Das liegt daran, dass sich die Leute dort zurückziehen.
TRiG,
1
Das Fehlen einer Korrelation ist wohl bedeutungsvoller.
Raphael
Obligatorische xkcd-Referenz: xkcd.com/552
vsz

Antworten:

32

Die Korrelation (oder ein anderes Maß für die Assoziation) ist für die Vorhersage unabhängig von der Ursache nützlich. Angenommen, Sie messen eine eindeutige, stabile Zuordnung zwischen zwei Variablen. Dies bedeutet, dass Sie durch die Kenntnis des Pegels einer Variablen auch Informationen über eine andere interessierende Variable erhalten, mit deren Hilfe Sie eine Variable als Funktion der anderen vorhersagen und vor allem basierend auf dieser Vorhersage Maßnahmen ergreifen können . Das Ergreifen von Maßnahmen umfasst das Ändern einer oder mehrerer Variablen, z. B. beim Abgeben einer automatisierten Empfehlung oder beim Einsetzen eines medizinischen Eingriffs. Natürlich könnten Sie bessere Vorhersagen treffen und effektiver handeln, wenn Sie mehr Einblick in die direkten oder indirekten Beziehungen zwischen zwei Variablen hätten. Diese Einsicht kann andere Variablen umfassen, einschließlich räumlicher und zeitlicher.

Dreistes Gleichgewicht
quelle
4
Korrelationen sind für die Vorhersage nicht immer nützlich. In Fällen der umgekehrten Verursachung gibt es wichtige zeitliche Aspekte, auf die nicht immer Einfluss genommen werden kann. Wir haben die ganze Zeit mit Alzheimer zu kämpfen. Wir schlagen ständig mit dem Kopf gegen die Wand, um zu erkennen, ob die Biomarker, die wir in AD finden, das Gehirn betreffen , das die Krankheit verursacht oder durch die Krankheit verursacht wird .
AdamO
1
@AdamO Ich denke, meine Antwort deckt diese Basis in den letzten ein oder zwei Sätzen ab, also bin ich nicht anderer Meinung als Sie.
Dreistes Gleichgewicht
1
Das Problem mit der Kausalität tritt tatsächlich nur auf, wenn Sie versuchen, Ihr Vorhersagemodell zu interpretieren. (Das ist es natürlich, was uns oft in der Wissenschaft interessiert). Wenn wir sehen, dass Biomarker Aein sehr guter Prädiktor ist, ist es sehr verlockend zu behaupten, dass dies auch die Ursache der Krankheit ist - und wie in den Kommentaren erwähnt, ist es sehr leicht, zu falschen Schlussfolgerungen zu kommen. Wenn wir nur Vorhersagen treffen möchten, z. B. ob ein Patient an der Krankheit leidet oder nicht, gibt es keine Probleme mit Korrelationen.
cel
1
Dies ist falsch und hier ist nur ein Beispiel warum. Wenn Sie auf Ihre Vorhersagen reagieren, indem Sie eine Variable ändern und erwarten, dass sich auch das Ziel ändert, aber tatsächlich kein direkter Zusammenhang besteht oder der Kausalzusammenhang in die andere Richtung geht, werden Sie die falschen Maßnahmen ergreifen. Und bevor Sie sagen, "aber in diesem Beispiel interpretieren Sie das Modell", sage ich, "in welchem ​​Szenario würden Sie NICHT auf ein Modell schließen, das für die Vorhersage gedacht ist?" Antwort: Wenn Sie den Kausalzusammenhängen, die Ihr Modell impliziert, nicht sehr vertrauen.
Dreistes Gleichgewicht
1
@BrashEquilibrium: Es gibt viele Möglichkeiten, auf eine Vorhersage zu reagieren, ohne die Variablen zu ändern, mit denen die Vorhersage erstellt wurde. Möchten Sie wissen, ob Sie in Ihrem Geschäft Wollhandschuhe kaufen sollten? Zu wissen, wie viel Eis Sie in letzter Zeit verkauft haben, könnte (natürlich ohne direktere Datenquellen) einen guten Prognosefaktor darstellen.
Ilmari Karonen
17

Hier gibt es bereits viele gute Punkte. Lassen Sie mich Ihre Behauptung auf den Punkt bringen, dass "wenn Xein Prädiktor von ist Y, es nützlich wäre, zukünftige Werte Ybasierend auf X, unabhängig von der Kausalität, vorherzusagen ". Sie haben Recht: Wenn Sie nur ein Unbekanntes vorhersagen wollenY Wert aus einem bekannten XWert und einer bekannten, stabilen Beziehung der Kausalzustand dieser Beziehung irrelevant. Berücksichtige das:

  • Sie können einen Effekt aus einer Ursache vorhersagen. Das ist intuitiv und unumstritten.
  • Sie können eine Ursache auch aus der Kenntnis einer Wirkung vorhersagen. Einige, aber nur sehr wenige Menschen, die an Lungenkrebs erkranken, haben nie geraucht. Wenn Sie wissen, dass jemand an Lungenkrebs leidet, können Sie daher mit gutem Gewissen vorhersagen, dass er / sie geraucht hat / hat, obwohl das Rauchen ursächlich ist und Krebs die Wirkung hat. Wenn das Gras im Hof ​​nass ist und der Sprinkler nicht läuft, können Sie vorhersagen, dass es geregnet hat, obwohl Regen die Ursache und nasses Gras nur die Wirkung ist. Etc.
  • Sie können einen unbekannten Effekt auch aus einem bekannten Effekt derselben Ursache vorhersagen. Wenn zum Beispiel Billy und Bobby eineiige Zwillinge sind und ich Billy noch nie getroffen habe, aber ich weiß, dass Bobby 5 '10' (178 cm) ist, kann ich voraussagen, dass Billy trotz der Tatsache auch 178 cm groß ist Weder Billys Größe verursacht Bobbys Größe, noch Bobbys Größe verursacht Billys Größe.
gung - Wiedereinsetzung von Monica
quelle
7
Um Ihren Kategorien Namen zu geben: Ihre drei Arten der Vorhersage heißen (in der Reihenfolge) Abzug , Abduktion und Induktion .
Neil G
12

Die Bedeutung der Korrelation wird nicht in den Schatten gestellt. Es ist nur so, dass die Tendenz besteht, Korrelation als Kausalität zu interpretieren.

Nehmen Sie das Stillen als perfektes Beispiel. Mütter interpretieren die Ergebnisse (Beobachtungsstudien) zum Stillen fast immer als einen Hinweis darauf, ob sie tatsächlich stillen sollen oder nicht. Es ist richtig, dass Säuglinge, die gestillt werden, im Durchschnitt in der Regel gesündere Erwachsene sind, auch wenn sie das longitudinale mütterliche und väterliche Alter, den sozioökonomischen Status usw. kontrolliert haben. Dies bedeutet jedoch nicht, dass das Stillen allein für den Unterschied verantwortlich ist spielen teilweise eine Rolle bei der frühen Entwicklung der Appetitregulation. Die Beziehung ist sehr komplex und man kann leicht über eine ganze Reihe von Vermittlungsfaktoren spekulieren, die den beobachteten Unterschieden zugrunde liegen könnten.

Viele Studien konzentrieren sich auf Assoziationen, um ein tieferes Verständnis der Vorgänge zu gewährleisten. Korrelation ist nicht nutzlos, sie liegt nur einige Schritte unter der Kausalität, und man muss bedenken, wie Ergebnisse gemeldet werden, um Fehlinterpretationen von Nichtfachleuten zu vermeiden.

AdamO
quelle
9

Sie haben Recht, dass Korrelation nützlich ist. Der Grund, warum Kausalmodelle besser sind als Assoziationsmodelle, ist, wie Pearl sagt, dass sie Orakel für Interventionen sind. Mit anderen Worten, sie ermöglichen es Ihnen, hypothetisch zu argumentieren. Ein Kausalmodell beantwortet die Frage: "Wenn ich X möglich machen würde, was würde mit Y geschehen?"

Aber Sie müssen nicht immer hypothetisch argumentieren. Wenn Ihr Modell nur zur Beantwortung von Fragen wie "Wenn ich X beobachte, was weiß ich über Y?" Verwendet wird, ist ein Assoziationsmodell alles, was Sie benötigen.

Neil G
quelle
3
Oracles For Interventions wäre ein guter Name für eine Band.
Malvolio,
@Malvolio: lol, es ist eine unvergesslich prägnante Art, Kausalmodelle zu beschreiben. Ich mag diesen Satz wirklich.
Neil G
4

Sie haben Recht, dass die Korrelation für die Vorhersage nützlich ist. Dies ist auch hilfreich, um das zu untersuchende System besser zu verstehen.

Ein Fall, in dem Kenntnisse über den Kausalmechanismus erforderlich sind, besteht darin, dass die Zielverteilung manipuliert wurde (z. B. wurden einige Variablen "gezwungen", bestimmte Werte anzunehmen). Ein Modell, das nur auf Korrelationen basiert, wird schlecht abschneiden, während ein Modell, das kausale Informationen verwendet, viel besser abschneiden sollte.

George
quelle
2

Korrelation ist ein nützliches Werkzeug, wenn Sie ein zugrunde liegendes Modell haben, das die Kausalität erklärt.

Wenn Sie beispielsweise wissen, dass das Anwenden einer Kraft auf ein Objekt dessen Bewegung beeinflusst, können Sie die Korrelation zwischen Kraft und Geschwindigkeit sowie Kraft und Beschleunigung messen. Die stärkere Korrelation (mit der Beschleunigung) erklärt sich von selbst.

In Beobachtungsstudien kann die Korrelation bestimmte häufig vorkommende Muster (wie angegebenes Stillen und späterer Gesundheitszustand) aufdecken, die eine Grundlage für weitere wissenschaftliche Untersuchungen durch geeignete Versuchspläne bilden können, die die Kausalität bestätigen oder ablehnen können (z. B. statt Stillen als Ursache) die Konsequenz für einen bestimmten kulturellen Rahmen).

Korrelation kann also nützlich sein, kann aber selten schlüssig sein.

Alexander Radev
quelle
2

Wie Sie bereits sagten, ist die Korrelation allein von großem Nutzen, vor allem die Vorhersage.

EINBEINB .

Zum Beispiel sind all diese Studien, die zeigen, dass starker Kaffeekonsum bei älteren Menschen mit gesünderen Herz-Kreislauf-Systemen zusammenhängt, meines Erachtens zweifellos von Menschen motiviert, die ihre Gewohnheiten für starken Kaffee rechtfertigen wollen. Zu sagen, Kaffeetrinken sei nur mit einem gesünderen Herzen verbunden und nicht mit Kausalität, ist keine Antwort auf unsere eigentliche Frage des Interesses: Werden wir gesünder, wenn wir mehr Kaffee trinken oder wenn wir kürzen? Es kann sehr frustrierend sein, sehr interessante Ergebnisse zu finden (Kaffee ist mit gesünderen Herzen verbunden!), Aber nicht in der Lage zu sein, diese Informationen für Entscheidungen zu verwenden (ich weiß immer noch nicht, ob Sie Kaffee trinken sollten, um gesünder zu sein), und so gibt es fast immer eine Versuchung, Korrelation als Kausalität zu interpretieren.

Es sei denn, Sie interessieren sich nur für Glücksspiele (dh Sie möchten vorhersagen, aber nicht beeinflussen).

Cliff AB
quelle
2

Es gibt einen Wert in der Korrelation, aber man sollte sich mehr Beweise ansehen, um auf die Ursache schließen zu können.

Vor Jahren gab es eine Studie, die zu "Kaffee verursacht Krebs" führte. Sobald ich das in den Nachrichten hörte, sagte ich meiner Frau "falsche Korrelation". Es stellte sich heraus, dass ich Recht hatte. Die Kaffeebevölkerung mit 2-3 Tassen pro Tag rauchte häufiger als die Nichtkaffeetrinker. Sobald die Datensammler dies herausgefunden hatten, zogen sie ihre Ergebnisse zurück.

Eine weitere interessante Studie vor dem Immobilienboom und der Immobilienpleite zeigte Rassismus bei der Bearbeitung von Hypotheken. Die Behauptung lautete, dass schwarze Bewerber häufiger abgelehnt wurden als weiße. Eine andere Studie befasste sich jedoch mit Ausfallraten. Schwarze Hausbesitzer waren mit der gleichen Rate wie Weiße in Verzug. Wenn die Schwarzapplikation auf einem höheren Standard gehalten würde, wäre ihre Ausfallrate tatsächlich viel niedriger. Hinweis: Diese Anekdote wurde von Autor Thomas Sowell in seinem Buch The Housing Boom and Bust geteilt

Mit Data Mining können problemlos zwei Datensätze erstellt werden, die eine hohe Korrelation aufweisen, jedoch für Ereignisse, die möglicherweise nicht miteinander in Beziehung stehen. Am Ende ist es am besten, Studien, die dir geschickt werden, mit einem sehr kritischen Auge zu betrachten. Das Auffinden falscher Korrelationen ist nicht immer einfach, es ist ein erworbenes Talent.

JTP - Entschuldige dich bei Monica
quelle
Ich habe es genossen, diese Antwort zu lesen. Es scheint jedoch, um die Umkehrung der Frage anzusprechen: "Ist es nutzlos zu wissen, dass zwei Variablen korreliert sind? ... In welchen Situationen könnte ein Statistiker oder ein Datenwissenschaftler die Korrelation ohne Kausalität verwenden?"
Whuber
1
"Schwarze Hausbesitzer sind mit der gleichen Rate wie Weiße in Verzug geraten. Wenn die Schwarzanwendung auf einem höheren Standard gehalten würde, wäre ihre Standardrate tatsächlich viel niedriger." springt zu Schlussfolgerungen. Es ist genau dieses Problem; Schwarze Antragsteller werden sich statistisch von weißen Antragstellern unterscheiden, und wenn mehr Schwarze zu einer Gruppe gehören, die mit größerer Wahrscheinlichkeit den Ausfall von Hypotheken akzeptieren, würden schwarze Antragsteller mit der gleichen Ausfallquote eine Diskriminierung anzeigen. Störende Effekte herauszufiltern ist schwierig.
Prosfilaes
Wie ich bereits sagte, stammte die Anekdote von einem bekannten schwarzen Gelehrten. Und es dauerte weit mehr, als ein Absatz in dem Buch, auf das ich mich bezog, zu diskutieren.
JTP - Entschuldigen Sie sich bei Monica
1

Korrelation ist ein beobachtbares Phänomen. Sie können es messen. Sie können auf diese Messungen einwirken. Allein kann es nützlich sein.

Wenn Sie jedoch nur eine Korrelation haben, können Sie nicht garantieren, dass eine von Ihnen vorgenommene Änderung tatsächlich durchgeführt wird Auswirkungen hat (siehe die berühmten Grafiken, die den Aufstieg von iPhones mit der Sklaverei in Übersee und dergleichen in Verbindung bringen). Es zeigt nur, dass es dort eine Korrelation gibt, und wenn Sie die Umgebung optimieren (indem Sie handeln), kann diese Korrelation immer noch vorhanden sein.

Dies ist jedoch ein sehr subtiler Ansatz. In vielen Szenarien möchten wir ein weniger subtiles Werkzeug haben: die Kausalität. Kausalität ist eine Korrelation in Verbindung mit der Behauptung, dass man erwarten sollte, wenn man seine Umgebung auf die eine oder andere Weise verändert die Korrelation weiterhin besteht . Dies ermöglicht eine längerfristige Planung, beispielsweise die Verkettung von 20 oder 50 kausalen Ereignissen in einer Reihe, um ein nützliches Ergebnis zu ermitteln. Dies mit 20 oder 50 Korrelationen zu tun, hinterlässt oft ein sehr verschwommenes und trübes Ergebnis.

Betrachten Sie als Beispiel dafür, wie nützlich sie in der Vergangenheit waren, die westliche Wissenschaft im Vergleich zur traditionellen chinesischen Medizin (TCM). Die westliche Wissenschaft konzentriert sich hauptsächlich auf "Entwickeln Sie eine Theorie, isolieren Sie einen Test, der die Theorie demonstrieren kann, führen Sie den Test durch und dokumentieren Sie die Ergebnisse." Dies beginnt mit "Entwickeln einer Theorie", die in hohem Maße mit der Kausalität verbunden ist. TCM drehte es herum und begann mit "Entwickeln eines Tests, der nützliche Ergebnisse liefern kann, Ausführen des Tests und Identifizieren von Korrelationen in der Antwort". Der Fokus liegt mehr auf Korrelationen.

Heutzutage tendieren Westler dazu, fast ausschließlich in Begriffen der Kausalität zu denken, weshalb es schwieriger ist, den Wert des Studiums der Korrelation auszuspionieren. Wir finden es jedoch in jedem Winkel unseres Lebens. Und vergessen Sie nie, dass Korrelationen auch in der westlichen Wissenschaft ein wichtiges Instrument sind, um herauszufinden, welche Theorien es wert sind, erforscht zu werden!

Cort Ammon - Setzen Sie Monica wieder ein
quelle