Wenn Korrelation keine Kausalität impliziert, welchen Wert hat es dann, die Korrelation zwischen zwei Variablen zu kennen?

11

Angenommen, als Geschäftsinhaber (oder Marketingmitarbeiter oder jeder, der ein Streudiagramm versteht) wird ein Streudiagramm mit zwei Variablen angezeigt: Anzahl der Anzeigen im Vergleich zur Anzahl der Produktverkäufe pro Monat in den letzten 5 Jahren (oder eine andere Zeitskala, damit Sie habe mehr Proben. Ich habe mir gerade diese ausgedacht.

Jetzt sieht er / sie das Streudiagramm und erfährt, dass der Korrelationskoeffizient (corr) ist:

  1. 1 oder
  2. 0,5 oder
  3. 0,11 oder
  4. 0 oder
  5. -0,75 oder
  6. -1

Grundsätzlich jeder gültige Wert für corr

Frage: Was bedeutet dies überhaupt für einen Entscheidungsträger oder einen Verbraucher des Streudiagramms? Welche Entscheidungen kann man nur auf dieser Grundlage treffen?

Dh: Was nützt es, die Korrelation zwischen zwei Variablen zu sehen und was kann man mit diesen Informationen isoliert tun? Ist es nur zu sehen, was für die Einbeziehung in die Regressionsanalyse zu beachten ist und was nicht, oder gibt es eine praktischere Verwendung?

Nur neugierig, ich habe immer mit dieser Technik gearbeitet, aber mir wurde gesagt, dass Korrelation an sich nicht viel nützt - also was "IST" die Verwendung?

PhD
quelle

Antworten:

12

Ein paar Gedanken:

  • Der alte Canard darüber, dass Korrelation keine Kausalität ist, ist nur die halbe Wahrheit. Korrelation ist möglicherweise keine Kausalität, aber eine Form der Assoziation zwischen den beiden Variablen ist ein notwendiger Schritt auf dem Weg zur Darstellung der Kausalität, und Korrelation kann helfen, dies zu zeigen.
  • Es hilft, Trends aufzuzeigen. Zeigen Sie es einem Geschäftsinhaber, und er sagt möglicherweise: "Ja, das macht Sinn. Sie sehen, dass Widget X und Widget Y letztendlich von einer bestimmten Gruppe von Personen verwendet werden, obwohl sie nicht wirklich verwandt sind. Oder sie könnten sagen." "das ist ... seltsam", an diesem Punkt haben Sie weitere Untersuchungen veranlasst.
  • Schau es dir so an. Korrelation ist ein Werkzeug. Ein Hammer an sich ist gar nicht so nützlich. Es wird sicherlich kein Haus für sich bauen. Aber haben Sie jemals versucht, ein Haus ohne Hammer zu bauen ?
Fomite
quelle
5
In Ihrer ersten Kugel sagen Sie, dass Korrelation eine notwendige Bedingung für die Verursachung ist - das ist nicht wahr. Wenn zwischen zwei Variablen eine nicht monotone Beziehung besteht, können sie unkorreliert sein - dies schließt eine Kausalität nicht aus.
Makro
@ Macro - wahr und bearbeitet
Fomite
@Macro True, aber in der Praxis können Sie eine Funktion auf Ihre Variable anwenden, um die zu testende Beziehung monoton zu machen. Wenn Sie diese Funktion nicht kennen, dann ... wissen Sie nicht viel darüber, wonach Sie suchen
RockScience
@EpiGrad: Angenommen, das XY-Korrelationsdiagramm zweier Variablen sieht aus wie ein fröhlicher Smiley (oder eine andere Form an sich). Der Korrelationskoeffizient wäre eigentlich ziemlich klein, aber es würde sicherlich eine Wechselbeziehung geben, oder? Wie / was soll man in einem solchen Fall tun?
PhD
@Nupul Eine etwas kompliziertere Untersuchung von XY jenseits der Linearität.
Fomite
7

Betrachten Sie es aus einer spielerischen Perspektive. Nehmen wir an, wir wissen, dass Menschen, die zur Arbeit Arbeitsstiefel tragen, durchschnittlich 1,5 Verletzungen am Arbeitsplatz haben und Menschen, die Slipper tragen, durchschnittlich 0,05 Verletzungen haben. Oder die Wahrscheinlichkeit einer Verletzung für eine Person, die Arbeitsstiefel trägt, beträgt 0,85, und die Wahrscheinlichkeit einer Verletzung für eine Person, die Slipper trägt, beträgt 0,1.

Wenn ich zufällig eine Person aus der Bevölkerung auswähle und Ihnen sage, dass die Person Arbeitsstiefel trägt, und Ihnen eine Wette mit gleichem Geld darauf anbiete, ob sie letztes Jahr eine Verletzung am Arbeitsplatz hatte oder nicht, würden Sie die Wette annehmen? Nun, Sie würden die Wette annehmen, wenn Sie auf der Seite wetten könnten, dass sie eine Verletzung hatten. In 85% der Fälle werden Sie gewinnen und Sie erhalten sogar Geld.

Der Punkt ist, zu wissen, dass diese Information uns Informationen darüber gibt, ob sie bei der Arbeit wahrscheinlich eine Verletzung erleiden oder nicht. Die Schuhe haben nichts damit zu tun, tatsächlich verhindern die Arbeitsstiefel Verletzungen. Aber die verwirrende Variable hier ist die Art von Job, die mit den Workboots einhergeht. Und vielleicht auch andere Dinge wie die Person, die möglicherweise rücksichtsloser ist.

Adam
quelle
6

Der Ausdruck "Korrelation bedeutet keine Kausalität" wird überspielt. (Wie Cohen schrieb, "es ist ein schrecklich großer Hinweis".) Wir haben diesen Satz bei den Schülern wegen einer dem menschlichen Verstand innewohnenden Voreingenommenheit geschlagen. Wenn Sie hören, dass die Kriminalitätsrate mit der Armutsquote korreliert, oder so etwas, können Sie nicht anders, als zu glauben, dass Armut das Verbrechen verursacht. Es ist für Menschen selbstverständlich, dies anzunehmen, denn so funktioniert der Geist. Wir verwenden den Ausdruck immer wieder in der Hoffnung, dem entgegenzuwirken. Sobald Sie jedoch die Idee aufgenommen haben, verliert der Ausdruck den größten Teil seines Wertes und es ist Zeit, zu einem differenzierteren Verständnis überzugehen.

Wenn es eine Korrelation zwischen zwei Variablen gibt, gibt es zwei Möglichkeiten: Es ist alles ein Zufall oder es gibt ein kausales Muster bei der Arbeit. Ein Muster in der Welt als Zufall zu bezeichnen, ist ein schrecklicher Erklärungsrahmen und sollte wahrscheinlich Ihr letzter Ausweg sein. Das lässt Kausalität. Das Problem ist, dass wir die Natur dieses Kausalmusters nicht kennen. Es könnte gut sein, dass Armut Kriminalität verursacht, aber es könnte auch sein, dass Kriminalität Armut verursacht (z. B. wollen die Menschen nicht in einem Gebiet mit hoher Kriminalität leben, also ziehen sie aus und die Immobilienwerte fallen usw.). Es könnte auch sein, dass es eine dritte Variable oder Gruppe von Variablen gibt, die sowohl Kriminalität als auch Armut verursachen, aber dass es tatsächlich solche gibt keine gibt direkte gibtKausalzusammenhang zwischen Kriminalität und Armut (bekannt als "Common Cause" -Modell). Dies ist besonders schädlich, da in einem statistischen Modell alle anderen Variationsquellen in den Fehlerterm der abhängigen Variablen zusammengefasst werden. Infolgedessen wird die unabhängige Variable mit dem Fehlerterm korreliert (verursacht durch), was zu dem Problem der Endogenität führt . Diese Probleme sind sehr schwierig und sollten nicht leicht genommen werden. Trotzdem ist es auch in diesem Szenario wichtig zu erkennen, dass eine echte Kausalität vorliegt.

Kurz gesagt, wenn Sie eine Korrelation sehen, sollten Sie denken, dass wahrscheinlich irgendwo eine Art Kausalität im Spiel ist , aber dass Sie die Natur dieses Kausalmusters nicht kennen.

gung - Monica wieder einsetzen
quelle
4

Ich dachte, ich kenne mich mit diesen Dingen aus, aber erst letzten Monat habe ich im Wörterbuch nach "implizieren" gesucht und festgestellt, dass es zwei auffallend unterschiedliche Bedeutungen hat. 1. Vorschlagen und 2. Notwendig machen. (!) Korrelation erfordert selten Kausalität, kann aber durchaus darauf hindeuten. Wie @EpiGrad hervorhebt, ist dies eine notwendige, wenn auch nicht ausreichende Bedingung für die Feststellung der Kausalität.

Mit der Zeit findet man hoffentlich einen Mittelweg zwischen dem Sehen von Korrelation als dem Ende und dem völligen Nutzloswerden. Bei der Interpretation von Korrelationsergebnissen berücksichtigt man fach- / domänen- / inhaltsspezifisches Wissen. Nur wenige Leute würden in Frage stellen, ob es zumindest einen Kausalzusammenhang gibt, wenn sie die von Ihnen beschriebenen Werbeverkaufsergebnisse sehen. Aber es ist immer gut, offen zu bleiben für andere Möglichkeiten, andere Variablen, die die beobachtete Beziehung zumindest teilweise erklären könnten. Lesungen über verwirrende Variablen, Gültigkeit und dergleichen zahlen sich mit hohen Dividenden aus. Zum Beispiel hat Cook und Campbells alter Klassiker Quasi-Experiment einen guten Abschnitt über Gültigkeit und Bedrohungen der Gültigkeit.

rolando2
quelle
1
Wie ich @EpiGrad sagte, ist Korrelation keine notwendige Bedingung für die Kausalität. In der Datenanalyse gibt es eine weit verbreitete Auffassung, dass sich eine Beziehung zwischen Variablen immer auf eine monotone Beziehung bezieht, die stillschweigend angenommen wird, indem darauf hingewiesen wird, dass Korrelation eine notwendige Bedingung für die Kausalität ist.
Makro
1
Meinetwegen. Nehmen wir also an, "statistische Zuordnung" ist notwendig.
Rolando2
2

Ein Korrelationskoeffizient ist wie andere Assoziationsmaße nützlich, wenn Sie wissen möchten, wie viel Wissen über den Wert von X über den Wert von Y aussagekräftig ist. Dies unterscheidet sich von dem Wissen, ob Sie X auf einen bestimmten Wert setzen, was Wert von Y, den Sie erhalten würden (was die Essenz einer kontrafaktischen Interpretation der Kausalität ist).

In vielen Kontexten (z. B. Vorhersage) wären Schlussfolgerungen, die auf Korrelation beruhen, für sich genommen wertvoll. Gelbe Zähne korrelieren mit Lungenkrebs (da beide wahrscheinlich durch Krebs verursacht werden). Es gibt keine Ursache zwischen den beiden: Zahnaufhellung würde Lungenkrebs nicht heilen. Wenn Sie jedoch einen schnellen Screening-Test benötigen, um festzustellen, wer wahrscheinlich an Lungenkrebs leidet, ist die Überprüfung auf gelbe Zähne möglicherweise ein guter erster Schritt.

Es ist eine andere Frage, ob der Korrelationskoeffizient das beste verfügbare Maß für die Assoziation ist, aber ich denke, die Frage ist eher, welchen Wert es hat, die nicht-kausale Assoziation zu kennen.

Übrigens ist Korrelation nicht nur kein ausreichender Nachweis der Kausalität, sondern auch nicht notwendig. Zwei Variablen können kausal zusammenhängen, weisen jedoch in keinem bestimmten Datensatz eine Korrelation auf (z. B. aufgrund von Selektionsverzerrungen oder Störfaktoren).

Dimiter
quelle
1

Korrelation an sich ist nicht von großem Nutzen - also was "IST" der Nutzen?

Lassen Sie mich mit diesem Satz nicht einverstanden sein, Korrelation lassen Sie den Grad der Assoziation zwischen 2 Variablen wissen. Dann ist es nützlich, wenn Sie versuchen, die Beziehung zwischen solchen Variablen zu erklären. Andererseits ist (wie Macro schrieb) die Korrelation keine notwendige Bedingung für die Kausalität, reicht jedoch aus, um den Grad der Assoziation zu erklären. Darüber hinaus können Sie die Unabhängigkeit der Variablen testen, aber die Korrelation kann Ihnen eine weitere nützliche Information geben, den Bestimmungskoeffizienten.

Dennoch muss der Analytiker die Domäne kennen, um die Art der Beziehung erklären zu können.

Jose Zubcoff
quelle
Ich bin nicht sicher, was Sie damit meinen:Furthermore, you can test the independence of the variables, but correlation can give you another useful information, the coefficient of determination
PhD
Was ich meine war: "Sie können die Unabhängigkeit der Variablen testen", aber trotzdem, auch wenn Sie die Unabhängigkeit, die Korrelationsinformationen und den Coef nicht testen. der Bestimmung sind "nützlich", um die Art der Beziehung zwischen den Variablen zu verstehen und zu erklären.
Jose Zubcoff
1

Ich denke, dass die Datenerfassung und das Studiendesign ebenfalls eine Rolle bei der Beantwortung dieser Frage spielen können. Sie werden keine Studie entwerfen und eine Reihe von Daten sammeln, die für einander völlig irrelevant sind, selbst in den Beobachtungsstudien. Daher kann "die Korrelation impliziert keine Kausalität" gerechtfertigt sein. Auch wenn es sich nicht um einen Kausalzusammenhang handelt, kann ein Zusammenhang bestehen.

Wenn Sie jedoch von zwei Datensätzen sprechen, die völlig irrelevant sind, aber dennoch die Korrelation verwenden möchten, um den Zusammenhang und die Ursache zu erklären, ist dies möglicherweise unangemessen. Wenn beispielsweise zwei Datensätze alle Abwärtstrends aufweisen, z. B. Eisverkäufe und Anzahl der Ehen, kann der Korrelationskoeffizient sehr hoch sein. Aber ist es notwendig, einen Verein zu meinen?

Fred
quelle