Angenommen, als Geschäftsinhaber (oder Marketingmitarbeiter oder jeder, der ein Streudiagramm versteht) wird ein Streudiagramm mit zwei Variablen angezeigt: Anzahl der Anzeigen im Vergleich zur Anzahl der Produktverkäufe pro Monat in den letzten 5 Jahren (oder eine andere Zeitskala, damit Sie habe mehr Proben. Ich habe mir gerade diese ausgedacht.
Jetzt sieht er / sie das Streudiagramm und erfährt, dass der Korrelationskoeffizient (corr) ist:
- 1 oder
- 0,5 oder
- 0,11 oder
- 0 oder
- -0,75 oder
- -1
Grundsätzlich jeder gültige Wert für corr
Frage: Was bedeutet dies überhaupt für einen Entscheidungsträger oder einen Verbraucher des Streudiagramms? Welche Entscheidungen kann man nur auf dieser Grundlage treffen?
Dh: Was nützt es, die Korrelation zwischen zwei Variablen zu sehen und was kann man mit diesen Informationen isoliert tun? Ist es nur zu sehen, was für die Einbeziehung in die Regressionsanalyse zu beachten ist und was nicht, oder gibt es eine praktischere Verwendung?
Nur neugierig, ich habe immer mit dieser Technik gearbeitet, aber mir wurde gesagt, dass Korrelation an sich nicht viel nützt - also was "IST" die Verwendung?
Betrachten Sie es aus einer spielerischen Perspektive. Nehmen wir an, wir wissen, dass Menschen, die zur Arbeit Arbeitsstiefel tragen, durchschnittlich 1,5 Verletzungen am Arbeitsplatz haben und Menschen, die Slipper tragen, durchschnittlich 0,05 Verletzungen haben. Oder die Wahrscheinlichkeit einer Verletzung für eine Person, die Arbeitsstiefel trägt, beträgt 0,85, und die Wahrscheinlichkeit einer Verletzung für eine Person, die Slipper trägt, beträgt 0,1.
Wenn ich zufällig eine Person aus der Bevölkerung auswähle und Ihnen sage, dass die Person Arbeitsstiefel trägt, und Ihnen eine Wette mit gleichem Geld darauf anbiete, ob sie letztes Jahr eine Verletzung am Arbeitsplatz hatte oder nicht, würden Sie die Wette annehmen? Nun, Sie würden die Wette annehmen, wenn Sie auf der Seite wetten könnten, dass sie eine Verletzung hatten. In 85% der Fälle werden Sie gewinnen und Sie erhalten sogar Geld.
Der Punkt ist, zu wissen, dass diese Information uns Informationen darüber gibt, ob sie bei der Arbeit wahrscheinlich eine Verletzung erleiden oder nicht. Die Schuhe haben nichts damit zu tun, tatsächlich verhindern die Arbeitsstiefel Verletzungen. Aber die verwirrende Variable hier ist die Art von Job, die mit den Workboots einhergeht. Und vielleicht auch andere Dinge wie die Person, die möglicherweise rücksichtsloser ist.
quelle
Der Ausdruck "Korrelation bedeutet keine Kausalität" wird überspielt. (Wie Cohen schrieb, "es ist ein schrecklich großer Hinweis".) Wir haben diesen Satz bei den Schülern wegen einer dem menschlichen Verstand innewohnenden Voreingenommenheit geschlagen. Wenn Sie hören, dass die Kriminalitätsrate mit der Armutsquote korreliert, oder so etwas, können Sie nicht anders, als zu glauben, dass Armut das Verbrechen verursacht. Es ist für Menschen selbstverständlich, dies anzunehmen, denn so funktioniert der Geist. Wir verwenden den Ausdruck immer wieder in der Hoffnung, dem entgegenzuwirken. Sobald Sie jedoch die Idee aufgenommen haben, verliert der Ausdruck den größten Teil seines Wertes und es ist Zeit, zu einem differenzierteren Verständnis überzugehen.
Wenn es eine Korrelation zwischen zwei Variablen gibt, gibt es zwei Möglichkeiten: Es ist alles ein Zufall oder es gibt ein kausales Muster bei der Arbeit. Ein Muster in der Welt als Zufall zu bezeichnen, ist ein schrecklicher Erklärungsrahmen und sollte wahrscheinlich Ihr letzter Ausweg sein. Das lässt Kausalität. Das Problem ist, dass wir die Natur dieses Kausalmusters nicht kennen. Es könnte gut sein, dass Armut Kriminalität verursacht, aber es könnte auch sein, dass Kriminalität Armut verursacht (z. B. wollen die Menschen nicht in einem Gebiet mit hoher Kriminalität leben, also ziehen sie aus und die Immobilienwerte fallen usw.). Es könnte auch sein, dass es eine dritte Variable oder Gruppe von Variablen gibt, die sowohl Kriminalität als auch Armut verursachen, aber dass es tatsächlich solche gibt keine gibt direkte gibtKausalzusammenhang zwischen Kriminalität und Armut (bekannt als "Common Cause" -Modell). Dies ist besonders schädlich, da in einem statistischen Modell alle anderen Variationsquellen in den Fehlerterm der abhängigen Variablen zusammengefasst werden. Infolgedessen wird die unabhängige Variable mit dem Fehlerterm korreliert (verursacht durch), was zu dem Problem der Endogenität führt . Diese Probleme sind sehr schwierig und sollten nicht leicht genommen werden. Trotzdem ist es auch in diesem Szenario wichtig zu erkennen, dass eine echte Kausalität vorliegt.
Kurz gesagt, wenn Sie eine Korrelation sehen, sollten Sie denken, dass wahrscheinlich irgendwo eine Art Kausalität im Spiel ist , aber dass Sie die Natur dieses Kausalmusters nicht kennen.
quelle
Ich dachte, ich kenne mich mit diesen Dingen aus, aber erst letzten Monat habe ich im Wörterbuch nach "implizieren" gesucht und festgestellt, dass es zwei auffallend unterschiedliche Bedeutungen hat. 1. Vorschlagen und 2. Notwendig machen. (!) Korrelation erfordert selten Kausalität, kann aber durchaus darauf hindeuten. Wie @EpiGrad hervorhebt, ist dies eine notwendige, wenn auch nicht ausreichende Bedingung für die Feststellung der Kausalität.
Mit der Zeit findet man hoffentlich einen Mittelweg zwischen dem Sehen von Korrelation als dem Ende und dem völligen Nutzloswerden. Bei der Interpretation von Korrelationsergebnissen berücksichtigt man fach- / domänen- / inhaltsspezifisches Wissen. Nur wenige Leute würden in Frage stellen, ob es zumindest einen Kausalzusammenhang gibt, wenn sie die von Ihnen beschriebenen Werbeverkaufsergebnisse sehen. Aber es ist immer gut, offen zu bleiben für andere Möglichkeiten, andere Variablen, die die beobachtete Beziehung zumindest teilweise erklären könnten. Lesungen über verwirrende Variablen, Gültigkeit und dergleichen zahlen sich mit hohen Dividenden aus. Zum Beispiel hat Cook und Campbells alter Klassiker Quasi-Experiment einen guten Abschnitt über Gültigkeit und Bedrohungen der Gültigkeit.
quelle
Ein Korrelationskoeffizient ist wie andere Assoziationsmaße nützlich, wenn Sie wissen möchten, wie viel Wissen über den Wert von X über den Wert von Y aussagekräftig ist. Dies unterscheidet sich von dem Wissen, ob Sie X auf einen bestimmten Wert setzen, was Wert von Y, den Sie erhalten würden (was die Essenz einer kontrafaktischen Interpretation der Kausalität ist).
In vielen Kontexten (z. B. Vorhersage) wären Schlussfolgerungen, die auf Korrelation beruhen, für sich genommen wertvoll. Gelbe Zähne korrelieren mit Lungenkrebs (da beide wahrscheinlich durch Krebs verursacht werden). Es gibt keine Ursache zwischen den beiden: Zahnaufhellung würde Lungenkrebs nicht heilen. Wenn Sie jedoch einen schnellen Screening-Test benötigen, um festzustellen, wer wahrscheinlich an Lungenkrebs leidet, ist die Überprüfung auf gelbe Zähne möglicherweise ein guter erster Schritt.
Es ist eine andere Frage, ob der Korrelationskoeffizient das beste verfügbare Maß für die Assoziation ist, aber ich denke, die Frage ist eher, welchen Wert es hat, die nicht-kausale Assoziation zu kennen.
Übrigens ist Korrelation nicht nur kein ausreichender Nachweis der Kausalität, sondern auch nicht notwendig. Zwei Variablen können kausal zusammenhängen, weisen jedoch in keinem bestimmten Datensatz eine Korrelation auf (z. B. aufgrund von Selektionsverzerrungen oder Störfaktoren).
quelle
Lassen Sie mich mit diesem Satz nicht einverstanden sein, Korrelation lassen Sie den Grad der Assoziation zwischen 2 Variablen wissen. Dann ist es nützlich, wenn Sie versuchen, die Beziehung zwischen solchen Variablen zu erklären. Andererseits ist (wie Macro schrieb) die Korrelation keine notwendige Bedingung für die Kausalität, reicht jedoch aus, um den Grad der Assoziation zu erklären. Darüber hinaus können Sie die Unabhängigkeit der Variablen testen, aber die Korrelation kann Ihnen eine weitere nützliche Information geben, den Bestimmungskoeffizienten.
Dennoch muss der Analytiker die Domäne kennen, um die Art der Beziehung erklären zu können.
quelle
Furthermore, you can test the independence of the variables, but correlation can give you another useful information, the coefficient of determination
Ich denke, dass die Datenerfassung und das Studiendesign ebenfalls eine Rolle bei der Beantwortung dieser Frage spielen können. Sie werden keine Studie entwerfen und eine Reihe von Daten sammeln, die für einander völlig irrelevant sind, selbst in den Beobachtungsstudien. Daher kann "die Korrelation impliziert keine Kausalität" gerechtfertigt sein. Auch wenn es sich nicht um einen Kausalzusammenhang handelt, kann ein Zusammenhang bestehen.
Wenn Sie jedoch von zwei Datensätzen sprechen, die völlig irrelevant sind, aber dennoch die Korrelation verwenden möchten, um den Zusammenhang und die Ursache zu erklären, ist dies möglicherweise unangemessen. Wenn beispielsweise zwei Datensätze alle Abwärtstrends aufweisen, z. B. Eisverkäufe und Anzahl der Ehen, kann der Korrelationskoeffizient sehr hoch sein. Aber ist es notwendig, einen Verein zu meinen?
quelle