Wie finden Sie kausale Zusammenhänge in Daten?

11

Nehmen wir an, ich habe eine Tabelle mit den Spalten "A", "B".

Gibt es eine statistische Methode, um festzustellen, ob "A" "B" verursacht? Man kann Pearson's r nicht wirklich benutzen, weil:

  • Es wird nur die Korrelation zwischen Werten getestet
  • Korrelation ist keine Kausalität
  • Pearsons r kann nur lineare Beziehungen korrelieren

Welche anderen Optionen habe ich hier?

Chutsu
quelle
1
Da ist nicht. Aus solchen Daten können Sie einen hohen Grad an Korrelation nachweisen. Sie können keine Kausalität nachweisen.
1
Ursache ist einfach nichts, was man aus den Zahlen herausdrücken kann ... also wiederhole nach mir: Ursache ist keine Korrelation , Ursache ist keine Korrelation ...
JM ist kein Statistiker
1
Siehe "Causality" von Judea Pearl (Gewinnerin des Turing Award 2011).

Antworten:

4

Die bisherigen Antworten und Kommentare sind auf praktischer Ebene grundsätzlich korrekt, der Vollständigkeit halber werden jedoch sogenannte Kausalitätsmodelle untersucht, die auf der Bayes'schen Statistik und der Graphentheorie basieren. Obwohl Korrelation im Allgemeinen tatsächlich keine Kausalität impliziert, gibt es komplexere Modelle, die versuchen, die Kausalität herauszufiltern. Weitere Informationen finden Sie im Buch Causality von Judea Pearl. Dies ist jedoch eine sehr leistungsstarke Mathematik und wahrscheinlich nicht das, was Sie wollen.


quelle
2

Es gibt viele sogenannte quasi-experimentelle Methoden, mit denen Sie glaubwürdig über Kausalität streiten können, obwohl Ihre Daten beobachtend sind. Diese Methoden beruhen normalerweise darauf, eine Quelle für exogene Variationen in Ihrer interessierenden Variablen zu finden.

Ich denke, ein guter und zugänglicher Überblick wird in dem Buch "Mostly Harmless Econometrics" gegeben. Sie decken im Grunde alle quasi-experimentellen Methoden ab, an die Menschen (dh Ökonomen) glauben (zumindest manchmal). Sie decken nicht die von beispielsweise trb456 genannten Methoden ab (aus dem gleichen Grund: nicht viele glauben an sie).

coffeinjunky
quelle
1

Um die Ursache zu bestimmen, müssen Sie einen Randomisierungstest durchführen. Sie nehmen Ihre Testpersonen und wählen zufällig die Hälfte aus, um die Qualität A zu haben, und die Hälfte, um sie nicht zu haben. Sie sehen dann, ob es einen statistisch signifikanten Unterschied in der Qualität B zwischen den beiden Gruppen gibt.

Es ist wichtig, dass Sie die Randomisierung durchführen, bevor Sie eine Messung durchführen. Insbesondere wenn Sie einen Datensatz erhalten, bei dem und bereits gemessen wurden, ist es unmöglich, die Ursache zu bestimmen.B.AB

Beachten Sie, dass es möglicherweise unmöglich ist, den gewünschten Randomisierungstest durchzuführen. Wie können Sie beispielsweise testen, ob Sie aufgrund Ihrer Größe mehr wiegen? Natürlich gibt es eine Korrelation zwischen Größe und Gewicht, aber Sie können nicht zufällig eine Gruppe von Personen einer "großen" Gruppe und eine Gruppe einer "kleinen" Gruppe zuordnen. In diesem Fall kann der Randomisierungstest nicht durchgeführt werden.

Chris Taylor
quelle
0

Somers 'd erklärt die Beziehung zwischen Ordnungsvariablen auf eine Weise, wie es der Pearson-Korrelationskoeffizient für Datensätze tut.

RUresearchteam
quelle
1
Ich stimme zu, dass es mehr als Zahlen braucht, um die Ursache festzustellen. Wie kommt die Verwendung von Ordnungsvariablen in die Frage?
Michael R. Chernick
1
@MichaelChernick Somers 'D ist ein asymmetrisches Maß für die Assoziation. Es kann unterschieden werden zwischen „wenn es regnet, dann ist es bewölkt,‘ von ‚ wenn es bewölkt ist, dann ist es regnet‘ es für Ordnungs oder höhere Daten funktioniert es nicht Verursachung aufstellt, aber es Direktionalität aufstellt...
Dave Harris