Was muss ich beachten, wenn ich multiple Regression verwende, um „kausale“ Zusammenhänge in meinen Daten zu finden?

8

Zunächst stelle ich fest, dass multiple Regression nicht wirklich "kausale" Rückschlüsse auf die Daten liefert. Lassen Sie mich meinen aktuellen Fall erklären:

Ich habe vier unabhängige Variablen, von denen ich hoffe (aber nicht sicher bin), dass sie das messen, was ich messe. Ich wollte die multiple Regression verwenden, um zu sehen, wie viel jede dieser Variablen zu meiner abhängigen Variablen beiträgt, und tat dies auch. Angeblich beeinflusst die Variable "Nummer vier" mein Ergebnis sehr stark (Beta-Gewicht nahe 0,7).

Mir wurde jedoch gesagt, dass dies nicht ausreicht, da einige meiner "unabhängigen" Variablen tatsächlich miteinander korreliert sein können. In diesem Fall könnte ich denken, dass "Variable vier" meine abhängige Variable antreibt, wenn tatsächlich drei und vier gleichermaßen einen Beitrag leisten könnten. Das scheint richtig zu sein, aber da ich neu darin bin, bin ich mir nicht sicher.

Wie kann ich dieses Problem in Zukunft systematisch vermeiden? Welche spezifischen Verfahren würden Sie empfehlen, wenn Sie die multiple Regression verwenden, um sicherzustellen, dass Ihre "unabhängigen" Daten nicht bereits versteckte Korrelationen enthalten?

Bearbeiten: Die Daten selbst sind eine Reihe von Netzwerkmodellen (Grafiken) eines bestimmten neurologischen Zustands. Ich messe den "Clustering-Koeffizienten", der die Topologie jedes Netzwerks als Ganzes beschreibt (hier abhängige Variable), und sehe dann, ob die einzelnen Konnektivitäten von vier Knoten im größeren Netzwerk über 100 die globalen Clustering-Werte steuern (vier unabhängige) Variablen). Diese Knoten sind jedoch Teil eines Netzwerks, so dass es per Definition möglich ist, dass sie zu einem gewissen Grad korrelieren.

rd108
quelle
3
Was eine Korrelation kausal macht, ist ein umstrittenes Thema in der Wissenschaftsphilosophie. Der "Goldstandard" besteht darin, ein Experiment durchzuführen, bei dem die Behandlungsvariable zufällig zugewiesen wird, um sicherzustellen, dass andere potenziell verwirrende Kovariaten nicht systematisch mit der Behandlung zusammenhängen. In vielen Bereichen und bei vielen Fragen sind Experimente jedoch unmöglich. Einige wenden sich zur Exogenität sogenannten natürlichen Experimenten zu. Sie könnten an Paul Hollands klassischem Artikel "Statistik und kausale Folgerung" interessiert sein. Journal of the American Statistical Association, 81, 945-970.
Jason Morgan
1
Sie stellen sehr wichtige Fragen, aber es ist zweifelhaft, ob Ihnen jemand eine bestimmte Reihe von Schritten oder ein schönes, komprimiertes Rezept geben kann. Dieses Problem zu meistern ist eine langfristige Aufgabe. Zusätzliche Vorschläge zu zu untersuchenden Begriffen und Themen: Suppressorvariablen; Schätzungen der Toleranz- und Varianzinflation; Korrelationen nullter Ordnung, partielle und semipartielle (Teil-) Korrelationen; variable Auswahlmethoden; Kreuzvalidierung.
Rolando2
Wenn Sie uns den Zweck dieser Modellierung mitteilen, erhalten Sie möglicherweise noch hilfreichere Vorschläge. Die multiple Regression lässt sich recht gut mit korrelierten unabhängigen Variablen behandeln, solange sie nicht zu stark korreliert sind, was zu Multicolinearität führt. Wie andere gesagt haben, ist die Beurteilung der Kausalität außerhalb eines randomisierten Experiments schwierig (aber nicht unmöglich). Weitere Informationen zu diesem Thema finden Sie unter einigen dieser Links: köstlich.com / MichaelBishop/ causality.
Michael Bishop
Die Daten selbst sind eine Reihe von Netzwerkmodellen (Graphenmodellen) eines bestimmten neurologischen Zustands. Ich messe den "Clustering-Koeffizienten", der die Topologie jedes Netzwerks als Ganzes beschreibt (hier abhängige Variable), und sehe dann, ob die einzelnen Konnektivitäten von vier Knoten im größeren Netzwerk über 100 die globalen Clustering-Werte steuern (vier unabhängige) Variablen). Diese Knoten sind jedoch Teil eines Netzwerks, so dass es per Definition möglich ist, dass sie zu einem gewissen Grad korrelieren.
rd108

Antworten:

5

Sie können dieses Problem nicht "in Zukunft systematisch vermeiden", da es nicht als "Problem" bezeichnet werden sollte. Wenn die Realität der materiellen Welt starke Kovariaten aufweist, sollten wir dies als Tatsache akzeptieren und unsere Theorien und Modelle entsprechend anpassen. Ich mag die Frage sehr und hoffe, dass das Folgende nicht zu enttäuschend klingt.

Hier sind einige Anpassungen, die für Sie funktionieren könnten. Sie müssen ein Regressionshandbuch lesen, bevor Sie fortfahren können.

  • Diagnostizieren Sie das Problem mithilfe von Korrelations- oder Nachschätzungstechniken wie dem Varianzinflationsfaktor (VIF). Verwenden Sie die von Peter Flom genannten Tools, wenn Sie SAS oder R verwenden. Verwenden Sie pwcorrin Stata, um eine Korrelationsmatrix gr matrixzu erstellen, eine Streudiagrammmatrix zu erstellen und vifproblematische Toleranzwerte von 1 / VIF <0,1 zu erkennen.

  • Messen Sie den Interaktionseffekt, indem Sie beispielsweise var3*var4dem Modell hinzufügen . Der Koeffizient hilft Ihnen zu erkennen, wie viel zwischen var3und spielt var4. Dies bringt Sie nur so weit, die Interaktion teilweise zu messen, rettet Ihr Modell jedoch nicht aus seinen Einschränkungen.

  • Wenn Sie eine starke Multikollinearität oder andere Probleme wie Heteroskedastizität feststellen, sollten Sie vor allem Ihr Modell fallen lassen und erneut beginnen. Modellfehlspezifikation ist die Plage der Regressionsanalyse (und der frequentistischen Methoden im Allgemeinen). Paul Schrodt hat mehrere ausgezeichnete Artikel zu diesem Thema, einschließlich seiner jüngsten " Sieben Todsünden ", die ich sehr mag.

Dies beantwortet Ihren Standpunkt zur Multikollinearität, und vieles davon kann aus dem Regressionshandbuch bei UCLA Stat Computing gelernt werden . Es beantwortet Ihre Frage zur Kausalität nicht. Kurz gesagt, Regression ist niemals kausal. Es gibt auch kein statistisches Modell: Kausale und statistische Informationen sind getrennte Arten. Lesen Sie selektiv aus Judea Pearl ( Beispiel ), um mehr darüber zu erfahren.

Alles in allem hebt diese Antwort nicht den Wert der Regressionsanalyse oder sogar der frequentistischen Statistik auf (ich unterrichte zufällig beides). Dies verringert jedoch den Umfang der Angemessenheit und unterstreicht auch die entscheidende Rolle Ihrer anfänglichen Erklärungstheorie, die wirklich die Möglichkeit bestimmt, dass Ihr Modell kausale Eigenschaften besitzt.

Fr.
quelle
+1 für die Links zum Handbuch, in denen Kollinearität und IVF erwähnt werden, sowie die spezifischen Lösungen und sogar Implementierungen in R. Ich bin gespannt auf Ihre Meinung, ob die Daten selbst nicht für die Regressionsanalyse geeignet sind. Ich habe die obige Frage bearbeitet, um sie zu reflektieren dass dies Messungen eines Netzwerks sind.
rd108
Entschuldigen Sie die späte Antwort, aber ich weiß leider sowieso zu wenig über das Thema, um zu antworten, dass Sie die richtige Technik verwenden. Ich vermute, dass SNA andere Tools enthält, die helfen (z. B. verschiedene Zentralitätsmaße modellieren, wenn Sie eine Kombination Ihrer vier Knoten unterdrücken).
Fr.
5

Wenn Sie sehen möchten, ob die unabhängigen Variablen korreliert sind, ist dies einfach. Testen Sie einfach die Korrelationen, z. B. mit PROC CORR in SAS oder cor in R oder was auch immer in dem von Ihnen verwendeten Paket.

Möglicherweise möchten Sie jedoch stattdessen oder zusätzlich die Kollinearität testen.

Aber das ist nur ein Teil des Kausalitätsproblems. Problematischer ist, dass eine Variable beteiligt ist, die NICHT in Ihren Daten enthalten ist. Klassische Beispiele:

Studenten, die Tutoren einstellen, erhalten schlechtere Noten als Studenten, die keine Tutoren einstellen.

Die Höhe des durch ein Feuer verursachten Schadens hängt stark von der Anzahl der Feuerwehrmänner ab, die auftauchen.

und (mein Favorit)

Wenn Sie den IQ in Bezug auf das astrologische Zeichen und das Alter bei Kindern im Alter von 5 bis 12 Jahren zurückführen, gibt es eine signifikante Interaktion und einen signifikanten Effekt des Zeichens auf den IQ, jedoch nur bei kleinen Kindern.


Gründe: 1. Ja. Weil Studenten, die wirklich gute Noten bekommen, dazu neigen, überhaupt keine Tutoren einzustellen

  1. Ja, weil größere Brände mehr Schaden anrichten und mehr Feuerwehrmänner bringen

  2. Die Anzahl der Schulen (in Monaten), die ein Kind hatte, hängt vom Geburtsmonat ab. Schulsysteme haben Altersgrenzen. Ein 6-Jähriger hatte also möglicherweise 11 Monate mehr Schule als ein anderer 6-Jähriger.

Und das alles ohne in die Philosophie einzusteigen!

Peter Flom
quelle
2

Der Zusammenhang zwischen Kausalität und Assoziation besteht im Wesentlichen in der Beantwortung der folgenden Frage:

X.Y.

Solange die Antwort auf diese Frage nicht "nichts" ist, kann man nur definitiv über Assoziation sprechen. Es kann immer sein, dass ein vorgeschlagener "Kausalzusammenhang" tatsächlich ein Sonderfall des "richtigen" Kausalzusammenhangs ist - genau das ist zwischen Newtons und Einsteins Gravitationstheorie passiert, denke ich. Newtons Kausalzusammenhang war ein Sonderfall von Einsteins Theorie. Und seine Theorie wird wahrscheinlich ein Sonderfall einer anderen Theorie sein.

Darüber hinaus beseitigt jeder Fehler in Ihren Daten die Möglichkeit eines eindeutigen Kausalzusammenhangs. Dies liegt daran, dass der Ausdruck "A verursacht B" eine deduktive Verbindung zwischen A und B darstellt. Um diese Hypothese zu widerlegen, müssen Sie lediglich einen Fall finden, in dem B nicht vorhanden ist, A jedoch vorhanden ist (denn dann ist A wahr , aber das sollte bedeuten, dass B auch wahr ist - aber wir haben B falsch beobachtet).

Y.Y.Y.Y.. Und wenn Sie einen Kausalzusammenhang vorschlagen, müssen Sie ihn mit ziemlicher Sicherheit "beweisen", indem Sie Ihre Ergebnisse mit neuen Daten reproduzieren. Sie müssen in der Lage sein, vorherzusagen, welche Daten angezeigt werden, und diesbezüglich korrekt zu sein.

Sie benötigen auch eine physikalische Theorie über den "Kausalmechanismus" (wenn ich diesen Knopf drücke, geht das Licht an, wenn ich diesen Knopf drücke, ändert das Licht seine Farbe usw.). Wenn Sie nur wissen, dass der "Regressionskoeffizient 0,7" war, trägt dies wenig dazu bei, einen Kausalmechanismus zu etablieren, der am Werk ist.

Wahrscheinlichkeitslogik
quelle
1

Ich bin mir nicht sicher, auf welchem ​​Gebiet Ihre Arbeit liegt, daher kann dies hilfreich sein oder auch nicht - aber ich bin am besten mit der Verwendung von SPSS mit psychologischen Konstrukten vertraut. Wenn nach meiner Erfahrung einige Variablen eine Ergebnisvariable (oder abhängige Variable) in einer Regression vorhersagen und eine oder mehrere unabhängige Variablen als signifikante Prädiktoren angezeigt werden, besteht der nächste Schritt darin, festzustellen, welche Variablen inkrementell wichtiger sind als Andere. Eine Möglichkeit, dies zu erreichen, ist die hierarchische Regression. Dies beantwortet im Wesentlichen die Frage: "Wenn ich bereits 'Variable vier' habe, um meine Ergebnisvariable vorherzusagen, bietet eine der anderen Variablen eine statistisch signifikante Steigerung der Vorhersagekraft?" SPSS hat eine ziemlich klare Methode, dies zu analysieren, wie ich sicher bin, dass R und SAS dies auch tun. Damit, Ich denke, hierarchische Regression könnte Ihr nächster Schritt sein, um herauszufinden, ob 'Variable vier' wirklich die beste Wahl für die Vorhersage Ihres Ergebnisfaktors ist. Die anderen, die geantwortet haben, haben die Probleme der Korrelationsursache gut diskutiert, also lasse ich das in Ruhe ... Viel Glück!

Travis
quelle