Zunächst stelle ich fest, dass multiple Regression nicht wirklich "kausale" Rückschlüsse auf die Daten liefert. Lassen Sie mich meinen aktuellen Fall erklären:
Ich habe vier unabhängige Variablen, von denen ich hoffe (aber nicht sicher bin), dass sie das messen, was ich messe. Ich wollte die multiple Regression verwenden, um zu sehen, wie viel jede dieser Variablen zu meiner abhängigen Variablen beiträgt, und tat dies auch. Angeblich beeinflusst die Variable "Nummer vier" mein Ergebnis sehr stark (Beta-Gewicht nahe 0,7).
Mir wurde jedoch gesagt, dass dies nicht ausreicht, da einige meiner "unabhängigen" Variablen tatsächlich miteinander korreliert sein können. In diesem Fall könnte ich denken, dass "Variable vier" meine abhängige Variable antreibt, wenn tatsächlich drei und vier gleichermaßen einen Beitrag leisten könnten. Das scheint richtig zu sein, aber da ich neu darin bin, bin ich mir nicht sicher.
Wie kann ich dieses Problem in Zukunft systematisch vermeiden? Welche spezifischen Verfahren würden Sie empfehlen, wenn Sie die multiple Regression verwenden, um sicherzustellen, dass Ihre "unabhängigen" Daten nicht bereits versteckte Korrelationen enthalten?
Bearbeiten: Die Daten selbst sind eine Reihe von Netzwerkmodellen (Grafiken) eines bestimmten neurologischen Zustands. Ich messe den "Clustering-Koeffizienten", der die Topologie jedes Netzwerks als Ganzes beschreibt (hier abhängige Variable), und sehe dann, ob die einzelnen Konnektivitäten von vier Knoten im größeren Netzwerk über 100 die globalen Clustering-Werte steuern (vier unabhängige) Variablen). Diese Knoten sind jedoch Teil eines Netzwerks, so dass es per Definition möglich ist, dass sie zu einem gewissen Grad korrelieren.
Antworten:
Sie können dieses Problem nicht "in Zukunft systematisch vermeiden", da es nicht als "Problem" bezeichnet werden sollte. Wenn die Realität der materiellen Welt starke Kovariaten aufweist, sollten wir dies als Tatsache akzeptieren und unsere Theorien und Modelle entsprechend anpassen. Ich mag die Frage sehr und hoffe, dass das Folgende nicht zu enttäuschend klingt.
Hier sind einige Anpassungen, die für Sie funktionieren könnten. Sie müssen ein Regressionshandbuch lesen, bevor Sie fortfahren können.
Diagnostizieren Sie das Problem mithilfe von Korrelations- oder Nachschätzungstechniken wie dem Varianzinflationsfaktor (VIF). Verwenden Sie die von Peter Flom genannten Tools, wenn Sie SAS oder R verwenden. Verwenden Sie
pwcorr
in Stata, um eine Korrelationsmatrixgr matrix
zu erstellen, eine Streudiagrammmatrix zu erstellen undvif
problematische Toleranzwerte von 1 / VIF <0,1 zu erkennen.Messen Sie den Interaktionseffekt, indem Sie beispielsweise
var3*var4
dem Modell hinzufügen . Der Koeffizient hilft Ihnen zu erkennen, wie viel zwischenvar3
und spieltvar4
. Dies bringt Sie nur so weit, die Interaktion teilweise zu messen, rettet Ihr Modell jedoch nicht aus seinen Einschränkungen.Wenn Sie eine starke Multikollinearität oder andere Probleme wie Heteroskedastizität feststellen, sollten Sie vor allem Ihr Modell fallen lassen und erneut beginnen. Modellfehlspezifikation ist die Plage der Regressionsanalyse (und der frequentistischen Methoden im Allgemeinen). Paul Schrodt hat mehrere ausgezeichnete Artikel zu diesem Thema, einschließlich seiner jüngsten " Sieben Todsünden ", die ich sehr mag.
Dies beantwortet Ihren Standpunkt zur Multikollinearität, und vieles davon kann aus dem Regressionshandbuch bei UCLA Stat Computing gelernt werden . Es beantwortet Ihre Frage zur Kausalität nicht. Kurz gesagt, Regression ist niemals kausal. Es gibt auch kein statistisches Modell: Kausale und statistische Informationen sind getrennte Arten. Lesen Sie selektiv aus Judea Pearl ( Beispiel ), um mehr darüber zu erfahren.
Alles in allem hebt diese Antwort nicht den Wert der Regressionsanalyse oder sogar der frequentistischen Statistik auf (ich unterrichte zufällig beides). Dies verringert jedoch den Umfang der Angemessenheit und unterstreicht auch die entscheidende Rolle Ihrer anfänglichen Erklärungstheorie, die wirklich die Möglichkeit bestimmt, dass Ihr Modell kausale Eigenschaften besitzt.
quelle
Wenn Sie sehen möchten, ob die unabhängigen Variablen korreliert sind, ist dies einfach. Testen Sie einfach die Korrelationen, z. B. mit PROC CORR in SAS oder cor in R oder was auch immer in dem von Ihnen verwendeten Paket.
Möglicherweise möchten Sie jedoch stattdessen oder zusätzlich die Kollinearität testen.
Aber das ist nur ein Teil des Kausalitätsproblems. Problematischer ist, dass eine Variable beteiligt ist, die NICHT in Ihren Daten enthalten ist. Klassische Beispiele:
Studenten, die Tutoren einstellen, erhalten schlechtere Noten als Studenten, die keine Tutoren einstellen.
Die Höhe des durch ein Feuer verursachten Schadens hängt stark von der Anzahl der Feuerwehrmänner ab, die auftauchen.
und (mein Favorit)
Wenn Sie den IQ in Bezug auf das astrologische Zeichen und das Alter bei Kindern im Alter von 5 bis 12 Jahren zurückführen, gibt es eine signifikante Interaktion und einen signifikanten Effekt des Zeichens auf den IQ, jedoch nur bei kleinen Kindern.
Gründe: 1. Ja. Weil Studenten, die wirklich gute Noten bekommen, dazu neigen, überhaupt keine Tutoren einzustellen
Ja, weil größere Brände mehr Schaden anrichten und mehr Feuerwehrmänner bringen
Die Anzahl der Schulen (in Monaten), die ein Kind hatte, hängt vom Geburtsmonat ab. Schulsysteme haben Altersgrenzen. Ein 6-Jähriger hatte also möglicherweise 11 Monate mehr Schule als ein anderer 6-Jähriger.
Und das alles ohne in die Philosophie einzusteigen!
quelle
Der Zusammenhang zwischen Kausalität und Assoziation besteht im Wesentlichen in der Beantwortung der folgenden Frage:
Solange die Antwort auf diese Frage nicht "nichts" ist, kann man nur definitiv über Assoziation sprechen. Es kann immer sein, dass ein vorgeschlagener "Kausalzusammenhang" tatsächlich ein Sonderfall des "richtigen" Kausalzusammenhangs ist - genau das ist zwischen Newtons und Einsteins Gravitationstheorie passiert, denke ich. Newtons Kausalzusammenhang war ein Sonderfall von Einsteins Theorie. Und seine Theorie wird wahrscheinlich ein Sonderfall einer anderen Theorie sein.
Darüber hinaus beseitigt jeder Fehler in Ihren Daten die Möglichkeit eines eindeutigen Kausalzusammenhangs. Dies liegt daran, dass der Ausdruck "A verursacht B" eine deduktive Verbindung zwischen A und B darstellt. Um diese Hypothese zu widerlegen, müssen Sie lediglich einen Fall finden, in dem B nicht vorhanden ist, A jedoch vorhanden ist (denn dann ist A wahr , aber das sollte bedeuten, dass B auch wahr ist - aber wir haben B falsch beobachtet).
Sie benötigen auch eine physikalische Theorie über den "Kausalmechanismus" (wenn ich diesen Knopf drücke, geht das Licht an, wenn ich diesen Knopf drücke, ändert das Licht seine Farbe usw.). Wenn Sie nur wissen, dass der "Regressionskoeffizient 0,7" war, trägt dies wenig dazu bei, einen Kausalmechanismus zu etablieren, der am Werk ist.
quelle
Ich bin mir nicht sicher, auf welchem Gebiet Ihre Arbeit liegt, daher kann dies hilfreich sein oder auch nicht - aber ich bin am besten mit der Verwendung von SPSS mit psychologischen Konstrukten vertraut. Wenn nach meiner Erfahrung einige Variablen eine Ergebnisvariable (oder abhängige Variable) in einer Regression vorhersagen und eine oder mehrere unabhängige Variablen als signifikante Prädiktoren angezeigt werden, besteht der nächste Schritt darin, festzustellen, welche Variablen inkrementell wichtiger sind als Andere. Eine Möglichkeit, dies zu erreichen, ist die hierarchische Regression. Dies beantwortet im Wesentlichen die Frage: "Wenn ich bereits 'Variable vier' habe, um meine Ergebnisvariable vorherzusagen, bietet eine der anderen Variablen eine statistisch signifikante Steigerung der Vorhersagekraft?" SPSS hat eine ziemlich klare Methode, dies zu analysieren, wie ich sicher bin, dass R und SAS dies auch tun. Damit, Ich denke, hierarchische Regression könnte Ihr nächster Schritt sein, um herauszufinden, ob 'Variable vier' wirklich die beste Wahl für die Vorhersage Ihres Ergebnisfaktors ist. Die anderen, die geantwortet haben, haben die Probleme der Korrelationsursache gut diskutiert, also lasse ich das in Ruhe ... Viel Glück!
quelle