Ich untersuche das Zusammenspiel zweier Variablen ( und ). Zwischen diesen Variablen besteht eine große lineare Korrelation mit . Aus der Natur des Problems kann ich nichts über die Ursache sagen (ob verursacht oder umgekehrt). Ich möchte Abweichungen von der Regressionslinie untersuchen, um Ausreißer zu erkennen. Dazu kann ich entweder eine lineare Regression von als Funktion von erstellen oder umgekehrt. Kann meine Wahl der variablen Reihenfolge meine Ergebnisse beeinflussen?
regression
outliers
linear-model
George
quelle
quelle
Antworten:
Dies ist sicherlich möglich (tatsächlich ist es sogar im Hinblick auf die Annahmen zu Ihren Daten von Bedeutung - Sie treffen nur Annahmen über die Verteilung des Ergebnisses angesichts der Kovariate). In diesem Licht könnten Sie einen Begriff wie "inverse Vorhersagevarianz" nachschlagen. In jedem Fall sagt die lineare Regression nichts über die Kausalität aus! Bestenfalls kann man durch sorgfältiges Design etwas über Kausalität sagen.
quelle
Um den Fall symmetrisch zu machen, kann man die Differenz zwischen den beiden Variablen ( ) gegenüber ihrem Durchschnittswert zurückführen.Δ x
quelle
Die Standardregression minimiert den vertikalen Abstand zwischen den Punkten und der Linie. Durch Umschalten der beiden Variablen wird nun der horizontale Abstand minimiert (bei gleichem Streudiagramm). Eine andere Option (die mehrere Namen trägt) besteht darin, den senkrechten Abstand zu minimieren. Dies kann unter Verwendung von Hauptkomponenten erfolgen.
Hier ist ein R-Code, der die Unterschiede zeigt:
Um nach Ausreißern zu suchen, können Sie einfach die Ergebnisse der Hauptkomponentenanalyse darstellen.
Vielleicht möchten Sie auch Folgendes ansehen:
quelle
Ihre x1- und x2-Variablen sind kollinear. Bei Vorhandensein von Multikollinearität sind Ihre Parameterschätzungen immer noch unvoreingenommen, aber ihre Varianz ist groß, dh Ihre Schlussfolgerung zur Signifikanz der Parameterschätzungen ist ungültig, und Ihre Vorhersage weist große Konfidenzintervalle auf.
Die Interpretation der Parameterschätzungen ist ebenfalls schwierig. Im linearen Regressionsrahmen ist die Parameterschätzung für x1 die Änderung von Y für eine Änderung der Einheit von x1, wenn jede andere exogene Variable im Modell konstant gehalten wird. In Ihrem Fall sind x1 und x2 stark korreliert, und Sie können x2 nicht konstant halten, wenn sich x1 ändert.
quelle