Wie kann ich den Wert von

Die folgenden Grafiken sind Reststreudiagramme eines Regressionstests, für den die Annahmen "Normalität", "Homoskedastizität" und "Unabhängigkeit" mit Sicherheit bereits erfüllt wurden! Zum Testen der "Linearitäts" -Annahme kann zwar anhand der Diagramme vermutet werden, dass die Beziehung krummlinig ist, aber die Frage lautet: Wie kann der Wert für "R2 Linear" zum Testen der Linearitätsannahme verwendet werden? In welchem zulässigen Bereich kann der Wert von "R2 Linear" entscheiden, ob die Beziehung linear ist? Was tun, wenn die Linearitätsannahme nicht erfüllt ist und die Transformation der IVs ebenfalls nicht hilft? !!

Hier ist der Link zu den vollständigen Ergebnissen des Tests.

Streudiagramme:

Bildbeschreibung hier eingeben

multiple-regression linear-model assumptions r-squared Cyrus
quelle

Ich sehe an den Grafiken, dass Sie SPSS verwenden. Öffnen Sie einfach das Diagramm, um es zu bearbeiten, und suchen Sie nach der Schaltfläche "Fit-Linie hinzufügen". Dort finden Sie einige nichtlineare Optionen zum Zeichnen von Linien, z. B. "Löss". Überprüfen Sie, ob diese Option eine einigermaßen gerade Linie ergibt.

TTNPHNS

@ttnphns: Ich habe der Handlung mit Lösslinie 2 die Frage hinzugefügt.

Cyrus

Nun, es scheint ziemlich krummlinig zu sein, nicht wahr? Sie können mehr mit den Loess-Parametern spielen, um zu sehen, was passiert. Wenn die Linie gekrümmt ist, können Sie visuell darauf schließen, dass die Beziehung nicht linear ist.

TTNPHNS

@ Cyrus, ich habe eine allgemeine Antwort auf diese Frage gepostet, wollte aber ein wenig Interpretation in Ihre Zeichnungen einfügen und habe festgestellt, dass ich nicht ganz sicher bin, welche

und

Achsen in Ihrer Zeichnung sind. Können Sie das erklären ?

x

$x$

y

$y$

Makro

@ ttnphns: Ja, es ist krummlinig. Ich weiß nicht, wie ich dieses Modell behandeln soll! In diesem Test (Nr. 2) habe ich 2 IVs, die sich direkt auf den DV (PIT) auswirken. Das Regressionsergebnis zeigte, dass nur 1 der IVs den DV signifikant beeinflusst. Das R2 ist so niedrig (0,172) und die Linearität ist ebenfalls niedrig (zumindest gemäß dem Diagramm, wenn die IV auf niedrigen Niveaus liegt). Ich weiß nicht, ob dieser Test akzeptabel ist oder nicht! Sogar ich habe beide IVs transformiert (indem ich ihre LN berechnet habe) und die Regression erneut ausgeführt, aber das Ergebnis wurde noch schlechter!

Cyrus

Antworten:

Beachten Sie, dass die Linearitätsannahme, von der Sie sprechen, nur besagt, dass das bedingte Mittel von bei eine lineare Funktion ist $Y_i$ $X_i$ . Sie können den Wert von zum Testen dieser Annahme verwenden. $R^2$

Dies liegt daran, dass lediglich die quadratische Korrelation zwischen den beobachteten und vorhergesagten Werten ist und der Wert des Korrelationskoeffizienten die Beziehung zwischen und (linear oder anderweitig) nicht eindeutig bestimmt und beide der folgenden beiden Szenarien möglich sind: $R^2$ $X$ $Y$

Hohe aber die Linearitätsannahme ist in wichtiger Hinsicht immer noch falsch $R^2$
Niedriges aber die Linearitätsannahme ist noch erfüllt $R^2$

Ich werde nacheinander auf Folgendes eingehen:

(1) High aber die Linearitätsannahme ist in einer wichtigen Hinsicht immer noch falsch: $R^2$ Der Trick besteht darin, die Tatsache zu manipulieren, dass die Korrelation für Ausreißer sehr empfindlich ist . Angenommen , Sie haben Prädiktoren , die aus einer Mischungsverteilung erzeugt werden , die Standardnormal ist der Zeit und eine Punktmasse an das anderen und eine Antwortvariable, die ist $X_1, ..., X_n$ $99\%$ $M$ $1\%$

Y_{i} = {\begin{cases} Z_{i} & i f X_{i} \neq M \\ M & i f X_{i} = M \end{cases}

$Y_i = \begin{cases} Z_i & {\rm if \ } X_i \neq M \\ M & {\rm if \ } X_i = M \\ \end{cases}$

wobei und eine positive Konstante ist, die viel größer als , z. B. . Dann werden und fast perfekt korreliert: $Z_i \sim N(\mu,1)$ $M$ $\mu$ $\mu=0, M=10^5$ $X_i$ $Y_i$

u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1

trotz der Tatsache, dass der erwartete Wert von bei nicht linear ist - tatsächlich ist es eine diskontinuierliche Stufenfunktion und der erwartete Wert von hängt nicht einmal von außer wenn . $Y_i$ $X_i$ $Y_i$ $X_i$ $X_i = M$

(2) Niedriges aber die Linearitätsannahme ist noch erfüllt: $R^2$ Der Trick hier besteht darin, die Menge an "Rauschen" um den linearen Trend groß zu machen. Angenommen, Sie haben einen Prädiktor und eine Antwort und das Modell $X_i$ $Y_i$

Y_{i} = β_{0} + β_{1} X_{i} + ε_{i}

$Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i$

war das richtige Modell. Daher ist das bedingte Mittel von gegebenem eine lineare Funktion von , so dass die Linearitätsannahme erfüllt ist. Wenn relativ zu groß ist, ist klein. Beispielsweise, $Y_i$ $X_i$ $X_i$ ${\rm var}(\varepsilon_i) = \sigma^2$ $\beta_1$ $R^2$

x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698

Die Bewertung der Linearitätsannahme ist daher keine Frage, ob in einem tolerierbaren Bereich liegt $R^2$ , sondern vielmehr darum, Streudiagramme zwischen den Prädiktoren / vorhergesagten Werten und der Antwort zu untersuchen und eine (möglicherweise subjektive) Entscheidung zu treffen.

Betreff: Was tun, wenn die Linearitätsannahme nicht erfüllt ist und auch die Transformation der IVs nicht hilft? !!

Wenn Nichtlinearität ein Problem ist, kann es hilfreich sein, Diagramme der Residuen gegenüber jedem Prädiktor zu betrachten. Wenn ein Muster erkennbar ist, kann dies auf Nichtlinearität in diesem Prädiktor hinweisen. Wenn dieses Diagramm beispielsweise eine "schalenförmige" Beziehung zwischen den Residuen und dem Prädiktor aufzeigt, kann dies auf einen fehlenden quadratischen Term in diesem Prädiktor hinweisen. Andere Muster können eine andere funktionale Form anzeigen. In einigen Fällen kann es sein, dass Sie nicht versucht haben, die Transformation zu korrigieren, oder dass das wahre Modell in keiner transformierten Version der Variablen linear ist (obwohl es möglich ist, eine vernünftige Annäherung zu finden).

$R^2$

Makro
quelle

$R^2=1$ $1$ $R^2$ $R^2$ $^2$ $1<x<2$ $R^2$ $R^2$

Michael R. Chernick
quelle

Danke Michael. Meine Stichprobengröße ist 302. Ich würde es begrüßen, wenn Sie sich die Testergebnisse hier ansehen und prüfen könnten, ob sie plausibel und verlässlich sind. TQ

Cyrus

@ Cyrus Dies ist eine schwierige Frage. Residuen sehen so aus, als würden sie wirklich gut in die Norm passen, und ich sehe nichts, was an der linearen Regression falsch wäre. Sie haben eine anständige Datenmenge. Das R-Quadrat ist niedrig, weil die zufällige Rauschkomponente groß ist. Das LOESS-Diagramm zeigt eine gewisse Krümmung bei den niedrigeren Werten der unabhängigen Variablen. Aber ich finde das nicht überzeugend. Ich denke, es könnte linear sein und es zeigt, warum das R-Quadrat in diesem Fall kein guter Indikator ist.

Michael R. Chernick

Tq Michael :) Ja, es ist wirklich verwirrend! Alle Annahmen sind perfekt erfüllt, aber Linearität! Wie Sie in der ersten Grafik oben sehen können, ist das quadratische R2 (0,199) größer als das lineare R2 (0,172), was bedeutet, dass das Modell besser vorhergesagt werden kann. Als ich eine quadratische Regression durchführte (durch Hinzufügen von SC2), war das Streudiagramm im Ergebnis so heteroskedatisch! Ich bin so verwirrt! Ich weiß nicht, was ich mit diesem Modell machen soll! Das einzige Problem ist die geringe Linearität. Ich weiß nicht, wie ich die Linearität rechtfertigen soll, wenn ich die Streudiagramme in meinen Bericht einfüge. Die quadratische Regression schlägt ebenfalls fehl, wenn die Homogenitätsannahme erfüllt ist. Hilfe

Cyrus

Ich denke nicht, dass es verwirrend ist. Es sieht ziemlich linear aus. Es gibt viele Variabilitäten, weshalb das R-Quadrat niedrig ist. Ich denke, die einzige Möglichkeit, die Variabilität zu verringern, besteht darin, eine andere erklärende Variable zu finden.

Michael R. Chernick