Wie berechnet man die Differenz zweier Steigungen?

Ich frage mich, ob mir etwas Offensichtliches fehlt, aber können Sie dies nicht statistisch mit ANCOVA tun? Ein wichtiger Punkt ist , dass die Pisten in den beiden Regressionen geschätzt werden mit Fehlern. Sie sind Schätzungen der Steigungen in der Gesamtbevölkerung. Wenn es darum geht, ob die beiden Regressionslinien in der Grundgesamtheit parallel sind oder nicht, ist es nicht sinnvoll, direkt mit zu vergleichen, um eine genaue Äquivalenz zu erhalten. Beide unterliegen Fehlern / Unsicherheiten, die berücksichtigt werden müssen. $a_1$ $a_2$

Wenn wir dies unter statistischen Gesichtspunkten betrachten und die Daten zu und für beide Datensätze auf sinnvolle Weise kombinieren können (dh und in beiden Sätzen werden aus den beiden Populationen mit ähnlichen Bereichen für die beiden gezogen Variablen Es ist nur die Beziehung zwischen ihnen, die in den beiden Populationen unterschiedlich ist. Dann können wir die folgenden zwei Modelle anpassen: $x$ $y$ $x$ $y$

\hat{y} = b_{0} + b_{1} x + b_{2} g

$\hat{y} = b_0 + b_1x + b_2g$

und

\hat{y} = b_{0} + b_{1} x + b_{2} g + b_{3} x g

$\hat{y} = b_0 + b_1x + b_2g + b_3xg$

Wobei die Modellkoeffizienten sind und eine Gruppierungsvariable / ein Gruppierungsfaktor ist, der angibt, zu welchem Datensatz jede Beobachtung gehört. $b_i$ $g$

Wir können eine ANOVA-Tabelle oder ein F-Verhältnis verwenden, um zu testen, ob das zweite, komplexere Modell besser zu den Daten passt als das einfachere Modell. Das einfachere Modell besagt, dass die Steigungen der beiden Linien gleich sind ( ), die Linien jedoch um einen Betrag voneinander versetzt sind . $b_1$ $b_2$

Das komplexere Modell beinhaltet eine Wechselwirkung zwischen der Steigung der Linie und der Gruppierungsvariablen. Wenn der Koeffizient für diesen Interaktionsterm signifikant von Null abweicht oder das ANOVA / F-Verhältnis angibt, dass das komplexere Modell besser zu den Daten passt, müssen wir die Nullhypothese ablehnen, dass zwei Linien parallel sind.

Hier ist ein Beispiel in R unter Verwendung von Dummy-Daten. Erstens Daten mit gleichen Steigungen:

set.seed(2)
samp <- factor(sample(rep(c("A","B"), each = 50)))
d1 <- data.frame(y = c(2,5)[as.numeric(samp)] + (0.5 * (1:100)) + rnorm(100),
                 x = 1:100,
                 g = samp)
m1 <- lm(y ~ x * g, data = d1)
m1.null <- lm(y ~ x + g, data = d1)
anova(m1.null, m1)

Welches gibt

> anova(m1.null, m1)
Analysis of Variance Table

Model 1: y ~ x + g
Model 2: y ~ x * g
  Res.Df    RSS Df Sum of Sq      F Pr(>F)
1     97 122.29                           
2     96 122.13  1   0.15918 0.1251 0.7243

Dies zeigt an, dass wir die Nullhypothese gleicher Steigungen in dieser Datenstichprobe nicht ablehnen. Natürlich möchten wir uns versichern, dass wir über genügend Leistung verfügen, um einen Unterschied zu erkennen, wenn es tatsächlich einen gibt, damit wir nicht fälschlicherweise die Null ablehnen, weil unsere Stichprobengröße für den erwarteten Effekt zu klein war.

Jetzt mit verschiedenen Pisten.

set.seed(42)
x <- seq(1, 100, by = 2)
d2 <- data.frame(y = c(2 + (0.5 * x) + rnorm(50),
                       5 + (1.5 * x) + rnorm(50)),
                 x = x,
                 g = rep(c("A","B"), each = 50))
m2 <- lm(y ~ x * g, data = d2)
m2.null <- lm(y ~ x + g, data = d2)
anova(m2.null, m2)

Welches gibt:

> anova(m2.null, m2)
Analysis of Variance Table

Model 1: y ~ x + g
Model 2: y ~ x * g
  Res.Df     RSS Df Sum of Sq     F    Pr(>F)    
1     97 21132.0                                 
2     96   103.8  1     21028 19439 < 2.2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Hier haben wir wesentliche Beweise gegen die Nullhypothese und können sie daher zugunsten der Alternative ablehnen (mit anderen Worten, wir lehnen die Hypothese ab, dass die Steigungen der beiden Linien gleich sind).

Die Interaktionsterme in den beiden von mir angepassten Modellen ( ) geben den geschätzten Unterschied in den Steigungen für die beiden Gruppen an. Für das erste Modell ist die Schätzung des Unterschieds in den Steigungen gering (~ 0,003). $b_3xg$

> coef(m1)
(Intercept)           x          gB        x:gB 
2.100068977 0.500596394 2.659509181 0.002846393

und ein Test dazu würde die Nullhypothese, dass dieser Unterschied in den Steigungen 0 ist, nicht ablehnen können: $t$

> summary(m1)

Call:
lm(formula = y ~ x * g, data = d1)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.32886 -0.81224 -0.01569  0.93010  2.29984 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 2.100069   0.334669   6.275 1.01e-08 ***
x           0.500596   0.005256  95.249  < 2e-16 ***
gB          2.659509   0.461191   5.767 9.82e-08 ***
x:gB        0.002846   0.008047   0.354    0.724    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.128 on 96 degrees of freedom
Multiple R-squared: 0.9941, Adjusted R-squared: 0.9939 
F-statistic:  5347 on 3 and 96 DF,  p-value: < 2.2e-16

Wenn wir uns dem Modell zuwenden, das an den zweiten Datensatz angepasst ist, bei dem wir die Steigungen für die beiden Gruppen unterschiedlich gemacht haben, sehen wir, dass der geschätzte Unterschied in den Steigungen der beiden Linien ~ 1 Einheit beträgt.

> coef(m2)
(Intercept)           x          gB        x:gB 
  2.3627432   0.4920317   2.8931074   1.0048653

Die Steigung für Gruppe "A" beträgt ~ 0,49 ( xin der obigen Ausgabe), während wir die Steigung für Gruppe "B" zur Steigung von Gruppe "A" addieren müssen, um die Steigung für Gruppe "B" zu erhalten. ;; ~ 0,49 + ~ 1 = ~ 1,49. Dies ist ziemlich nahe an der angegebenen Steigung für Gruppe "B" von 1,5. Ein Test für diese Steigungsdifferenz zeigt auch an, dass die Schätzung für die Differenz von 0 weg begrenzt ist: $t$

> summary(m2)

Call:
lm(formula = y ~ x * g, data = d2)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.1962 -0.5389  0.0373  0.6952  2.1072 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 2.362743   0.294220   8.031 2.45e-12 ***
x           0.492032   0.005096  96.547  < 2e-16 ***
gB          2.893107   0.416090   6.953 4.33e-10 ***
x:gB        1.004865   0.007207 139.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.04 on 96 degrees of freedom
Multiple R-squared: 0.9994, Adjusted R-squared: 0.9994 
F-statistic: 5.362e+04 on 3 and 96 DF,  p-value: < 2.2e-16

Gavin Simpson
quelle

Vielen Dank für diese sehr gute Erklärung. Mein Ziel ist es zu verstehen, ob die Sloper weniger oder mehr gleich sind, also denke ich, dass ich ANOVA verwenden werde, um es zu testen.

Dail

Wenn ich zwei Distint-Vektoren habe und deren Steigungen vergleichen möchte, aber ich habe nicht das y (lm (x ~ y), wie kann ich ANOVA verwenden? Ich habe es mit anova (lm (x ~ 1), lm (y) versucht ~ 1)) aber ich bekomme eine Warnung

Dail

Was meinst du hier mit Vektoren? Im R-Sinne oder im mathematischen Sinne? Das ist sehr verschieden von der Frage , die Sie gestellt, so wenden Sie sich bitte eine neue Frage beginnen - Sie nicht diese eine bearbeiten - es ist unmöglich, Verhalten Nachuntersuchungen solchen breite Natur in den Kommentaren.

Gavin Simpson

Nein, ich muss zwei Modelle mit ANOVA vergleichen ... ok, aber wenn ich ein Modell mit dieser Formel erstelle: x ~ 1 und ein anderes Modell mit y ~ 1, erhalte ich die Warnung. Ich spreche im R-Sinne. Wie kann ich?

Dail

@Dail Wenn Sie zwei Regressionen angepasst haben, um zwei Steigungen / Linien zu erhalten, haben Sie x- und y-Daten für beide Datensätze. Wie in meiner Antwort erwähnt, können Sie, wenn xs und ys in den beiden Datensätzen vergleichbar sind, einfach alle Daten kombinieren und eine Gruppierungsvariable hinzufügen. Mein Beispiel zeigt, wie dies mit Dummy-Daten gemacht wird, aber Sie haben bereits x- und y-Daten. Es sind die Daten, die Sie verwendet haben, um die separaten Regressionen anzupassen.

Gavin Simpson

Die erste Frage stammt eigentlich aus der Geometrie. Wenn Sie zwei Zeilen des Formulars haben:

y = a_{1} x + b_{1}

$y=a_1x+b_1$

y = a_{2} x + b_{2}

$y=a_2x+b_2$

$a_1=a_2$

$\tan \alpha=a_1$ $\alpha$ $x$ $a_1$

α = \arctan a_{1}

$\alpha=\arctan a_1$

$2\pi=360$

α = \arctan a_{1} \cdot \frac{360}{2 π} .

$\alpha=\arctan a_1\cdot \frac{360}{2\pi}.$

$\arctan$ atan

Beispiel-R-Code:

> x<-rnorm(100)
> y<-x+1+rnorm(100)/2
> mod<-lm(y~x)
> mod$coef
    (Intercept)           x 
      0.9416175   0.9850303 
    > mod$coef[2]
        x 
0.9850303 
> atan(mod$coef[2])*360/2/pi
       x 
44.56792

Die letzte Zeile ist der Grad.

$a_1$

α = 180 - \arctan a_{1} \cdot \frac{360}{2 π} .

$\alpha=180-\arctan a_1\cdot \frac{360}{2\pi}.$

Hinweis. Während es mir Spaß gemacht hat, mich an die Trigonometrie der High School zu erinnern, ist die wirklich nützliche Antwort die von Gavin Simpson. Da die Steigungen der Regressionslinien Zufallsvariablen sind, sollte zum Vergleich ein statistischer Hypothesenrahmen verwendet werden.

mpiktas
quelle

Dankeschön! Wie erhält man die Steigung aus der Regression? muss ich Koeffizient bekommen und abfangen?

Dail

Vielleicht gibt die lineare Regression die Grade direkt mit einer Funktion zurück?

Dail

sagen degress = +45 und degress = -315 sind nicht die gleiche Zeile? Was spricht nicht über dieselbe Linie?

Dail

Wie berechnet man die Differenz zweier Steigungen?

Antworten: