Ich finde, dass einfache Datenanalyseübungen oft dazu beitragen können, statistische Konzepte zu veranschaulichen und zu verdeutlichen. Mit welchen Datenanalyseübungen vermitteln Sie statistische Konzepte?
Da ich die Methoden der Variablenauswahl häufig erläutern muss, nicht im Lehrkontext, sondern für Nicht-Statistiker, die um Hilfe bei ihrer Recherche bitten, mag ich dieses äußerst einfache Beispiel, das zeigt, warum die Auswahl einzelner Variablen nicht unbedingt eine gute Idee ist.
Wenn Sie diesen Datensatz haben:
y X1 x2
1 1 1
1 0 0
0 1 0
0 0 1
Es dauert nicht lange, bis klar ist, dass sowohl X1 als auch X2 für y vollständig nicht informativ sind (wenn sie gleich sind, ist y "sicher" 1 - ich ignoriere hier Stichprobengrößenprobleme, gehe einfach von diesen vier Beobachtungen aus) das ganze Universum sein). Die Kombination der beiden Variablen ist jedoch vollständig informativ. Daher ist es für die Leute einfacher zu verstehen, warum es keine gute Idee ist, (z. B.) nur den p-Wert für Modelle mit jeder einzelnen Variablen als Regressor zu überprüfen.
Nach meiner Erfahrung wird die Botschaft dadurch wirklich vermittelt.
Mehrere Regressionskoeffizienten und der erwartete Vorzeichenfehler
Eine meiner Lieblingsillustrationen eines statistischen Konzepts durch eine Datenanalyseübung ist die Dekonstruktion einer multiplen Regression in multiple bivariate Regressionen.
Ziele
Konzept
Die Regressionskoeffizienten in einem multiplen Regressionsmodell stellen die Beziehung zwischen a) dem Teil einer gegebenen Prädiktorvariablen (x1) dar, der nicht mit allen anderen Prädiktorvariablen (x2 ... xN) im Modell zusammenhängt; und 2) der Teil der Antwortvariablen (Y), der nicht mit allen anderen Prädiktorvariablen (x2 ... xN) im Modell zusammenhängt. Wenn es eine Korrelation zwischen den Prädiktoren gibt, repräsentieren die Vorzeichen, die den Prädiktor-Koeffizienten zugeordnet sind, die Beziehungen zwischen diesen Residuen.
Übung
Der Koeffizient für Schritt 4 für r2 ist der Koeffizient von x1 für das multiple Regressionsmodell mit x1 und x2. Sie können das Gleiche für x2 tun, indem Sie x1 für y und x2 aufteilen.
Hier ist ein R-Code für diese Übung.
set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2) # Multiple regression Model
ry1 <- residuals( lm( y ~ x2) ) # The part of y not related to x2
rx1 <- residuals( lm(x1 ~ x2) ) # The part of x1 not related to x2
lm( ry1 ~ rx1)
ry2 <- residuals( lm( y ~ x1) ) # The part of y not related to x1
rx2 <- residuals( lm(x2 ~ x1) ) # The part of x2 not related to x1
lm( ry2 ~ rx2)
Hier sind die relevanten Ergebnisse und Ergebnisse.
Call:
lm(formula = y ~ x1 + x2)
Coefficients:
(Intercept) ***x1*** ***x2***
-0.02410 ***1.89527*** ***5.07549***
Call:
lm(formula = ry1 ~ rx1)
Coefficients:
(Intercept) ***rx1***
-2.854e-17 ***1.895e+00***
Call:
lm(formula = ry2 ~ rx2)
Coefficients:
(Intercept) ***rx2***
3.406e-17 ***5.075e+00***