Ist es überhaupt vertretbar, einen Datensatz nach der Größe des Residuums zu schichten und einen Vergleich mit zwei Stichproben durchzuführen?

Ich sehe das als eine Art Ad-hoc-Methode und es scheint mir sehr faul zu sein, aber vielleicht fehlt mir etwas. Ich habe dies in mehreren Regressionen gesehen, aber lassen Sie es uns einfach halten:

y_{i} = β_{0} + β_{1} x_{i} + ε_{i}

$y_{i} = \beta_{0} + \beta_{1} x_{i} + \varepsilon_{i}$

Nehmen Sie nun die Residuen aus dem angepassten Modell

e_{i} = y_{i} - ({\hat{β}}_{0} + {\hat{β}}_{1} x_{i})

$e_{i} = y_{i} - \left( \hat{\beta}_{0} + \hat{\beta}_{1} x_{i} \right)$

und Schichtung der Stichprobe anhand der Größe der Rückstände. Zum Beispiel, sagen die erste Probe ist der Boden 90% der Residuen und die zweite Probe die oberen 10%, dann gehen zwei Probenvergleiche zu tun - ich habe dies sowohl auf der Prädiktor in dem Modell, getan gesehen , und auf Variablen nicht im Modell. Die informelle Logik besagt, dass Punkte mit Werten, die weit über den im Modell erwarteten Werten (dh einem großen Residuum) liegen, sich in gewisser Weise unterscheiden. Dieser Unterschied wird auf diese Weise untersucht. $x$

Meine Gedanken zu diesem Thema sind:

Wenn Sie einen Unterschied von 2 Stichproben bei einem Prädiktor im Modell sehen, gibt es Auswirkungen des Prädiktors, die vom Modell im aktuellen Zustand nicht berücksichtigt werden (dh nichtlineare Auswirkungen).
Wenn bei einer Variablen, die nicht im Modell enthalten ist, ein Unterschied von 2 Stichproben festgestellt wird, sollte er möglicherweise an erster Stelle im Modell enthalten sein.

Eine Sache, die ich empirisch (durch Simulationen) herausgefunden habe, ist, dass, wenn Sie den Mittelwert eines Prädiktors im Modell und auf diese Weise schichten, um die beiden Stichprobenmittelwerte und , dies der Fall ist positiv miteinander korreliert. Dies macht Sinn , da beide Proben auf dem abhängen und $x$ $\overline{x}_{1}$ $\overline{x}_{2}$ $\overline{y}, \overline{x}, \hat{\sigma}_{x}, \hat{\sigma}_{y}$ $\hat{\rho}_{xy}$ . Diese Korrelation erhöht sich, wenn Sie den Cutoff nach unten verschieben (dh den Prozentsatz, den Sie zum Teilen der Stichprobe verwenden). Zumindest muss für einen Vergleich mit zwei Stichproben der Standardfehler im Nenner der Statistik angepasst werden, um die Korrelation zu berücksichtigen (obwohl ich keine explizite Formel für die berechnet habe) Kovarianz). $t$

Wie auch immer, meine grundlegende Frage lautet: Gibt es Gründe dafür? Wenn ja, in welchen Situationen könnte dies hilfreich sein? Klar, ich glaube nicht, dass es etwas gibt, aber vielleicht denke ich nicht richtig darüber nach.

regression residuals Makro
quelle

Verwenden die beiden Stichprobenvergleiche die gleichen IVs? Wenn ja, kann ich den Grund dafür nicht erkennen, da die Restaufteilung diese Informationen bereits verwendet. Kannst du ein Beispiel geben, wo du das gesehen hast, es ist neu für mich?

Michelle

Möglicherweise kann es als Diagnose verwendet werden, um festzustellen, ob Sie eine falsche Modellspezifikation haben - was halten Sie davon?

Makro

Ich sehe keinen anderen Grund, dies zu tun, als ein Diagnosewerkzeug, um problematische Punkte oder fehlende nichtlineare Effekte zu identifizieren, wie in den obigen Kommentaren angedeutet. Ich denke, die beiden Punkte im OP ("Gedanken zum Thema ...") sind ziemlich gut.

Peter Ellis

Diese Technik wird von Loh und seinen Mitautoren verwendet, um Split-Variablen in seinen Baumalgorithmen SUPPORT und, glaube ich, GUIDE zu bestimmen. Da der Datensatz auf diese Weise partitioniert wird, kann davon ausgegangen werden, dass nach einem nichtlinearen Einfluss gesucht wird (der durch eine schrittweise Funktion ersetzt wird), um festzustellen, ob eine Variable tatsächlich vergessen wurde. Ich erinnere mich, dass ich mich gefragt habe, ob das auch klug ist. Vielleicht finden Sie weitere Erklärungen in ihren Papieren (ich erinnere mich nicht).

Momo

Sicher kein Problem. Hier ist Chaudhuri et al. www3.stat.sinica.edu.tw/statistica/j4n1/j4n18/j4n18.htm www3.stat.sinica.edu.tw/statistica/j5n2/j5n217/j5n217.htm Referenzen für SUPPORT und Loh et al Seite für GUIDE stat. wisc.edu/~loh/guide.html

Momo

Antworten:

Der Vergleich der Mittelwerte ist zu schwach: Vergleichen Sie stattdessen die Verteilungen.

Es stellt sich auch die Frage, ob es wünschenswerter ist, die Größen der Residuen (wie angegeben) oder die Residuen selbst zu vergleichen. Deshalb bewerte ich beide.

Um genau zu sein, was gemeint ist, hier ist ein RCode zum Vergleichen von Daten (angegeben in parallelen Arrays und ) durch Regression von auf , Teilen der Residuen in drei Gruppen, indem sie unter das Quantil geschnitten werden $(x,y)$ xy $y$ $x$ und über dem Quantil geschnitten werden und (mittels eines qq-Diagramms) Vergleichen der Verteilungen von Werten, die diesen beiden Gruppen zugeordnet sind. $q_0$ $q_1\gt q_0$ $x$

test <- function(y, x, q0, q1, abs0=abs, ...) {
  y.res <- abs0(residuals(lm(y~x)))
  y.groups <- cut(y.res, quantile(y.res, c(0,q0,q1,1)))
  x.groups <- split(x, y.groups)
  xy <- qqplot(x.groups[[1]], x.groups[[3]], plot.it=FALSE)
  lines(xy, xlab="Low residual", ylab="High residual", ...)
}

Das fünfte Argument für diese Funktion abs0verwendet standardmäßig die Größen (Absolutwerte) der Residuen, um die Gruppen zu bilden. Später können wir dies durch eine Funktion ersetzen, die die Residuen selbst verwendet.

Residuen werden verwendet, um viele Dinge zu erkennen: Ausreißer, mögliche Korrelationen mit exogenen Variablen, Anpassungsgüte und Homoskedastizität. Ausreißer sollten von Natur aus wenige und isoliert sein und daher hier keine bedeutende Rolle spielen. Um diese Analyse einfach zu halten, lassen Sie uns die letzten zwei erkunden: Güte der Anpassung (das heißt, Linearität der - - Beziehung) und homoscedasticity (das heißt, Konstanz der Größe der Residuen). Wir können dies durch Simulation tun: $x$ $y$

simulate <- function(n, beta0=0, beta1=1, beta2=0, sd=1, q0=1/3, q1=2/3, abs0=abs,
                     n.trials=99, ...) {
  x <- 1:n - (n+1)/2
  y <- beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd)
  plot(x,y, ylab="y", cex=0.8, pch=19, ...)
  plot(x, res <- residuals(lm(y ~ x)), cex=0.8, col="Gray", ylab="", main="Residuals")
  res.abs <- abs0(res)
  r0 <- quantile(res.abs, q0); r1 <- quantile(res.abs, q1)
  points(x[res.abs < r0], res[res.abs < r0], col="Blue")
  points(x[res.abs > r1], res[res.abs > r1], col="Red")
  plot(x,x, main="QQ Plot of X",
       xlab="Low residual", ylab="High residual",
       type="n")
  abline(0,1, col="Red", lwd=2)
  temp <- replicate(n.trials, test(beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd), 
                             x, q0=q0, q1=q1, abs0=abs0, lwd=1.25, lty=3, col="Gray"))
  test(y, x, q0=q0, q1=q1, abs0=abs0, lwd=2, col="Black")
}

$y \sim \beta_0 + \beta_1 x + \beta_2 x^2$ sd $q_0$ $q_1$ abs0n.trialsn $(x,y)$ Daten ihrer Residuen und qq-Diagramme mehrerer Versuche - um zu verstehen, wie die vorgeschlagenen Tests für ein bestimmtes Modell funktionieren (bestimmt durch n, das Beta, s und sd). Beispiele für diese Diagramme sind unten aufgeführt.

Verwenden wir nun diese Werkzeuge, um einige realistische Kombinationen von Nichtlinearität und Heteroskedastizität unter Verwendung der absoluten Werte der Residuen zu untersuchen:

n <- 100
beta0 <- 1
beta1 <- -1/n
sigma <- 1/n

size <- function(x) abs(x)
set.seed(17)
par(mfcol=c(3,4))
simulate(n, beta0, beta1, 0, sigma*sqrt(n), abs0=size, main="Linear Homoscedastic")
simulate(n, beta0, beta1, 0, 0.5*sigma*(n:1), abs0=size, main="Linear Heteroscedastic")
simulate(n, beta0, beta1, 1/n^2, sigma*sqrt(n), abs0=size, main="Quadratic Homoscedastic")
simulate(n, beta0, beta1, 1/n^2, 5*sigma*sqrt(1:n), abs0=size, main="Quadratic Heteroscedastic")

Die Ausgabe ist eine Reihe von Plots. Die obere Reihe zeigt eine $x$ $x$ $x$

Absolute Werte

$x$ $x$ $x$

Lassen Sie uns dasselbe tun, genau dieselben Daten verwenden , aber die Residuen selbst analysieren. Zu diesem Zweck wurde der vorherige Codeblock nach dieser Änderung erneut ausgeführt:

size <- function(x) x

Rückstände

$x$

Vielleicht würde die Kombination dieser beiden Techniken funktionieren. Diese Simulationen (und Variationen davon, die der interessierte Leser nach Belieben ausführen kann) zeigen, dass diese Techniken nicht unbegründet sind.

$x$ $(x, \hat{y}-x)$ Wir können erwarten, dass die vorgeschlagenen Tests weniger leistungsfähig sind als regressionsbasierte Tests wie der Breusch-Pagan .

whuber
quelle

Ich stimme beiden Ihrer Punkte zu. Wenn das Modell nicht ausreichend ist, sind die Residuen möglicherweise nicht ungefähr unabhängig und identisch verteilt. Wichtige Variablen könnten weggelassen worden sein oder die funktionale Form der Regressorvariablen könnte falsch sein. In diesem Fall würde ich die Standard-Regressionsdiagnose verwenden, um das Problem zu identifizieren. Sie könnten auch die richtigen Variablen im Modell mit der richtigen Funktionsform haben, aber dennoch eine nicht konstante Varianz. Dies kann nur durch Auftragen von ersichtlich werden $e_{i}$ $x_i$

Andere haben angemerkt, dass dies möglicherweise nur ein Erkundungsinstrument ist, um festzustellen, ob die beiden Datensätze separat modelliert werden sollten. Wenn dies der Fall ist, könnten dies und möglicherweise andere explorative Ansätze in Ordnung sein. Aber die Frage wird dann, was machst du als nächstes? Wenn Sie dann zwei separate Regressionen durchführen und Rückschlüsse auf die Stichproben ziehen möchten, müssen Sie Ihrer Meinung nach irgendwie berücksichtigen, wie Sie die Stichprobe aufteilen.

Michael R. Chernick
quelle

Ich vermute, es gibt mehrere Gründe, dies zu tun, z. B. wenn angenommen wird, dass die Residuen konsistent sind, und die von Ihnen erwähnte Methode dabei hilft, abweichende Beobachtungen zu identifizieren. Daher liefert der zweite Schritt "korrigierte" Schätzer. Es gibt jedoch strengere Techniken, die eine Erkennung von Ausreißern durchführen oder Schätzer bereitstellen, die gegenüber solchen Beobachtungen robust sind, wie Quantilregressionen, LMS (kleinster Median der Quadrate) oder M-Schätzer usw., bei denen alle diese Methoden genau definiert sind und bekannte statistische Eigenschaften. (Dies wurde adressiert von @Michael Chernik)

Eine andere Motivation könnte die Identifizierung von Clustern sein, aber dies ist im Vergleich zu den verfügbaren Techniken zur Clusterdetektion, die ebenfalls gut definiert und weit verbreitet sind, von grundlegender Bedeutung.

In beiden Fällen scheint die Verwendung der Residuen informell und primitiv zu sein, kann aber dennoch als Erkundungsinstrument geduldet werden. Es kommt auch auf die Domain der Leser an. Ich würde dies für einige Sozialwissenschaften akzeptieren, in denen quantitative Instrumente weniger beliebt sind.

JDav
quelle