Als einfaches Beispiel wird angenommen, dass es zwei lineare Regressionsmodelle gibt
- Modell 1 hat drei Prädiktoren
x1a
,x2b
undx2c
- Modell 2 hat drei Prädiktoren aus Modell 1 und zwei zusätzliche Prädiktoren
x2a
undx2b
Es gibt eine Populationsregressionsgleichung, bei der die erklärte Populationsvarianz für Modell 1 für Modell 2 . Die durch Modell 2 erklärte inkrementelle Varianz in der Population ist ρ 2 ( 2 ) Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )
Ich bin daran interessiert, Standardfehler und Konfidenzintervalle für einen Schätzer von . Während das Beispiel 3 bzw. 2 Prädiktoren umfasst, betrifft mein Forschungsinteresse eine breite Palette unterschiedlicher Anzahlen von Prädiktoren (z. B. 5 und 30). Mein erster Gedanke war, als Schätzer zu verwenden und es zu booten, aber ich war mir nicht sicher, ob dies der Fall sein würde sei anständig. Δ r 2 a d j = r 2 a d j ( 2 ) - r 2 a d j ( 1 )
Fragen
- Ist ein vernünftiger Schätzer für ? Δ ρ 2
- Wie kann ein Konfidenzintervall für die Änderung des Populations-R-Quadrats erhalten werden (dh )?
- Wäre Bootstrapping für die Berechnung des Konfidenzintervalls geeignet?
Hinweise auf Simulationen oder die veröffentlichte Literatur sind ebenfalls sehr willkommen.
Beispielcode
Wenn es hilft, habe ich in R einen kleinen Simulationsdatensatz erstellt, mit dem eine Antwort demonstriert werden kann:
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
Grund zur Sorge um Bootstrap
Ich habe einen Bootstrap für einige Daten mit etwa 300 Fällen und 5 Prädiktoren im einfachen Modell und 30 Prädiktoren im vollständigen Modell ausgeführt. Während die Stichprobenschätzung unter Verwendung der angepassten r-Quadrat-Differenz war 0.116
, war das Boostrapped-Konfidenzintervall meist größer als CI95% (0,095 bis 0,214) und der Mittelwert der Bootstraps lag bei weitem nicht in der Nähe der Stichprobenschätzung. Vielmehr schien der Mittelwert der Boostrapped-Proben auf der Stichprobenschätzung der Differenz zwischen den r-Quadraten in der Probe zentriert zu sein. Dies trotz der Tatsache, dass ich die stichprobenangepassten r-Quadrate verwendet habe, um die Differenz abzuschätzen.
Interessanterweise habe ich eine alternative Methode zur Berechnung von als ausprobiert
- Berechnen Sie die Änderung des R-Quadrats der Stichprobe
- Passen Sie die Änderung des R-Quadrats der Stichprobe mithilfe der standardmäßigen angepassten R-Quadrat-Formel an
Bei Anwendung auf die Probendaten reduzierte dies die Schätzung von auf, aber die Konfidenzintervalle schienen für die zuerst erwähnte Methode CI95% (.062, .179) mit einem Mittelwert von .118 angemessen zu sein..082
Im Allgemeinen bin ich besorgt, dass beim Bootstrapping davon ausgegangen wird, dass es sich bei der Stichprobe um die Grundgesamtheit handelt, und daher Schätzungen, die sich aufgrund einer Überanpassung verringern, möglicherweise nicht angemessen funktionieren.
quelle
Antworten:
BevölkerungR2
Ich versuche zunächst, die Definition der Bevölkerung im R-Quadrat zu verstehen .
Zitieren Sie Ihren Kommentar:
Ich denke, Sie meinen, dies ist die Grenze der Stichprobe wenn man das Modell unendlich oft repliziert (mit den gleichen Prädiktoren bei jedem Replikat).R2
Wie lautet also die Formel für den asymptotischen Wert der Probe ? Schreiben Sie Ihr lineares Modell wie in /stats//a/58133/8402 und verwenden Sie dieselben Notationen wie dieser Link. Dann kann man überprüfen, ob die Probe zu wenn man das Modell unendlich oft repliziert .R2 Y=μ+σG
R2 popR2:=λn+λ Y=μ+σG
Zum Beispiel:
Population eines SubmodellsR2
Nehmen wir nun an, das Modell ist mit und betrachten Sie das Untermodell .Y=μ+σG H1:μ∈W1 H0:μ∈W0
Dann sagte I oben , dass die Population von Modell ist wo und und dann hat man einfach .R2 H1 popR21:=λ1n+λ1 λ1=∥PZ1μ∥2σ2 Z1=[1]⊥∩W1 ∥PZ1μ∥2=∑(μi−μ¯)2
Definieren Sie nun die Population des Submodells als den asymptotischen Wert des , der in Bezug auf das Modell berechnet wurde, jedoch unter der Verteilungsannahme des Modells ? Der asymptotische Wert (falls vorhanden) scheint schwieriger zu finden.R2 H0 R2 H0 H1
quelle
Anstatt die von Ihnen gestellte Frage zu beantworten, werde ich fragen, warum Sie diese Frage stellen. Ich nehme an, Sie möchten wissen, ob
ist mindestens so gut wie
beim Erklären
y
. Da diese Modelle verschachtelt sind, scheint die naheliegende Möglichkeit, diese Frage zu beantworten, darin zu bestehen, eine Varianzanalyse durchzuführen, in der sie verglichen werden, genauso wie Sie möglicherweise eine Abweichungsanalyse für zwei GLMs durchführen, zDann könnten Sie die Beispiel-R-Quadrat-Verbesserung zwischen Modellen als Ihre beste Vermutung für die Anpassungsverbesserung in der Population verwenden, wobei Sie immer davon ausgehen, dass Sie das R-Quadrat der Population verstehen können. Persönlich bin ich mir nicht sicher, ob ich das kann, aber damit spielt es keine Rolle.
Im Allgemeinen, wenn Sie an Bevölkerungsmengen interessiert sind, sind Sie vermutlich an einer Verallgemeinerung interessiert, sodass ein Stichprobenanpassungsmaß nicht ganz das ist, was Sie wollen, jedoch "korrigiert". Zum Beispiel scheint eine Kreuzvalidierung einer bestimmten Menge, die die Art und Menge der tatsächlichen Fehler schätzt, die Sie aus der Stichprobe erwarten könnten, wie z. B. MSE, genau das zu erreichen, was Sie möchten.
Aber es ist gut möglich, dass mir hier etwas fehlt ...
quelle
Im Folgenden werden einige Möglichkeiten zur Berechnung von Konfidenzintervallen für .ρ2
Doppelt angepasster R-Quadrat-Bootstrap
Meine derzeit beste Vermutung bei einer Antwort ist, einen doppelt angepassten R-Quadrat-Bootstrap zu machen. Ich habe die Technik implementiert. Es beinhaltet Folgendes:
Das Grundprinzip ist, dass das erste angepasste r-Quadrat die durch Bootrapping verursachte Verzerrung beseitigt (dh Bootstrapping setzt voraus, dass das Stichproben-R-Quadrat das Populations-R-Quadrat ist). Das zweite angepasste r-Quadrat führt die Standardkorrektur durch, die auf eine normale Stichprobe angewendet wird, um das r-Quadrat der Population zu schätzen.
An diesem Punkt kann ich nur sehen, dass die Anwendung dieses Algorithmus Schätzungen generiert, die ungefähr richtig erscheinen (dh der Mittelwert von theta_hat im Bootstrap liegt sehr nahe am Beispiel von theta_hat). Der Standardfehler stimmt mit meiner Intuition überein. Ich habe noch nicht getestet, ob es eine angemessene Abdeckung durch Frequentisten bietet, wenn der Datenerzeugungsprozess bekannt ist, und ich bin mir an dieser Stelle auch nicht ganz sicher, wie das Argument anhand der ersten Prinzipien gerechtfertigt werden könnte
Wenn jemand Gründe sieht, warum dieser Ansatz problematisch wäre, wäre ich dankbar, davon zu hören.
Simulation von Algina et al
Stéphane erwähnte den Artikel von Algina, Keselman und Penfield. Sie führten eine Simulationsstudie durch, um die 95% -Konfidenzintervallabdeckung von Bootstrapping- und asymptotischen Methoden zur Schätzung von . Ihre Bootstrapping-Methoden umfassten nur eine einzige Anwendung des angepassten R-Quadrats und nicht die oben erwähnte doppelte Anpassung des R-Quadrats. Sie fanden heraus, dass Bootstrap-Schätzungen nur dann eine gute Abdeckung lieferten, wenn die Anzahl der zusätzlichen Prädiktoren im vollständigen Modell eins oder vielleicht zwei betrug. Ich gehe davon aus, dass dies daran liegt, dass mit zunehmender Anzahl von Prädiktoren auch der Unterschied zwischen dem einfach und doppelt angepassten r-Quadrat-Bootstrap zunimmt.Δρ2
Smithson (2001) über die Verwendung des Noncentrality-Parameters
Smithson (2001) diskutiert die Berechnung von Konfidenzintervallen für das partielle basierend auf dem Nicht-Zentralitätsparameter. Siehe insbesondere die Seiten 615 und 616. Er schlägt vor, dass "es einfach ist, ein CI für und partielles zu konstruieren, aber nicht für die quadratische semipartielle Korrelation." (S.615)R2 f2 R2
Verweise
quelle