Formel für 95% -Konfidenzintervall für

13

Ich habe in stats.stackexchange gegoogelt und gesucht, aber ich kann die Formel zum Berechnen eines 95% -Konfidenzintervalls für einen -Wert für eine lineare Regression nicht finden. Kann es jemand bereitstellen?R2

Nehmen wir einmal an, ich hätte die folgende lineare Regression in R ausgeführt. Wie würde ich ein 95% -Konfidenzintervall für den Wert unter Verwendung des R-Codes berechnen?R2

lm_mtcars <- lm(mpg ~ wt, mtcars)
Luciano
quelle
1
Nun, Sie wissen, dass die Beziehung zwischen der Korrelation und R 2 darin besteht, dass Sie den Korrelationskoeffizienten quadrieren, um R 2 zu erhalten. Warum also nicht das Konfidenzintervall für r berechnen und dann die unteren und oberen Grenzen des Intervalls quadrieren ? rR2R2r
1
@ZERO: Das funktioniert in einer einfachen linearen Regression, dh mit einem einzelnen Prädiktor und einem Achsenabschnitt. Bei mehreren linearen Regressionen mit mehr als einem Prädiktor funktioniert dies nicht.
Stephan Kolassa
@StephanKolassa, sehr wahr! Ich glaube, ich habe es auf seinen RCode gestützt, in dem es nur einen Regressor gibt, aber das ist ein sehr guter Punkt, um das zu klären.
Sie können zum Beispiel verwenden eine sehr kleine R - Funktion github.com/mayer79/R-confidence-intervals-R-squared über die Eigenschaften der nicht-zentralen F-Verteilung basiert.
Michael M

Antworten:

16

Sie können es jederzeit booten:

> library(boot)
> foo <- boot(mtcars,function(data,indices)
        summary(lm(mpg~wt,data[indices,]))$r.squared,R=10000)

> foo$t0
[1] 0.7528328

> quantile(foo$t,c(0.025,0.975))
     2.5%     97.5% 
0.6303133 0.8584067

Carpenter & Bithell (2000, Statistics in Medicine) bieten eine lesbare Einführung in die Bootstrapping-Konfidenzintervalle, obwohl sie sich nicht speziell auf .R2

Stephan Kolassa
quelle
1
n=32k=1(0.546,0.960)2
Es kann auch erwähnenswert sein, dass Sie mithilfe von andere Arten von Konfidenzintervallen (z. B. BCa) aus der Bootstrap-Resampling-Verteilung abrufen können boot.ci().
Jeffrey Girard
6

In R können Sie CI.Rsq()die vom psychometrischen Paket bereitgestellte Funktion verwenden . Bezüglich der zutreffenden Formel siehe Cohen et al. (2003) , Angewandte multiple Regressions- / Korrelationsanalyse für die Verhaltenswissenschaften , p. 88

SER2=4R2(1R2)2(nk1)2(n21)(n+3)

R2±2SER2

Durden
quelle
3
(1R2)R2R2nk1>60k+1Zählt einen Achsenabschnitt plus die Anzahl unabhängiger Variablen.) Es wäre nützlich, ein Beispiel zu sehen, das von der Simulation unterstützt wird, da dieses Intervall zu breit erscheint.
Whuber
Nach Wishart (1931) ist die Formel für nichtnormale Verteilungen ungeeignet.
Abukaj