Bedingte Erwartung von R-Quadrat

16

Betrachten Sie das einfache lineare Modell:

yy=Xββ+ϵ

wo ϵii.i.d.N(0,σ2) und XRn×p ,p2 undX enthalten eine Spalte von Konstanten.

Meine Frage ist: Gibt es bei E(XX) , β und σ eine Formel für eine nicht triviale Obergrenze für E(R2) *? (unter der Annahme, dass das Modell von OLS geschätzt wurde).

* Ich ging beim Schreiben davon aus, dass es nicht möglich wäre , E(R2) selbst zu erhalten.

EDIT1

Mit der von Stéphane Laurent abgeleiteten Lösung (siehe unten) können wir eine nicht triviale Obergrenze für E(R2) . Einige numerische Simulationen (unten) zeigen, dass diese Grenze tatsächlich ziemlich eng ist.

Stéphane Laurent hat folgendes abgeleitet: wobei eine nicht-zentrale Beta-Verteilung mit ist Nichtzentralitätsparameter mitB ( p - 1 , n - p , λ ) λR2B(p1,np,λ)B(p1,np,λ)λ

λ=||XβE(X)β1n||2σ2

So

E(R2)=E(χp12(λ)χp12(λ)+χnp2)E(χp12(λ))E(χp12(λ))+E(χnp2)

Dabei ist ein nicht zentrales mit dem Parameter und Freiheitsgraden. Also eine nicht triviale Obergrenze für2 λ k E ( R 2 )χk2(λ)χ2λkE(R2) ist ,

λ+p1λ+n1

es ist sehr eng (viel enger als ich erwartet hatte möglich wäre):

Zum Beispiel mit:

rho<-0.75
p<-10
n<-25*p
Su<-matrix(rho,p-1,p-1)
diag(Su)<-1
su<-1
set.seed(123)
bet<-runif(p)

Der Mittelwert der über 1000 Simulationen ist . Die obige theoretische Obergrenze gibt . Die Schranke scheint für viele Werte von gleich genau zu sein . Wirklich erstaunlich!R20.9608190.9609081R2

EDIT2:

Nach weiteren Untersuchungen scheint es , dass die Qualität der oberen Approximation von besser wird, wenn zunimmt (und alle anderen Werte gleich, nimmt mit ).λ + p λ nE(R2)λ+pλn

user603
quelle
hat eine Beta-Verteilung mit Parametern, die nur von n und p abhängen. Nein ? R2np
Stéphane Laurent
1
Leider ist meine vorherige Behauptung nur unter der Hypothese des "Nullmodells" (nur Intercept) wahr. Ansonsten sollte die Verteilung von so etwas wie eine nicht-zentrale Beta-Verteilung sein, wobei ein Nicht-Zentralitätsparameter die unbekannten Parameter enthält. R2
Stéphane Laurent
@ StéphaneLaurent: danke. Möchten Sie mehr über die Beziehung zwischen den unbekannten Parametern und den Parametern der Beta wissen? Ich stecke fest, also wäre jeder Zeiger willkommen ...
user603
Müssen Sie sich unbedingt mit ? Vielleicht gibt es eine einfache exakte Formel für E [ R 2 / ( 1 - R 2 ) ] . E[R2]E[R2/(1-R2)]
Stéphane Laurent
1
Mit den Notationen meiner Antwort ist für einen Skalar k und der erste Moment der nichtzentralen F- Verteilung einfach. R2/(1-R2)=kFkF
Stéphane Laurent

Antworten:

12

Es kann jedes lineare Modell geschrieben werden: wobei G die Standardnormalverteilung auf R n hat und μ als zu einem linearen Unterraum W von R n gehörig angenommen wird . In deinem Fall ist W = Im ( X )Y=μ+σGGRnμWRnW=Im(X) .

Sei der eindimensionale lineare Unterraum, der vom Vektor ( 1 , 1 , , 1 ) erzeugt wird . Mitnahmen U = [ 1 ] unterhalb die R 2 ist stark in Bezug auf die klassischen Fisher - Statistik F = P Z Y 2 / ( m - l )[1]W(1,1,,1)U=[1]R2 für den Hypothesentest vonH0:{& mgr;U}woUWist ein linearer Unterraum und Bezeichnen von Z=UWdem orthogonalen Komplement derUinW, und Bezeichnenm=dim(W)undl=dim(U)

F=PZY2/(m)PWY2/(nm),
H0:{μU}UWZ=UWUWm=dim(W)=dim(U)(dann ist und = 1m=p=1 in Ihrer Situation).

In der Tat ist , da die Definition vonR2ist R2=P Z Y 2

PZY2PWY2=R21R2
R2
R2=PZY2PUY2=1PWY2PUY2.

Offensichtlich und P W Y = σ P W G .PZY=PZμ+σPZGPWY=σPWG

Wenn wahr ist,H0:{μU} dann ist und daher ist F = P Z G 2 / ( m - )PZμ=0 hat dieVerteilungFisherFm-,n-m. Aus der klassischen Beziehung zwischen der Fisher-Verteilung und der Beta-Verteilung ergibt sich folglichR2B(m-,n-m).

F=PZG2/(m)PWG2/(nm)Fm,nm
Fm,nmR2B(m,nm)

In der allgemeinen Situation müssen wir umgehen , wenn P Z & mgr; 0 . In diesem allgemeinen Fall hat man P Z Y 2 ~ σ 2 χ 2 m - l ( λ ) , die nichtzentrale χ 2 Verteilung mit m - l Freiheitsgraden und noncentrality Parametern λ = PZY=PZμ+σPZGPZμ0PZY2σ2χm2(λ)χ2m und dann FFm-,n-m(λ)(nichtzentrale Fisher-Verteilung). Dies ist das klassische Ergebnis zur Berechnung der Potenz vonFλ=PZμ2σ2FFm,nm(λ)F Tests.

Die klassische Beziehung zwischen der Fisher-Distribution und der Beta-Distribution gilt auch in der nicht zentralen Situation. Schließlich hat die nichtzentrale Beta-Verteilung mit "Formparametern" m - und n - m und dem Nichtzentralitätsparameter λR2mnmλ . Ich denke, die Momente sind in der Literatur verfügbar, aber möglicherweise sehr kompliziert.

Zum Schluss schreiben wir . Man beachte, dass P Z = P W - P U ist . Man hat P U μ = ˉ μ 1, wenn U = [ 1 ] und P W μ = μ . Daher ist P Z μ = μ - ˉ μ 1, wobei μ = X β für den unbekannten Parametervektor β ist .PZμPZ=PWPUPUμ=μ¯1U=[1]PWμ=μPZμ=μμ¯1μ=Xββ

Stéphane Laurent
quelle
1
PZxxZP
1
PxPx2
1
Fertig - sehen Sie Vereinfachungen?
Stéphane Laurent
1
μ¯=1nμi
1
(0,)R2/(1R2)