James-Stein-Schätzer: Wie haben Efron und Morris für ihr Baseball-Beispiel den Schrumpfungsfaktor

18

Ich habe eine Frage zur Berechnung des James-Stein-Schrumpfungsfaktors in dem 1977 erschienenen Scientific American Paper von Bradley Efron und Carl Morris, "Stein's Paradox in Statistics" .

Ich habe die Daten für die Baseballspieler gesammelt und sie sind unten angegeben:

Name, avg45, avgSeason    
Clemente, 0.400, 0.346    
Robinson, 0.378, 0.298    
Howard, 0.356, 0.276    
Johnstone, 0.333, 0.222    
Berry, 0.311, 0.273    
Spencer, 0.311, 0.270    
Kessinger, 0.289, 0.263    
Alvarado, 0.267, 0.210    
Santo, 0.244, 0.269    
Swoboda, 0.244, 0.230    
Unser, 0.222, 0.264    
Williams, 0.222, 0.256    
Scott, 0.222, 0.303    
Petrocelli, 0.222, 0.264    
Rodriguez, 0.222, 0.226    
Campaneris, 0.200, 0.285    
Munson, 0.178, 0.316    
Alvis, 0.156, 0.200

avg45ist der Durchschnitt nach 45 bei Fledermäusen und wird im Artikel mit bezeichnet y. avgSeasonist das Ende der Saison durchschnittlich.

Der James-Stein-Schätzer für den Durchschnitt ( ) ist gegeben durch z = ˉ y + c ( y - ˉ y ) und der Schrumpfungsfaktor c ist gegeben durch (Seite 5 des Scientific American 1977-Artikels) z

z=y¯+c(yy¯)
c
c=1(k3)σ2(yy¯)2,

Dabei ist die Anzahl der unbekannten Mittel. Hier gibt es 18 Spieler, also . Ich kann mit Werten berechnen. Aber ich weiß nicht, wie ich berechnen soll . Die Autoren sagen für den gegebenen Datensatz c = 0,212 .k = 18 ( y - y ) 2 σ 2kk=18(yy¯)2avg45σ2c=0.212

Ich habe versucht, und σ 2 y für σ 2 zu verwenden, aber sie geben nicht die richtige Antwort von c = 0,212σx2σy2σ2c=0,212

Kann jemand so freundlich sein, mir mitzuteilen, wie für diesen Datensatz berechnet wird ?σ2

Anand
quelle
1
Ich weiß, dass MAD ( en.wikipedia.org/wiki/Median_absolute_deviation ) häufig zum Schrumpfen von Wavelets verwendet wird.
Robin Girard

Antworten:

19

Der Parameter ist die (unbekannte) gemeinsame Varianz der Vektorkomponenten, von denen wir annehmen, dass sie normalverteilt sind. Für die Baseballdaten haben wir 45 Y ib i n o m ( 45 , p i ) , also ergibt sich die normale Annäherung an die Binomialverteilung (unter ^ p i = Y i )σ245Yibinom(45,pi)pi^=Yi

p^inorm(mean=pi,var=pi(1pi)/45).

Offensichtlich in diesem Fall sind die Abweichungen nicht gleich, doch wenn sie auf einen gemeinsamen Wert gleich gewesen waren dann könnten wir es mit dem gepoolten Schätzer schätzen σ 2 = p ( 1 - p ) wobei p der Gesamtmittelwert ist p =1

σ^2=p^(1p^)45,
p^ Es sieht so aus, als hätten Efron und Morris dies getan (in der Zeitung von 1977).
p^=11845i=11845Yi=Y¯.

Sie können dies mit dem folgenden R-Code überprüfen. Hier sind die Daten:

y <- c(0.4, 0.378, 0.356, 0.333, 0.311, 0.311, 0.289, 0.267, 0.244, 0.244, 0.222, 0.222, 0.222, 0.222, 0.222, 0.2, 0.178, 0.156)

und hier ist die Schätzung für :σ2

s2 <- mean(y)*(1 - mean(y))/45

Welches ist , σ 20,004332392 . Der Schrumpfungsfaktor im Papier beträgt dannσ^20.004332392

1 - 15*s2/(17*var(y))

c0.2123905k2k3


quelle
Hervorragende Erklärung, ich liebe die normale Approximation des Binomials.
Chamberlain Foncha
14

c=0,212

B. Efron & C. Morris (1975). Datenanalyse mit dem Steinschen Schätzer und seinen Verallgemeinerungen. Journal of the American Statistical Association, 70 (350), 311-319 (Link zum pdf)

oder detaillierter

B. Efron & C. Morris (1974). Datenanalyse mit dem Steinschen Schätzer und seinen Verallgemeinerungen. R-1394-OEO, The RAND Corporation, März 1974 (Link zu pdf) .

Auf Seite 312 sehen Sie, dass Efron & Morris eine Arc-Sin-Transformation dieser Daten verwendet, sodass die Varianz der Schlagmittelwerte ungefähr eins ist:

> dat <- read.table("data.txt", header=T, sep=",")
> yi  <- dat$avg45
> k   <- length(yi)
> yi  <- sqrt(45) * asin(2*yi-1)
> c   <- 1 - (k-3)*1 / sum((yi - mean(yi))^2)
> c
[1] 0.2091971

z

> zi  <- mean(yi) + c * (yi - mean(yi))
> round((sin(zi/sqrt(45)) + 1)/2,3) ### back-transformation
[1] 0.290 0.286 0.282 0.277 0.273 0.273 0.268 0.264 0.259
[10] 0.259 0.254 0.254 0.254 0.254 0.254 0.249 0.244 0.239

Das sind also die Werte des Stein-Schätzers. Für Clemente erhalten wir .290, was der .294 aus dem Artikel von 1977 ziemlich nahe kommt.

Wolfgang
quelle