Asymptotische Verteilung zensierter Proben aus

8

Sei die Ordnungsstatistik einer iid-Stichprobe der Größe n aus \ exp (\ lambda) . Angenommen, die Daten werden zensiert, sodass nur die obersten (1-p) \ mal 100% Prozent der Daten angezeigt werden, dh X _ {(\ lfloor pn \ rfloor)}, X _ {(\ lfloor pn \ rfloor + 1)} , \ ldots, X _ {(n)} \,. Setzen Sie m = \ lfloor pn \ rfloor , was ist die asymptotische Verteilung von \ left (X _ {(m)}, \ frac {\ sum_ {i = m + 1} ^ n X _ {(i)}} {(nm) } \Recht)? X(1),,X(n)nexp(λ)(1p)×100

X(pn),X(pn+1),,X(n).
m=pn
(X(m),i=m+1nX(i)(nm))?

Dies ist etwas im Zusammenhang mit dieser Frage und diese und auch geringfügig auf diese Frage.

Jede Hilfe wäre dankbar. Ich habe verschiedene Ansätze ausprobiert, konnte aber nicht viel erreichen.

Sie
quelle
Man kann zeigen, dass abhängig von X(m) , Vektor (X(m+1)X(m),,X(n)X(m)|X(m)) wird als Ordnungsstatistik von {Yi}1nm iid-Proben aus exp(1) (wobei m wie in der Frage definiert ist, dh m=pn ), daher 1mni=m+1nX(i)X(m)|X(m)=1mni=1nmY(i) an der Grenze n wir die CLT aufgrund der Unabhängigkeit von Yi , dies scheint der richtige Weg zu sein, aber Ich kann dieses Argument nicht weiter vorantreiben und finde asymptotisch für (X(m),1mni=m+1nX(i)) . .
Sie
2
Zu OP: Warum bezeichnen Sie Ihre Stichprobe als zensiert? Der Begriff zensiert würde bedeuten, dass Werte unterhalb des Zensurpunkts als 0 oder am Zensurpunkt usw. aufgezeichnet werden. Aber das ist nicht das, was Sie tun ... Sie verwerfen sie, was nicht zensiert ... es ist eher wie sie abschneiden. Und da Sie die asymptotische Verteilung in Betracht ziehen und n als groß betrachten, warum ist es Ihnen wichtig, zuerst die Probe zu bestellen und die geordnete Probe abzuschneiden? Warum nicht einfach eine abgeschnittene Exponentialverteilung betrachten, die unten bei p% abgeschnitten ist, und dann die Terme davon summieren?
Wolfies
@ Wolfies, ich habe alle Tippfehler behoben, auf die Sie hingewiesen haben. Ich werde mich mit der abgeschnittenen Verteilung befassen . In Bezug auf die Zensur habe ich die Notiz gelöscht. Einige Quellen, die ich mir angesehen habe, beziehen sich jedoch auf ein ähnliches Problem wie die Zensur vom
sie sind der
1
@them das ist meines Wissens keine Standardterminologie. Sie sollten hier ein abgeschnittenes Modell verwenden .
Shadowtalker

Antworten:

2

Da nur ein Skalierungsfaktor ist, wählen Sie ohne Verlust der Allgemeinheit Maßeinheiten, die , und machen Sie die zugrunde liegende Verteilungsfunktion mit der Dichte .λλ=1F(x)=1exp(x)f(x)=exp(x)

Aus Überlegungen, die denen des zentralen Grenzwertsatzes für Stichprobenmediane entsprechen , ist asymptotisch normal mit dem Mittelwert und der VarianzX(m)F1(p)=log(1p)

Var(X(m))=p(1p)nf(log(1p))2=pn(1p).

Aufgrund der memorylosen Eigenschaft der Exponentialverteilung wirken die Variablen wie die Ordnungsstatistik einer Zufallsstichprobe von die aus , zu der wurde hinzugefügt. Schreiben(X(m+1),,X(n))nmFX(m)

Y=1nmi=m+1nX(i)

für ihre mittleren, ist es sofort , dass der Mittelwert von die Mittelwert ist (gleich ) und die Varianz von ist mal die Varianz von (entspricht auch ). Der zentrale Grenzwertsatz impliziert, dass das standardisierte asymptotisch Standard Normal ist. Da bedingt unabhängig von , haben wir gleichzeitig die standardisierte Version von , die asymptotisch Standard Normal wird und nicht mit korreliert . Das ist,YF1Y1/(nm)F1YYX(m)X(m)Y

(1)(X(m)+log(1p)p/(n(1p)),YX(m)1nm)

hat asymptotisch eine bivariate Standardnormalverteilung.


Der Grafikbericht über simulierte Daten für Stichproben von ( Iterationen) und . Eine Spur positiver Schiefe bleibt bestehen, aber der Ansatz zur bivariaten Normalität zeigt sich in der fehlenden Beziehung zwischen und und der Nähe der Histogramme zur Standardnormaldichte (gezeigt in rote Punkte). 500 p = 0,95 Y - X ( m ) X ( m )n=1000500p=0.95YX(m)X(m)Zahl

Die Kovarianzmatrix der standardisierten Werte (wie in Formel ) für diese Simulation war bequem nahe an der Einheitsmatrix, die sie approximiert.( 0,967 - 0,021 - 0,021 1,010 ) ,(1)

(0.9670.0210.0211.010),

Der RCode, der diese Grafiken erstellt hat, kann leicht geändert werden, um andere Werte von , und Simulationsgröße zu untersuchen.pnp

n <- 1e3
p <- 0.95
n.sim <- 5e3
#
# Perform the simulation.
# X_m will be in the first column and Y in the second.
#
set.seed(17)
m <- floor(p * n)
X <- apply(matrix(rexp(n.sim * n), nrow = n), 2, sort)
X <- cbind(X[m, ], colMeans(X[(m+1):n, , drop=FALSE]))
#
# Display the results.
#
par(mfrow=c(2,2))

plot(X[,1], X[,2], pch=16, col="#00000020", 
     xlab=expression(X[(m)]), ylab="Y",
     main="Y vs X", sub=paste("n =", n, "and p =", signif(p, 2)))

plot(X[,1], X[,2]-X[,1], pch=16, col="#00000020", 
     xlab=expression(X[(m)]), ylab=expression(Y - X[(m)]),
     main="Y-X vs X", sub="Loess smooth shown")
lines(lowess(X[,2]-X[,1] ~ X[,1]), col="Red", lwd=3, lty=1)

x <- (X[,1] + log(1-p))  / sqrt(p/(n*(1-p)))
hist(x, main="Standardized X", freq=FALSE, xlab="Value")
curve(dnorm(x), add=TRUE, col="Red", lty=3, lwd=2)

y <- (X[,2] - X[,1] - 1) * sqrt(n-m)
hist(y, main="Standardized Y-X", freq=FALSE, xlab="Value")
curve(dnorm(x), add=TRUE, col="Red", lty=3, lwd=2)
par(mfrow=c(1,1))

round(var(cbind(x,y)), 3) # Should be close to the unit matrix
whuber
quelle