Ungefähre Auftragsstatistik für normale Zufallsvariablen

38

Gibt es bekannte Formeln für die Ordnungsstatistik bestimmter Zufallsverteilungen? Insbesondere die Statistik erster und letzter Ordnung einer normalen Zufallsvariablen, aber auch eine allgemeinere Antwort wären wünschenswert.

Bearbeiten: Um dies zu verdeutlichen, suche ich nach Näherungsformeln, die mehr oder weniger explizit ausgewertet werden können, nicht nach dem exakten ganzzahligen Ausdruck.

Zum Beispiel habe ich die folgenden zwei Näherungen für die Statistik erster Ordnung (dh das Minimum) eines normalen rv gesehen:

e1:nμn12n1σ

und

e1:nμ+Φ1(1n+1)σ

Die erste davon ergibt für ungefähr was wie eine wild lockere Bindung erscheint.n=200e1:200μ10σ

Die Sekunde gibt während ein schnelles Monte Carlo ergibt , es ist also keine schlechte Annäherung, aber auch nicht großartig was noch wichtiger ist, ich habe keine Ahnung, woher es kommt.e1:200μ2.58σe1:200μ2.75σ

Irgendeine Hilfe?

Chris Taylor
quelle
4
Wenn Sie R verwenden, lesen Sie die ppoints- Funktion.
Kardinal
1
@probabilityislogic hat eine gute Vorstellung von den Näherungswerten, die Sie auflisten. Wäre es überhaupt hilfreich, wenn ich von einem alternativen Standpunkt aus etwas mehr sagen würde, oder haben Sie Ihre Neugier in dieser Angelegenheit gestillt?
Kardinal

Antworten:

31

Die klassische Referenz ist Royston (1982) [1], dessen Algorithmen über explizite Formeln hinausgehen. Es zitiert auch eine bekannte Formel von Blom (1958): mit . Diese Formel ergibt einen Multiplikator von -2,73 für .α=0,375n=200,r=1E(r:n)μ+Φ1(rαn2α+1)σα=0.375n=200,r=1

[1]: Algorithmus AS 177: Erwartete normale Ordnungsstatistik (genau und ungefähr) JP Royston. Zeitschrift der Royal Statistical Society. Reihe C (Angewandte Statistik) Bd. 31, No. 2 (1982), S. 161-165

Aniko
quelle
21

Die Verteilung der i-ten Ordnungsstatistik eines kontinuierlichen Zufalls Variable mit einem PDF wird durch die "Beta-F" -Verbindungsverteilung angegeben. Die intuitive Art, über diese Verteilung nachzudenken, besteht darin, die i-te Ordnungsstatistik in einer Stichprobe von . Damit nun der Wert der i-ten Ordnungsstatistik einer Zufallsvariablen gleich , brauchen wir 3 Bedingungen:NXx
  1. i1 Werte unter , dies hat die Wahrscheinlichkeit für jede Beobachtung, wobei die CDF der Zufallsvariablen X ist.xFX(x)FX(x)=Pr(X<x)
  2. Ni Werte über , dies hat Wahrscheinlichkeitx1FX(x)
  3. 1 Wert innerhalb eines infinitesimalen Intervalls, das , hat diese Wahrscheinlichkeit wobei ist das PDF der ZufallsvariablenxfX(x)dxfX(x)dx=dFX(x)=Pr(x<X<x+dx)X

Es gibt Möglichkeiten, diese Auswahl zu treffen. Wir haben also:(N1)(N1i1)

fi(xi)=N!(i1)!(Ni)!fX(xi)[1FX(xi)]Ni[FX(xi)]i1dx

BEARBEITEN In meinem ursprünglichen Beitrag habe ich einen sehr schlechten Versuch unternommen, von diesem Punkt aus weiterzugehen, und die folgenden Kommentare spiegeln dies wider. Ich habe versucht, dies unten zu korrigieren

Wenn wir den Mittelwert dieses PDFs nehmen, erhalten wir:

E(Xi)=xifi(xi)dxi

Und in diesem Integral nehmen wir die folgende Änderung der Variablen (unter Berücksichtigung von @ henrys Hinweis), und das Integral wird:pi=FX(xi)

E(Xi)=01FX1(pi)Beta(pi|i,Ni+1)dpi=EBeta(pi|i,Ni+1)[FX1(pi)]

Dies ist also der erwartete Wert der inversen CDF, der mit der Delta-Methode gut angenähert werden kann, um Folgendes zu ergeben:

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[EBeta(pi|i,Ni+1)]=FX1[iN+1]

Um eine bessere Annäherung zu erreichen, können wir auf die 2. Ordnung erweitern (Primzahl, die die Differenzierung bezeichnet) und feststellen, dass die zweite Ableitung einer Inversen wie folgt lautet:

2a2FX1(a)=FX(FX1(a))[FX(FX1(a))]3=fX(FX1(a))[fX(FX1(a))]3

Sei . Dann haben wir:νi=FX1[iN+1]

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[νi]VarBeta(pi|i,Ni+1)[pi]2fX(νi)[fX(νi)]3
=νi(iN+1)(1iN+1)2(N+2)fX(νi)[fX(νi)]3

Spezialisiert auf den Normalfall haben wir nun

fX(x)=1σϕ(xμσ)fX(x)=xμσ3ϕ(xμσ)=xμσ2fX(x)
FX(x)=Φ(xμσ)FX1(x)=μ+σΦ1(x)

Beachten Sie, dass Und die Erwartung wird ungefähr:fX(νi)=1σϕ[Φ1(iN+1)]

E[xi]μ+σΦ1(iN+1)+(iN+1)(1iN+1)2(N+2)σΦ1(iN+1)[ϕ[Φ1(iN+1)]]2

Und schlussendlich:

E[xi]μ+σΦ1(iN+1)[1+(iN+1)(1iN+1)2(N+2)[ϕ[Φ1(iN+1)]]2]

Obwohl wie @whuber bemerkt hat, wird dies in den Schwänzen nicht genau sein. Tatsächlich denke ich, dass es wegen der Schiefe einer Beta mit verschiedenen Parametern schlimmer sein kann

Wahrscheinlichkeitslogik
quelle
1
"Maximum Likelihood Estimator einer Zufallsvariablen "? Ich bin mir nicht sicher, was das ist, aber ich denke, Sie haben den Modus (fast) berechnet .
Kardinal
1
Etwas Geheimnisvolles passiert ungefähr zwei Drittel des Weges, wenn plötzlich und ohne Vorwarnung oder Definition auftauchen. μσ
whuber
2
Ich will nicht "aufstapeln", aber es fällt mir auch schwer zu sehen, wie die Menge in Klammern durch eine negative Zahl angenähert werden kann.
Kardinal
1
@probabilityislogic, auf der Ebene der Kalkulation könnten Sie sagen, dass wir in diesem Fall eine bivariate Funktion in Betracht ziehen und einfach über eine Variable anstelle einer anderen maximieren. Ich glaube, es gibt Gründe, mathematisch, statistisch und pädagogisch nicht das zu nennen, was Sie nennen Habe "Maximum Likelihood Estimation" gemacht. Sie sind zu zahlreich, um in diesem Bereich aufgezählt zu werden, aber ein einfaches, das ich für zwingend genug halte, ist, dass wir aus einem bestimmten Grund ein bestimmtes, geheimes Vokabular in der Statistik verwenden. Das aus einer Laune heraus für ein einzelnes Problem zu ändern, kann zu Missverständnissen führen ... / ...
Kardinal
2
@probabilityislogic (+1) für die überarbeitete Antwort. Ein Vorschlag, vielleicht ist besser als "impliziert". Es dauerte ein paar Sekunden, bis sich herausstellte, dass Sie keinen Konvergenzanspruch erhoben hatten.
Kardinal
13

Anikos Antwort basiert auf Bloms bekannter Formel, die eine Auswahl von . Es stellt sich heraus , dass diese Formel ist selbst eine bloße Annäherung an einer genauen Antwort aufgrund G. Elfving (1947), Die asymptotische Verteilung des Bereichs in Proben aus einer normalen Population , Biometrika, Vol. 34, S. 111-119. Die Formel von Elfving zielt auf das Minimum und Maximum der Stichprobe ab, für die die richtige Wahl von Alpha . Bloms Formel ergibt sich, wenn wir durch approximieren .α=3/8π/8π3

Wenn wir die Elfenformel anstelle der Blomschen Näherung verwenden, erhalten wir einen Multiplikator von -2,744165. Diese Zahl liegt näher an Erik Ps exakter Antwort (-2,746) und an der Monte-Carlo-Näherung (-2,75) als an Bloms Näherung (-2,73), ist jedoch einfacher zu implementieren als die exakte Formel.

Hal M. Switkay
quelle
Könnten Sie etwas genauer erläutern, wie durch Elfving (1947) zustande kommt? Es ist nicht offensichtlich in dem Artikel. α=π/8
Anthony
1
Anthony - Ich verlasse mich auf das Lehrbuch Mathematical Statistics von Samuel Wilks, Pub. Wiley (1962). Aufgabe 8.21 auf S. 249 heißt es: "Wenn x_ (1), x_ (n) die Statistik kleinster und größter Ordnung einer Stichprobe der Größe n aus einem fortlaufenden cdf F (x) ... die Zufallsvariable 2n * sqrt {[F (x_ ( 1))] [1-F (x_ (n))]} hat eine Grenzverteilung als n -> unendlich mit mittlerem pi / 2 und Varianz 4- (pi ^ 2) / 4. " (Entschuldigung, ich kenne keinen Markup-Code!) Für eine symmetrische Verteilung ist F (x_ (1)) = 1-F (x_ (n)). Somit ist F (x_ (n)) ungefähr pi / (4n), oder x_ (n) ist ungefähr F ^ (- 1) (pi / (4n)). Die Blom-Formel verwendet die Approximation 3 / (4n).
Hal M. Switkay
Dies erinnert mich an die berüchtigte " " Rechnung, die der Indiana State Legislature zugeschrieben wird. (Obwohl der Wikipedia-Artikel andeutet, dass die populäre Version der Geschichte nicht genau ist.)π=3
steveo'america
7

Je nachdem, was Sie tun möchten, kann diese Antwort hilfreich sein oder auch nicht - ich habe die folgende exakte Formel aus dem Statistikpaket von Maple erhalten .

with(Statistics):
X := OrderStatistic(Normal(0, 1), 1, n):
m := Mean(X):
m;

1/2_t0n!2e1/2_t02(1/21/2erf(1/2_t02))1+n(1+n)!πd_t0

An sich ist dies nicht sehr nützlich (und es könnte wahrscheinlich ziemlich leicht von Hand abgeleitet werden, da es das Minimum von Zufallsvariablen ist), aber es ermöglicht eine schnelle und sehr genaue Approximation für gegebene Werte von - viel genauer als Monte Carlo:nn

evalf(eval(m, n = 200));
evalf[25](eval(m, n = 200));

ergibt -2,746042447 bzw. -2,746042447451154492412344.

(Vollständige Offenlegung - ich behalte dieses Paket bei.)

Erik P.
quelle
1
@ProbabilityIsLogic hat dieses Integral für alle Auftragsstatistiken in der ersten Hälfte seiner Antwort abgeleitet.
whuber