Warum unterscheidet sich der Durchschnitt des höchsten Werts aus 100 Zügen aus einer Normalverteilung vom 98. Perzentil der Normalverteilung?

8

Warum unterscheidet sich der Durchschnitt des höchsten Werts aus 100 Ziehungen aus einer Normalverteilung vom 98% -Perzentil der Normalverteilung? Es scheint, dass sie per Definition gleich sein sollten. Aber...

Code in R:

NSIM <- 10000
x <- rep(NA,NSIM)
for (i in 1:NSIM)
{
    x[i] <- max(rnorm(100))
}
qnorm(.98)
qnorm(.99)
mean(x)
median(x)
hist(x)

Ich stelle mir vor, dass ich etwas falsch verstehe, was das Maximum von 100 Ziehungen aus der Normalverteilung sein sollte. Dies zeigt eine unerwartet asymetrische Verteilung der Maximalwerte.

russellpierce
quelle

Antworten:

10

Das Maximum hat keine Normalverteilung. Sein cdf ist wobei das normale Standard-cdf ist. Im Allgemeinen ist es schwierig, die Momente dieser Verteilung analytisch zu ermitteln. Es gibt ein altes Papier von Tippett ( Biometrika , 1925) . Φ ( x )Φ(x)100Φ(x)

Rob Hyndman
quelle
Gibt es eine Möglichkeit, im Klartext auszudrücken, was der Unterschied zwischen einem bestimmten Perzentil und dem Maximum von N Werten ist? Aus einer Laienperspektive ist es schwer zu verstehen, warum ein Datenpunkt, der aus einem bestimmten (Y) Perzentil stammt, (im Durchschnitt) nicht mit dem Topscorer einer Gruppe von 100 / Y identisch sein dürfte. Wenn ich beispielsweise feststellen würde, dass Ihre Antworten im 90. Perzentil eingestuft sind, würde ich erwarten, dass Ihre Antwort normalerweise die beste Antwort unter einer zufällig ausgewählten Gruppe von 10 Antworten ist.
Russellpierce
4
@drknexus Deine Intuition ist korrekt. Extreme (und Beinahe-Extreme) von Stichprobenverteilungen sind jedoch etwas Besonderes: Ihre Werte werden durch die Datenmasse auf einer Seite von ihnen eingeschränkt, während für Elternverteilungen mit unendlichen Schwänzen überhaupt keine Einschränkungen bestehen Werte auf der anderen Seite. So ist beispielsweise die Verteilung eines Maximums (aus einer Verteilung ohne Obergrenze) positiv verzerrt. Dies erhöht die Erwartung gegenüber dem entsprechenden Perzentil.
whuber
2

Ich fragte, warum es einen Unterschied zwischen dem Durchschnitt der maximal 100 Ziehungen aus einer zufälligen Normalverteilung und dem 98. Perzentil der Normalverteilung gibt. Die Antwort, die ich von Rob Hyndman erhielt, war größtenteils akzeptabel, aber technisch zu dicht, um sie ohne Überarbeitung zu akzeptieren. Ich habe mich gefragt, ob es möglich ist, eine Antwort zu geben, die in intuitiv verständlicher Klartext erklärt, warum diese beiden Werte nicht gleich sind.

Letztendlich mag meine Antwort unbefriedigend zirkulär sein; Konzeptionell ist der Grund, warum max (rnorm (100)) tendenziell höher als qnorm (.98) ist, kurz gesagt, weil im Durchschnitt die höchste von 100 zufälligen normalverteilten Punktzahlen gelegentlich ihren erwarteten Wert überschreitet. Diese Verzerrung ist jedoch nicht symmetrisch, da es unwahrscheinlich ist, dass niedrige Punktzahlen die höchsten der 100 Punkte sind, wenn sie gezogen werden. Jede unabhängige Ziehung ist eine neue Chance, den erwarteten Wert zu überschreiten oder ignoriert zu werden, da der erhaltene Wert nicht das Maximum der 100 gezogenen Werte ist. Für eine visuelle Demonstration vergleichen Sie das Histogramm der maximal 20 Werte mit dem Histogramm der maximal 100 Werte. Der Unterschied im Versatz, insbesondere in den Schwänzen, ist stark.

Ich kam indirekt zu dieser Antwort, während ich ein verwandtes Problem / eine verwandte Frage durcharbeitete, die ich in den Kommentaren gestellt hatte. Insbesondere wenn ich feststellen würde, dass die Testergebnisse einer Person im 95. Perzentil liegen, würde ich erwarten, dass ihr Rang im Durchschnitt 95 beträgt, wenn ich sie in einen Raum mit 99 anderen Testteilnehmern stelle. Dies stellt sich als 95 heraus mehr oder weniger der Fall (R-Code) ...

for (i in 1:NSIM)
{
    rank[i] <- seq(1,100)[order(c(qnorm(.95),rnorm(99)))==1]
}
summary(rank)

Als Erweiterung dieser Logik hatte ich ebenfalls erwartet, dass, wenn ich 100 Personen in einen Raum nahm und die Person mit der 95. höchsten Punktzahl auswählte, dann weitere 99 Personen nahmen und sie denselben Test machen ließen, dass die ausgewählte Person im Durchschnitt dies tun würde Platz 95 in der neuen Gruppe. Dies ist aber nicht der Fall (R-Code) ...

for (i in 1:NSIM)
{
    testtakers <- rnorm(100)
    testtakers <- testtakers[order(testtakers)]
    testtakers <- testtakers[order(testtakers)]
    ranked95 <- testtakers[95]
    rank[i] <- seq(1,100)[order(c(ranked95,rnorm(99)))==1]
}
summary(rank)

Was den ersten Fall vom zweiten unterscheidet, ist, dass im ersten Fall die Punktzahl des Individuums ihn genau auf das 95. Perzentil bringt. Im zweiten Fall kann sich herausstellen, dass ihre Punktzahl etwas höher oder niedriger als das wahre 95. Perzentil ist. Da sie möglicherweise nicht höher als 100 rangieren können, können Gruppen, die einen Rang 95-Wert erzielen, der tatsächlich beim 99. Perzentil oder höher liegt, (in Bezug auf den durchschnittlichen Rang) die Fälle nicht ausgleichen, in denen der Rang 95-Wert viel niedriger als der wahre 90. Wert ist Perzentil. Wenn Sie sich die Histogramme für die beiden in dieser Antwort angegebenen Rangvektoren ansehen, ist leicht zu erkennen, dass es an den oberen Enden eine Einschränkung des Bereichs gibt, die eine Folge dieses von mir beschriebenen Prozesses ist.

russellpierce
quelle
2

Es gibt zwei Probleme: Eines ist die Schiefe bei der Verteilung des von Ihnen identifizierten Spitzenwerts; Das andere ist, dass Sie nicht auf das 98. Perzentil schauen sollten.

Betrachten Sie anstelle des Mittelwerts des höchsten Werts den Median. Dies ist einfacher, da es sich um eine Auftragsstatistik handelt. Die Wahrscheinlichkeit, dass alle 100 Werte kleiner als das Quantil ist daher ist das mittlere Quantil für das Maximum, wenn , dh , eher mehr als . Aber wegen der Schiefe würde man erwarten, dass der Mittelwert noch höher ist.q 100 q 100 = 1qq100 q=1q100=120,98q=121/1000.993090.98

Zur Veranschaulichung in R.

require(matrixStats)
NSIM <- 100001
cases <- 100
set.seed(1)
simmat <- matrix(rnorm(cases*NSIM), ncol=cases)
tops <- rowMaxs(simmat)
c(mean(tops), median(tops), qnorm(1/2^(1/cases)))
c(pnorm(mean(tops)), pnorm(median(tops)), 1/2^(1/cases))

was gibt

> c(mean(tops), median(tops), qnorm(1/2^(1/cases)))
[1] 2.508940 2.464794 2.462038
> c(pnorm(mean(tops)), pnorm(median(tops)), 1/2^(1/cases))
[1] 0.9939453 0.9931454 0.9930925
Henry
quelle
1

Um Robs Antwort ein wenig zu erweitern, nehmen wir an, wir möchten die kumulative Verteilungsfunktion (CDF) des höchsten Werts von unabhängigen Zügen aus einer Standardnormalverteilung . Nennen Sie diesen höchsten Wert , die Statistik erster Ordnung. Dann ist die CDF:X 1 , . . . , X N Y 1NX1,...,XNY1

P(Y1<x)=P(max(X1,...,XN)<x)=P(X1<x,...,XN<x)=P(X1<x)P(XN<x)=P(X<x)100,
wobei die zweite Zeile durch Unabhängigkeit von folgt zeichnet. Wir können dies auch schreiben als wobei die CDF darstellt und die PDF der Zufallsvariablen darstellt, die als Index für diese Funktion angegeben ist.
FY1(x)=FX(x)100,
Ff

Rob verwendet die Standardnotation, dass als für eine Standardnormalen definiert ist - dh ist die normale Standard-CDF.Φ(x)P(X<x) Φ(x)

Die Wahrscheinlichkeitsdichtefunktion (PDF) der Statistik erster Ordnung ist nur die Ableitung der CDF in Bezug auf : der CDF bei erhöht auf 99 (dh ) mal das PDF bei mal 100 (dh ).X

fY1(x)=100FX(x)99fX(x)
xN1xN
Charlie
quelle
Es scheint etwas mit Ihrer endgültigen Gleichung nicht zu stimmen (ich habe den Satz korrigiert, ihn aber genau so übersetzt, wie Sie ihn zuvor hatten). Was ist ? Auch das PDF von ist nicht äquivalent zu . In der Tat, wenn eine Normalverteilung (oder eine kontinuierliche Verteilung) hat, dann ist beliebiges , so dass dies unmöglich das PDF sein kann. X1XP(X=x)XP(X=x)=0x
Makro
@ Macro, ist die erste Ziehung von unabhängigen Ziehungen; ist die Statistik erster Ordnung (möglicherweise möchten Sie stattdessen schreiben ). Ich habe die Notation als Antwort auf Ihre anderen Kommentare präzisiert. X1NY1X(1)
Charlie