Warum unterscheidet sich der Durchschnitt des höchsten Werts aus 100 Ziehungen aus einer Normalverteilung vom 98% -Perzentil der Normalverteilung? Es scheint, dass sie per Definition gleich sein sollten. Aber...
Code in R:
NSIM <- 10000
x <- rep(NA,NSIM)
for (i in 1:NSIM)
{
x[i] <- max(rnorm(100))
}
qnorm(.98)
qnorm(.99)
mean(x)
median(x)
hist(x)
Ich stelle mir vor, dass ich etwas falsch verstehe, was das Maximum von 100 Ziehungen aus der Normalverteilung sein sollte. Dies zeigt eine unerwartet asymetrische Verteilung der Maximalwerte.
r
distributions
maximum
russellpierce
quelle
quelle
Ich fragte, warum es einen Unterschied zwischen dem Durchschnitt der maximal 100 Ziehungen aus einer zufälligen Normalverteilung und dem 98. Perzentil der Normalverteilung gibt. Die Antwort, die ich von Rob Hyndman erhielt, war größtenteils akzeptabel, aber technisch zu dicht, um sie ohne Überarbeitung zu akzeptieren. Ich habe mich gefragt, ob es möglich ist, eine Antwort zu geben, die in intuitiv verständlicher Klartext erklärt, warum diese beiden Werte nicht gleich sind.
Letztendlich mag meine Antwort unbefriedigend zirkulär sein; Konzeptionell ist der Grund, warum max (rnorm (100)) tendenziell höher als qnorm (.98) ist, kurz gesagt, weil im Durchschnitt die höchste von 100 zufälligen normalverteilten Punktzahlen gelegentlich ihren erwarteten Wert überschreitet. Diese Verzerrung ist jedoch nicht symmetrisch, da es unwahrscheinlich ist, dass niedrige Punktzahlen die höchsten der 100 Punkte sind, wenn sie gezogen werden. Jede unabhängige Ziehung ist eine neue Chance, den erwarteten Wert zu überschreiten oder ignoriert zu werden, da der erhaltene Wert nicht das Maximum der 100 gezogenen Werte ist. Für eine visuelle Demonstration vergleichen Sie das Histogramm der maximal 20 Werte mit dem Histogramm der maximal 100 Werte. Der Unterschied im Versatz, insbesondere in den Schwänzen, ist stark.
Ich kam indirekt zu dieser Antwort, während ich ein verwandtes Problem / eine verwandte Frage durcharbeitete, die ich in den Kommentaren gestellt hatte. Insbesondere wenn ich feststellen würde, dass die Testergebnisse einer Person im 95. Perzentil liegen, würde ich erwarten, dass ihr Rang im Durchschnitt 95 beträgt, wenn ich sie in einen Raum mit 99 anderen Testteilnehmern stelle. Dies stellt sich als 95 heraus mehr oder weniger der Fall (R-Code) ...
Als Erweiterung dieser Logik hatte ich ebenfalls erwartet, dass, wenn ich 100 Personen in einen Raum nahm und die Person mit der 95. höchsten Punktzahl auswählte, dann weitere 99 Personen nahmen und sie denselben Test machen ließen, dass die ausgewählte Person im Durchschnitt dies tun würde Platz 95 in der neuen Gruppe. Dies ist aber nicht der Fall (R-Code) ...
Was den ersten Fall vom zweiten unterscheidet, ist, dass im ersten Fall die Punktzahl des Individuums ihn genau auf das 95. Perzentil bringt. Im zweiten Fall kann sich herausstellen, dass ihre Punktzahl etwas höher oder niedriger als das wahre 95. Perzentil ist. Da sie möglicherweise nicht höher als 100 rangieren können, können Gruppen, die einen Rang 95-Wert erzielen, der tatsächlich beim 99. Perzentil oder höher liegt, (in Bezug auf den durchschnittlichen Rang) die Fälle nicht ausgleichen, in denen der Rang 95-Wert viel niedriger als der wahre 90. Wert ist Perzentil. Wenn Sie sich die Histogramme für die beiden in dieser Antwort angegebenen Rangvektoren ansehen, ist leicht zu erkennen, dass es an den oberen Enden eine Einschränkung des Bereichs gibt, die eine Folge dieses von mir beschriebenen Prozesses ist.
quelle
Es gibt zwei Probleme: Eines ist die Schiefe bei der Verteilung des von Ihnen identifizierten Spitzenwerts; Das andere ist, dass Sie nicht auf das 98. Perzentil schauen sollten.
Betrachten Sie anstelle des Mittelwerts des höchsten Werts den Median. Dies ist einfacher, da es sich um eine Auftragsstatistik handelt. Die Wahrscheinlichkeit, dass alle 100 Werte kleiner als das Quantil ist daher ist das mittlere Quantil für das Maximum, wenn , dh , eher mehr als . Aber wegen der Schiefe würde man erwarten, dass der Mittelwert noch höher ist.q 100 q 100 = 1q q100 q=1q100=12 0,98q=121/100≈0.99309 0.98
Zur Veranschaulichung in R.
was gibt
quelle
Um Robs Antwort ein wenig zu erweitern, nehmen wir an, wir möchten die kumulative Verteilungsfunktion (CDF) des höchsten Werts von unabhängigen Zügen aus einer Standardnormalverteilung . Nennen Sie diesen höchsten Wert , die Statistik erster Ordnung. Dann ist die CDF:X 1 , . . . , X N Y 1N X1,...,XN Y1
Rob verwendet die Standardnotation, dass als für eine Standardnormalen definiert ist - dh ist die normale Standard-CDF.Φ(x) P(X<x) Φ(x)
Die Wahrscheinlichkeitsdichtefunktion (PDF) der Statistik erster Ordnung ist nur die Ableitung der CDF in Bezug auf : der CDF bei erhöht auf 99 (dh ) mal das PDF bei mal 100 (dh ).X
quelle