als Quantilschätzer für das 1% -Quantil von

8

Ich habe kürzlich den folgenden Quantilschätzer für eine kontinuierliche Zufallsvariable in einer (nicht statistischen, angewandten) Arbeit gefunden: Für einen 100-langen Vektor x wird das 1% -Quantil mit Mindest(x) geschätzt . So funktioniert es: Im Folgenden finden Sie eine Darstellung der Kerneldichte der Realisierungen des Mindest(x) -Schätzers aus 100.000 Simulationsläufen von 100 langen Stichproben aus der N.(0,1) -Verteilung. Die vertikale Linie ist der wahre Wert, dh das theoretische 1% -Quantil der N.(0,1) -Verteilung. Der Code für die Simulation wird ebenfalls angegeben.

Geben Sie hier die Bildbeschreibung ein

M=10e5; n=100
quantiles=rep(NA,M)
for(i in 1:M){ set.seed(i); quantiles[i]=min(rnorm(n)) }
plot(density(quantiles),main="Kernel density estimate of quantiles from M=100,000 simulation runs"); abline(v=qnorm(1/n))

Das Diagramm sieht für eine -Verteilung qualitativ ähnlich aus (nur ein Beispiel). In beiden Fällen ist der Schätzer nach unten vorgespannt. Ohne Vergleich mit einem anderen Schätzer ist es jedoch schwierig zu sagen, wie gut es sonst ist. Daher meine Frage: Gibt es alternative Schätzer, die beispielsweise im erwarteten absoluten Fehler oder im erwarteten quadratischen Fehlersinn besser sind?t(3)

Richard Hardy
quelle
3
Nun, 1% von 100 ist 1, also ist das empirische Quantil von 1%. Mindest{X.ich}}
Xi'an
@ Xi'an, gleichzeitig ist es nicht so, dass 1% der Daten niedrigere Werte haben, während 99% der Daten größere Werte haben. Tatsächlich haben 0% der Daten aufgrund des Entwurfs dieses Schätzers niedrigere Werte als . Ich frage mich, ob das kein Problem ist. (In diesem Beispiel können wir davon ausgehen, dass die Verteilung kontinuierlich ist). Mindest(x)
Richard Hardy
1
Andererseits erfordert die Schätzung des 1% -Quantils basierend auf 100 Beobachtungen ein bisschen zu viel von den Daten.
Xi'an
1
"Gut" in welchem ​​Sinne? Was ist Ihre Verlustfunktion und was ist Ihr zugrunde liegendes Wahrscheinlichkeitsmodell?
whuber
2
Das Minimum könnte ein extrem guter Schätzer sein, beispielsweise wenn die Verteilungen eine endliche Untergrenze haben. Wenn der linke Schwanz schwer sein könnte, könnte das Minimum eine extrem große Varianz aufweisen und dadurch ein schlechter Schätzer sein. Symmetrie spielt keine Rolle, da die Verteilung des Minimums vom oberen Schwanz nicht nennenswert beeinflusst wird. Bei parametrischen Problemen, insbesondere in Familien mit Standortmaßstab, gibt die Antwort von Aksakal Hinweise, wie bessere Schätzer für ein Perzentil erstellt werden können. Diese werden allgemein als Toleranzintervalle bezeichnet. Bei nichtparametrischen Problemen hängt alles davon ab.
whuber

Antworten:

4

In der Praxis wird eine Stichprobe von mindestens 100 Beobachtungen als Schätzer für ein Quantil von 1% verwendet. Ich habe gesehen, dass es "empirisches Perzentil" heißt.

Bekannte Vertriebsfamilie

Wenn Sie eine andere Schätzung wünschen UND eine Vorstellung von der Verteilung der Daten haben, empfehle ich Ihnen, sich die Mediane der Auftragsstatistik anzusehen. Beispielsweise verwendet dieses R-Paket sie für die Wahrscheinlichkeitsdiagramm-Korrelationskoeffizienten PPCC . Sie können herausfinden, wie sie es für einige Distributionen wie normal tun. Weitere Einzelheiten finden Sie in Vogels 1986 veröffentlichtem Artikel "Der Wahrscheinlichkeitsdiagramm-Korrelationskoeffiziententest für die Normal-, Lognormal- und Gumbel-Verteilungsstudie" hier in der Reihenfolge der statistischen Mediane für Normal- und Lognormalverteilungen.

Zum Beispiel definiert Gleichung 2 aus Vogels Arbeit die min (x) von 100 Beobachtungsstichproben aus der Standardnormalverteilung wie folgt: wobei die Schätzung von der Median von CDF:

M.1=Φ- -1(F.Y.(Mindest(y)))
F.^Y.(Mindest(y))=1- -(1/.2)1/.100=0,0069

Wir erhalten den folgenden Wert: für die Standardnormalen, auf die Sie den Ort und die Skala anwenden können, um Ihre Schätzung des 1. Perzentils zu erhalten: .M.1=- -2.46μ - 2,46 σμ^- -2.46σ^

Hier, wie dies mit min (x) bei Normalverteilung verglichen wird:

Geben Sie hier die Bildbeschreibung ein

Das Diagramm oben ist die Verteilung des min (x) -Schätzers des 1. Perzentils, und das Diagramm unten ist eines, das ich mir ansehen wollte. Ich habe auch den folgenden Code eingefügt. Im Code wähle ich zufällig den Mittelwert und die Streuung der Normalverteilung aus und generiere dann eine Stichprobe mit Beobachtungen der Länge 100. Als nächstes finde ich min (x) und skaliere es dann unter Verwendung der wahren Parameter der Normalverteilung auf Standardnormal . Bei der M1-Methode berechne ich das Quantil anhand des geschätzten Mittelwerts und der geschätzten Varianz und skaliere es dann unter Verwendung der wahren Parameter wieder auf den Standard zurück. Auf diese Weise kann ich den Einfluss des Schätzfehlers auf Mittelwert und Standardabweichung in gewissem Maße berücksichtigen. Ich zeige auch das wahre Perzentil mit einer vertikalen Linie.

Sie können sehen, dass der M1-Schätzer viel enger als min (x) ist. Dies liegt daran, dass wir unser Wissen über den wahren Verteilungstyp , dh normal, nutzen. Wir kennen immer noch keine wahren Parameter, aber selbst die Kenntnis der Verteilungsfamilie hat unsere Schätzung enorm verbessert.

OCTAVE CODE

Sie können es hier online ausführen: https://octave-online.net/

N=100000
n=100

mus = randn(1,N);
sigmas = abs(randn(1,N));
r = randn(n,N).*repmat(sigmas,n,1)+repmat(mus,n,1);
muhats = mean(r);
sigmahats = std(r);

fhat = 1-(1/2)^(1/100)
M1 = norminv(fhat)
onepcthats = (M1*sigmahats + muhats - mus) ./ sigmas;

mins = min(r);
minonepcthats = (mins - mus) ./ sigmas;

onepct = norminv(0.01)

figure
subplot(2,1,1)
hist(minonepcthats,100)
title 'min(x)'
xlims = xlim;
ylims = ylim;
hold on
plot([onepct,onepct],ylims)

subplot(2,1,2)
hist(onepcthats,100)
title 'M1'
xlim(xlims)
hold on
plot([onepct,onepct],ylims)

Unbekannte Verbreitung

Wenn Sie nicht wissen, von welcher Verteilung die Daten stammen, gibt es einen anderen Ansatz, der in Anwendungen für finanzielle Risiken verwendet wird . Es gibt zwei Johnson-Distributionen SU und SL. Ersteres gilt für unbegrenzte Fälle wie Normal und Student t, und letzteres gilt für niedrigere Grenzen wie lognormal. Sie können die Johnson-Verteilung an Ihre Daten anpassen und dann mithilfe der geschätzten Parameter das erforderliche Quantil schätzen. Tuenter (2001) schlug ein Momentanpassungsverfahren vor, das von einigen in der Praxis angewendet wird.

Wird es besser sein als min (x)? Ich weiß es nicht genau, aber manchmal führt es in meiner Praxis zu besseren Ergebnissen, z. B. wenn Sie die Verteilung nicht kennen, aber wissen, dass sie niedriger ist.

Aksakal
quelle
1
@RichardHardy, ich habe eine Demo hinzugefügt, um zu zeigen, was ich vorschlage und wie es sich gegenüber min (x) verbessert. Nein, Vogel spricht nicht einmal über min (x). Das ist meine Anwendung der Medianmethode auf Ihren Fall. PPCC verwendet die Quantile von 1 bis n'th in der Stichprobe. In 100 Beobachtungsproben ist min (x) das 1. Perzentil.
Aksakal
Danke für das Update! Was ich gefragt habe, war Vogels Artikel Gleichung 2 definiert die min (x) von 100 Beobachtungsstichproben : Sollte es anstelle von min (x) geben? Da sonst tatsächlich min (x) als etwas anderes definiert wird als das wörtliche min (x), ist das mein Eindruck. M.1
Richard Hardy
@ RichardHardy, sie ordnen Beobachtungen neu an, also wird M1 min (x) sein
Aksakal