Wie man die Quantilfunktion erhält, wenn eine analytische Form der Verteilung nicht bekannt ist

Das Problem kommt von Seite 377-379 dieses [0] Papiers.

Betrachten Sie bei einer stetigen Verteilung und einem festen : $F$ $z\in\mathbb{R}$

L_{z} (t) = P_{F} (| z - Z | \leq t)

$L_z(t)=P_F(|z-Z|\leq t)$

und

H (z) = L_{z}^{- 1} (0.5) = \underset{Z \sim F}{med} | z - Z |

$H(z)=L^{-1}_z(0.5)=\underset{Z\sim F}{\mbox{med}}|z-Z|$

wobei die rechte stetige Umkehrung ist. Für ein festes ist dies also der mittlere Abstand aller zu . Betrachten Sie als nächstes die Funktion: $L^{-1}_z(u)=\inf\{t:L_z(t)>u\}$ $z$ $Z\sim F$ $z$

L (t) = P_{F} (H (Z) \leq t)

$L(t)=P_F(H(Z)\leq t)$

Jetzt habe ich keinen analytischen Ausdruck für $H(z)$ (tatsächlich bin ich mir ziemlich sicher, dass ein analytischer Ausdruck dafür nicht möglich ist), aber mit einem CDF $F$ kann ich leicht einen Wurzelfindungsalgorithmus verwenden, um $H(z)$ für eine gegebene $z$ .

In dieser Anwendung ist das Interesse auf:

L^{- 1} (0.5) = \underset{Z \sim F}{med} H (Z)

$L^{-1}(0.5)=\underset{Z\sim F}{\mbox{med}}H(Z)$

Dies ist der Medianwert der $H(Z)$ wiederum für $Z\sim F$ .

Um , berechne ich (wie oben unter Verwendung eines Wurzelfindungsalgorithmus erläutert) Werte von , die vielen Werten von in einem Gitter entsprechen, und nehme den gewichteten Median dieser Werte von (mit Gewichten ) als meine Schätzung von . $L^{-1}(0.5)$ $H(z)$ $z$ $H(z)$ $f(z)$ $L^{-1}(0.5)$

Meine Fragen sind:

Gibt es einen genaueren Ansatz, um (die Autoren des Papiers sagen nicht, wie berechnet wird) und $L^{-1}(0.5)$ $L^{-1}(0.5)$
Wie soll das Wertegitter von gewählt werden? $z$

[0] Ola Hössjer, Peter J. Rousseeuw und Christophe Croux. Asymptotik eines Schätzers einer robusten Spread-Funktion. Statistica Sinica 6 (1996), 375 & ndash; 388.

mathematical-statistics quantiles cdf numerics quantile-function user603
quelle

Gemäß der Notation und Terminologie sollen wir " " so verstehen, dass jedes in die Zahl (das ist, was "Funktionale" tun, Letztendlich). Aber was könnte dann " " möglicherweise bedeuten? Es könnte entweder eine Verteilung sein (wörtlich die Umkehrung von ) oder wahrscheinlicher eine Zahl (wenn wir fixieren und als Funktion betrachten - nicht funktional!), Aber ich sehe keinen Weg um es als Zufallsvariable mit der Verteilung zu interpretieren . Das macht

L_{z} (t)

$L_z(t)$

F

$F$

L_{z} (t) [F] = P_{F} (| z - Z | \leq t)

$L_z(t)[F]=P_F(|z-Z|\le t)$

L_{z}^{- 1} (q)

$L_z^{-1}(q)$

L_{z} (t)

$L_z(t)$

F

$F$

L_{z}

$L_z$

F

$F$

M_{q} (t)

$M_q(t)$ ziemlich mysteriös.

whuber

Ein kleines bisschen, aber es muss noch einige Tippfehler geben. Vielleicht wollten Sie in der Definition von " " (eine Zufallsvariable mit für ihre Verteilung) anstelle von " " verwenden? Schließlich kann man nicht mit einer Wahrscheinlichkeit von "assign ", da sowohl und sind Zahlen. Sie laufen hier ein großes Risiko, dass ein einzelner kleiner Tippfehler in einer Gleichung Ihre Frage in etwas völlig Unbeabsichtigtes und Irrelevantes verwandelt. Schlimmer noch, Sie erhalten möglicherweise richtige Antworten, die Sie falsch interpretieren! Es würde (sehr) helfen, englische Erklärungen darüber aufzunehmen, was jede Formel darstellen soll.

L (t)

$L(t)$

Z

$Z$

F

$F$

z

$z$

H (z) \leq t

$H(z)\le t$

H (z)

$H(z)$

t

$t$

whuber

Antworten:

$\DeclareMathOperator*{\med}{med}$ Der Median ist der Punkt, der den erwarteten Abstand minimiert : $L^1$

\underset{Z}{med} f (Z) = \arg min_{m} E_{z} | f (Z) - m |

$\med_Z f(Z) = \arg\min_m E_z|f(Z) - m|$

Daher können wir Ihren Ausdruck vereinfachen:

\underset{z_{1} \sim F}{med} \underset{z_{2} \sim F}{med} | z_{1} - z_{2} | = \arg min_{m_{1}} E_{z_{1} \sim F} | m_{1} - \arg min_{m_{2}} E_{z_{2} \sim F} | m_{2} - | z_{1} - z_{2} | | |

$\begin{equation}\med_{z_1 \sim F} \med_{z_2 \sim F} |z_1 - z_2| \\ = \arg\min_{m_1}E_{z_1 \sim F}\left| m_1 - \arg\min_{m_2} E_{z_2 \sim F}\left| m_2 - \left|z_1 - z_2\right|\right|\right| \end{equation}$

Ich denke, dies ist ein Problem der Bilevel-Optimierung , über das ich nicht allzu viel weiß, aber vielleicht gibt es Standardtechniken, die Sie anwenden können. Andererseits ist es möglicherweise nicht schneller als nur die Berechnung des Stichprobenmedians der Mediane für größere Stichproben bis zur Konvergenz.

Ben Kuhn
quelle

Ich denke nicht, dass dies das Problem angeht, da es sich hier nicht um Realisierungen von , sondern um selbst (Wenn Sie so wollen, interessieren mich die Werte dieser Objekte, wenn die Stichprobengröße auf ). Aber vielleicht verstehe ich Ihre Antwort falsch?

F

$F$

F

$F$

\infty

$\infty$

Benutzer603

Nun, ich habe gerade festgestellt, dass ich bei der Ableitung trotzdem einen Fehler gemacht habe - die Optimierungen sind tatsächlich verschachtelt. Ich denke, es gibt immer noch Optimierungstechniken, die Sie verwenden können, aber ich weiß nicht, ob sie besser sind, als nur den zweiten Median einer großen Stichprobe zu nehmen, wie Sie es getan haben.

Ben Kuhn

gut, also wundern wir uns jetzt das gleiche;)

user603

Ein einfacher datengesteuerter Ansatz zur Schätzung der Quantilfunktion besteht aus:

Bootstrapping Ihrer Beobachtungen, um viel mehr Werte als in Ihrer ursprünglichen Stichprobe zu generieren (insbesondere Werte außerhalb des Bereichs der anfänglich begrenzten Stichprobe). Eine gute Strategie besteht darin, ein geglättetes Bootstrap- Simulationsschema zu verwenden, um die Hauptbeschränkungen des grundlegenden nichtparametrischen Bootstraps zu vermeiden. Dies entspricht der Simulation einer Kernel-Dichteschätzung.
Daraus können Sie die empirische kumulative Verteilungsfunktion (CDF) der simulierten Werte ( ecdfFunktion in R) erhalten. Die Umkehrung der CDF ist nichts anderes als die Quantilfunktion ( quantile Funktion in R). Sehen Sie hier , um die Werte zu erhalten und Ihre Quantilfunktion zu zeichnen. Sie können sogar Vertrauensbänder bekommen.

Voraussetzung ist jedoch, dass Sie anhand von Beispielen genügend Beobachtungen durchführen, um zumindest eine gute Vorstellung von der Form Ihrer zugrunde liegenden PDF-Datei zu erhalten.

Antoine
quelle

Warum erhalten Sie Ihrer Meinung nach durch Bootstrapping eine bessere Präzision?

kjetil b halvorsen

Das Schicksal jeder endlichen Probe ist, dass sie nicht das gesamte Spektrum der Beobachtungen enthält, die auftreten können. Beispielsweise ist der maximale Stromfluss eines Flusses, der über 100 Jahre beobachtet wurde, offensichtlich nicht das absolute Maximum, das auftreten kann. Daher werden Ihre Schätzungen der 500-jährigen Überschwemmung (0,998 Quantil) oder der 1000-jährigen Überschwemmung (0,999 Quantil) basierend auf Ihrer begrenzten Stichprobe verzerrt sein (das Risiko wird unterschätzt ). Im Gegenteil, wenn Sie Hunderttausende neuer Beobachtungen durch Simulation generieren (über geglätteten Bootstrap oder eine andere Technik), sind Ihre Schätzungen genauer

Antoine

Das ist ein Missverständnis! Die Werte in der Bootstrap-Stichprobe stammen alle aus derselben begrenzten, endlichen Stichprobe und enthalten nicht mehr Informationen als die Stichprobe selbst. Bootstrapping (wie andere Analysetechniken) kann uns nur helfen, besser zu verstehen, welche Informationen in der Stichprobe enthalten sind. Es kann diese Informationen nicht erhöhen.

kjetil b halvorsen

Nein! Ich spreche von dem geglätteten Bootstrap. Es werden nie gesehene Beobachtungen erzeugt, die den Bereich der Originalprobe überschreiten. Bitte klicken Sie auf den Link in meiner Antwort oben.

Antoine

@ Antoine: OK, aber das ändert nichts an meinem Kommentar. Diese geglätteten "obs" werden aus Ihrem Modell des Phänomens generiert, nicht aus dem Phemonenon selbst, also nicht aus "Daten".

kjetil b halvorsen

Also, ich denke, das ist der beste Weg, um zu erhalten

{med}_{Z \sim F} H (Z)

$\text{med}_{Z\sim F} H(Z)$

ist zu:

$n$ $\{H(z_i)\}_{i=1}^n$ $H(z_i)$ $n$ $\{z_i\}_{i=1}^n$ $(F_Z^{-1}(\epsilon),F_Z^{-1}(1-\epsilon))$
$\{H(z_i)\}_{i=1}^n$ $F_Z^\prime(z_i)$

user603
quelle