Welches binomiale Vorhersageintervall für Schwanzwahrscheinlichkeiten gut funktioniert, dh für großes

Ich arbeite an einem Problem mit den folgenden Eigenschaften.

Die verfügbaren Daten sind zahlreich - in der Größenordnung von $x$ $10^6$
Der CDF unterstützt nichtnegative reelle Zahlen. $F_X$
Ich kenne . $F_X$
Wir können davon ausgehen, dass die Daten iid sind.
Ich versuche die Wahrscheinlichkeit abzuschätzen, dass eine zukünftige Stichprobe aus unter das Stichprobenminimum fällt . Genauer gesagt möchte ich diese Wahrscheinlichkeit unter einem bestimmten Wert $F_X$ $x_{(1)}$ $\alpha.$

Wenn es um Konfidenzintervalle geht , besteht der Ansatz darin, einen Wert auszuwählen (da Unterstützung hat) und , und leiten Sie dann Binomial-Konfidenzintervalle für den linken Schwanz unter Verwendung einer Reihe von Optionen ab, z. B. durch Anwenden des CLT oder von Casella oder Jeffreys oder Agresti oder einer anderen von vielen Methoden. $k>0$ $x$ $\hat{F_X}(k)=\hat{p}=\frac{\#(x_i\le k)}{n}$

Dies scheint für großes und kleines spröde zu sein , insbesondere weil . Darüber hinaus schätzen wir in meinem Fall ein Vorhersageintervall für die zukünftigen Beobachtungen. Gibt es ein Binomial-Vorhersageintervall, das unter diesen Umständen gut funktioniert? $n$ $k$ $k=x_{(1)}$

Ein Bayes'scher Ansatz würde direkt schätzen und von dort aus arbeiten. Das scheint schwieriger zu sein, als es für den engen Umfang dieses Problems unbedingt erforderlich ist. $F$

Die Antwort "Nein, das Leben ist unfair und es gibt keine gute Lösung für dieses Problem" ist auch hilfreich, wenn es ein schönes Zitat dazu gibt.

mathematical-statistics binomial prediction-interval Sycorax sagt Reinstate Monica
quelle

Ihr vierter (letzter) Punkt deutet darauf hin, dass Sie keine Konfidenzintervalle berechnen: Sie scheinen nach der Abdeckung eines Vorhersagegrenzens zu fragen . Ist das eine richtige Interpretation?

whuber

@whuber Ja, das ist richtig: Wir werden einige zukünftige Daten erhalten und ich möchte die Wahrscheinlichkeit schätzen, dass einer dieser neuen Werte unter das Stichprobenminimum fällt, das ich heute habe.

Sycorax sagt Reinstate Monica

Ich denke, Sie kennen diesen Thread: stats.stackexchange.com/questions/82720/… , aber veröffentlichen ihn als Referenz (siehe auch das zitierte Papier).

Tim

@ Tim Ja, danke. Ich hatte diesen Link tatsächlich in einer meiner Änderungen herausgeschnitten. Die AC-Intervallempfehlung scheint (1) nur die große Bedingung, nicht aber die kleine Bedingung zu behandeln, und (2) bezieht sich auf Konfidenzintervalle und Vorhersageintervalle. Meine Lektüre ist fehlerhaft.

n

$n$

p

$p$

Sycorax sagt Reinstate Monica

@Sycorax Ihre Lesung ist nicht fehlerhaft, ich gebe diese als Referenz, da es verwandt ist, aber Sie haben Recht, dass es nur um CIs geht.

Tim

Es gibt eine einfache nichtparametrische Vorhersagegrenze. Denken Sie daran, dass eine Vorhersagegrenze eine Prozedur ist, die aus zwei unabhängigen Stichproben und , zwei Statistiken und und einer Größe . Wenn die Wahrscheinlichkeit, dass kleiner als ist, oder kleiner ist, sagen wir, dass eine einseitige untere Vorhersagegrenze für der Größe . Der betreffende PL verwendet den kleinsten der $\mathcal{X}=x_1,\ldots, x_n$ $\mathcal{Y}=y_1, \ldots, y_m$ $t$ $s$ $1-\alpha$ $s(\mathcal{Y})$ $t(\mathcal{X})$ $\alpha$ $t$ $s$ $1-\alpha$ $x_i$ für . Es ist beabsichtigt , dass alle die sollten gleich oder PL mit hohen Wahrscheinlichkeit nicht überschreiten. Entsprechend ist das kleinste von allen . $t(\mathcal{X})$ $y_j$ $s(\mathcal{Y})$ $y_j$

Dieser PL funktioniert, wenn die Beobachtungen unabhängig und identisch verteilt sind und die zusätzlichen Beobachtungen auch iid und unabhängig von den ersten Beobachtungen sind. Diese Annahmen implizieren, dass alle Beobachtungen austauschbar sind, was wiederum (leicht) impliziert, dass die kleinste Beobachtung von allen unter den ersten mit einer Wahrscheinlichkeit von mindestens . Die Größe ist die Wahrscheinlichkeit, dass eine (mindestens) aller für die kleinste gebundenen Beobachtungen innerhalb der Werte von . Diese Chance ist nicht kleiner als . Wenn die gemeinsame zugrunde liegende Verteilung kontinuierlich ist, ist dies genau der Fall $n$ $m$ $n$ $n+m$ $n$ $n/(n+m)$ $n$ $\mathcal{X}$ $n/(n+m)$ $n/(n+m)$ .

Zum Beispiel ist der kleinste von Werten eine untere Vorhersagegrenze für zusätzliche Werte. Der kleinste von Werten ist nur eine untere Vorhersagegrenze für zusätzliche Werte. $n=95$ $95\%$ $m=5$ $n=10^6$ $50\%$ $m=10^6$

Ähnliche Überlegungen sind (mehr kombinatorische Komplexität erfordern) verwendet , um die Abdeckung von beliebiger Reihenfolge - Statistik zu berechnen qua Vorhersage Grenze. Siehe Abschnitt 5.4 von Hahn & Meeker für eine Zusammenfassung ("Verteilungsfreie Vorhersageintervalle, die mindestens von zukünftigen Beobachtungen enthalten.") $k$ $m$

Referenz

Gerald J. Hahn und William Q. Meeker, Statistische Intervalle, Ein Leitfaden für Praktiker. J. Wiley & Sons, 1991.

whuber
quelle

Wenn wir diese Argumentation weiter ausdehnen, müssen wir genau so zum Bootstrap-Verfahren mit zwei Stichproben gelangen, um die in Hogg McKean und Craig beschriebenen Quantile zu schätzen: Der Bootstrap nähert sich dem detaillierteren kombinatorischen Ergebnis an.

Sycorax sagt Reinstate Monica

Das ist denkbar. (Ich bin nicht mit H, McK und C vertraut.) Aber wenn das alles ist, was der Bootstrap tut, sollten Sie in Betracht ziehen, genaue Antworten (mit viel weniger Berechnung) unter Verwendung der kombinatorischen Formeln zu erhalten. Sie haben den Vorteil, dass Sie das Problem umkehren können, um beispielsweise Stichprobengrößen zu finden, um eine beliebige gewünschte Größe in einem PL zu erreichen.

whuber

Es ist ein einführender Text zur mathematischen Statistik, daher denke ich, dass das Verfahren hauptsächlich aus pädagogischen Gründen beschrieben wird. Ihr Punkt über genaue Mengen und Inversion ist gut aufgenommen. Vielen Dank für diese wohlüberlegte Antwort.

Sycorax sagt Reinstate Monica

Ich stolpere über einen Teil der Argumentation. Die Wahrscheinlichkeit, dass die nächste Ziehung von bei oder unter einem ist . Quer durch IId zieht, zieht die Zahl der unter eine binomische hat Verteilung. Ist es der Fall, dass der Unterschied zwischen Ihrer Antwort und diesem Binomialmodell darin besteht, dass das Binomialmodell annimmt, dass Voraus festgelegt ist, während wir in meinem Problem an interessiert sind ?

F

$F$

k

$k$

F (k)

$F(k)$

m

$m$

k

$k$

m, F (k)

$m, F(k)$

k

$k$

x_{(1)}

$x_{(1)}$

Sycorax sagt Reinstate Monica

Ich glaube schon. In der Tat wissen Sie nach dem dritten Punkt der Frage nicht wirklich, was für ein - das Beste, was Sie tun können (wenn Sie müssten), ist, es zu schätzen.

F (k)

$F(k)$

k

$k$

whuber

Welches binomiale Vorhersageintervall für Schwanzwahrscheinlichkeiten gut funktioniert, dh für großes

Antworten:

Referenz