Ich arbeite an einem Problem mit den folgenden Eigenschaften.
- Die verfügbaren Daten sind zahlreich - in der Größenordnung von
- Der CDF unterstützt nichtnegative reelle Zahlen.
- Ich kenne .
- Wir können davon ausgehen, dass die Daten iid sind.
- Ich versuche die Wahrscheinlichkeit abzuschätzen, dass eine zukünftige Stichprobe aus unter das Stichprobenminimum fällt . Genauer gesagt möchte ich diese Wahrscheinlichkeit unter einem bestimmten Wert
Wenn es um Konfidenzintervalle geht , besteht der Ansatz darin, einen Wert auszuwählen (da Unterstützung hat) und , und leiten Sie dann Binomial-Konfidenzintervalle für den linken Schwanz unter Verwendung einer Reihe von Optionen ab, z. B. durch Anwenden des CLT oder von Casella oder Jeffreys oder Agresti oder einer anderen von vielen Methoden.
Dies scheint für großes und kleines spröde zu sein , insbesondere weil . Darüber hinaus schätzen wir in meinem Fall ein Vorhersageintervall für die zukünftigen Beobachtungen. Gibt es ein Binomial-Vorhersageintervall, das unter diesen Umständen gut funktioniert?
Ein Bayes'scher Ansatz würde direkt schätzen und von dort aus arbeiten. Das scheint schwieriger zu sein, als es für den engen Umfang dieses Problems unbedingt erforderlich ist.
Die Antwort "Nein, das Leben ist unfair und es gibt keine gute Lösung für dieses Problem" ist auch hilfreich, wenn es ein schönes Zitat dazu gibt.
quelle
Antworten:
Es gibt eine einfache nichtparametrische Vorhersagegrenze. Denken Sie daran, dass eine Vorhersagegrenze eine Prozedur ist, die aus zwei unabhängigen Stichproben und , zwei Statistiken und und einer Größe . Wenn die Wahrscheinlichkeit, dass kleiner als ist, oder kleiner ist, sagen wir, dass eine einseitige untere Vorhersagegrenze für der Größe . Der betreffende PL verwendet den kleinsten derX=x1,…,xn Y=y1,…,ym t s 1−α s(Y) t(X) α t s 1−α xi für . Es ist beabsichtigt , dass alle die sollten gleich oder PL mit hohen Wahrscheinlichkeit nicht überschreiten. Entsprechend ist das kleinste von allen .t(X) yj s(Y) yj
Dieser PL funktioniert, wenn die Beobachtungen unabhängig und identisch verteilt sind und die zusätzlichen Beobachtungen auch iid und unabhängig von den ersten Beobachtungen sind. Diese Annahmen implizieren, dass alle Beobachtungen austauschbar sind, was wiederum (leicht) impliziert, dass die kleinste Beobachtung von allen unter den ersten mit einer Wahrscheinlichkeit von mindestens . Die Größe ist die Wahrscheinlichkeit, dass eine (mindestens) aller für die kleinste gebundenen Beobachtungen innerhalb der Werte von . Diese Chance ist nicht kleiner als . Wenn die gemeinsame zugrunde liegende Verteilung kontinuierlich ist, ist dies genau der Falln m n n+m n n/(n+m) n X n/(n+m) n/(n+m) .
Zum Beispiel ist der kleinste von Werten eine untere Vorhersagegrenze für zusätzliche Werte. Der kleinste von Werten ist nur eine untere Vorhersagegrenze für zusätzliche Werte.n=95 95% m=5 n=106 50% m=106
Ähnliche Überlegungen sind (mehr kombinatorische Komplexität erfordern) verwendet , um die Abdeckung von beliebiger Reihenfolge - Statistik zu berechnen qua Vorhersage Grenze. Siehe Abschnitt 5.4 von Hahn & Meeker für eine Zusammenfassung ("Verteilungsfreie Vorhersageintervalle, die mindestens von zukünftigen Beobachtungen enthalten.")k m
Referenz
Gerald J. Hahn und William Q. Meeker, Statistische Intervalle, Ein Leitfaden für Praktiker. J. Wiley & Sons, 1991.
quelle