Ich habe ein paar Fragen zu Vorhersage- und Toleranzintervallen.
Lassen Sie uns zunächst die Definition der Toleranzintervalle vereinbaren: Wir erhalten ein Konfidenzniveau von beispielsweise 90%, den Prozentsatz der zu erfassenden Bevölkerung von beispielsweise 99% und eine Stichprobengröße von beispielsweise 20. Die Wahrscheinlichkeitsverteilung ist bekannt, beispielsweise normal zur Bequemlichkeit. Angesichts der obigen drei Zahlen (90%, 99% und 20) und der Tatsache, dass die zugrunde liegende Verteilung normal ist, können wir nun die Toleranzzahl berechnen . Bei einer Stichprobe mit dem Mittelwert und der Standardabweichung beträgt das Toleranzintervall . Wenn dieses Toleranzintervall 99% der Bevölkerung erfasst, wird die Stichprobe als Erfolg bezeichnet, und die Anforderung ist, dass 90% der Stichproben Erfolge sind .
Kommentar: 90% ist die a priori Wahrscheinlichkeit, dass eine Stichprobe erfolgreich ist. 99% ist die bedingte Wahrscheinlichkeit, dass eine zukünftige Beobachtung im Toleranzintervall liegt, vorausgesetzt, die Stichprobe ist erfolgreich.
Meine Fragen: Können wir Vorhersageintervalle als Toleranzintervalle sehen? Im Internet habe ich widersprüchliche Antworten darauf erhalten, ganz zu schweigen davon, dass niemand die Vorhersageintervalle wirklich sorgfältig definiert hat. Wenn Sie also eine genaue Definition des Vorhersageintervalls (oder einer Referenz) haben, würde ich es begrüßen.
Ich habe verstanden, dass beispielsweise ein Vorhersageintervall von 99% nicht 99% aller zukünftigen Werte für alle Stichproben erfasst . Dies wäre dasselbe wie ein Toleranzintervall, das 99% der Bevölkerung mit einer Wahrscheinlichkeit von 100% erfasst.
In den Definitionen I für eine 90% Prädiktionsintervall gefunden, beträgt 90% der a - priori - Wahrscheinlichkeit , eine Probe gegeben, sagen wir (Größe festgelegt ist ) und eine einzige zukünftigen Beobachtung , dass befindet sich im Vorhersageintervall. Es scheint also, dass sowohl die Stichprobe als auch der zukünftige Wert gleichzeitig angegeben werden, im Gegensatz zum Toleranzintervall, in dem die Stichprobe angegeben wird und mit einer gewissen Wahrscheinlichkeit ein Erfolg ist , und unter der Bedingung, dass die Stichprobe vorliegt ein Erfolgy ywird ein zukünftiger Wert angegeben und fällt mit einer gewissen Wahrscheinlichkeit in das Toleranzintervall. Ich bin nicht sicher, ob die obige Definition des Vorhersageintervalls richtig ist oder nicht, aber sie scheint (zumindest) nicht intuitiv zu sein.
Irgendeine Hilfe?
quelle
Antworten:
Ihre Definitionen scheinen korrekt zu sein.
Das Buch, das zu diesen Themen zu konsultieren ist, ist Statistical Intervals (Gerald Hahn & William Meeker), 1991. Ich zitiere:
Hier finden Sie Anpassungen in der mathematischen Standardterminologie. Die Daten seien eine Realisierung unabhängiger Zufallsvariablen X = ( X 1 , … , X n ) mit der gemeinsamen kumulativen Verteilungsfunktion F θ . ( Θ erscheint als eine Erinnerung daran , dass F unbekannt sein kann , aber zu liegen in einer gegebenen Menge von Verteilungen angenommen F θ | θ & egr ; & THgr; ). Sei X 0x=(x1,…,xn) X=(X1,…,Xn) Fθ θ F Fθ|θ∈Θ X0 eine andere Zufallsvariable mit der gleichen Verteilung und unabhängig von den ersten n Variablen sein.Fθ n
Ein Vorhersageintervall (für eine einzelne zukünftige Beobachtung), gegeben durch Endpunkte , hat die definierende Eigenschaft, dass[l(x),u(x)]
Insbesondere bezieht sich auf die n + 1 variate Verteilung von ( X 0 , X 1 , ... , X n ) durch das Gesetz bestimmt , F θ . Beachten Sie das Fehlen bedingter Wahrscheinlichkeiten: Dies ist eine vollständige gemeinsame Wahrscheinlichkeit. Beachten Sie auch das Fehlen eines Verweises auf eine zeitliche Abfolge: X 0 kann sehr gut rechtzeitig vor den anderen Werten beobachtet werden. Das ist egal.Prθ n+1 (X0,X1,…,Xn) Fθ X0
Ich bin mir nicht sicher, welche Aspekte davon "nicht intuitiv" sind. Wenn wir uns vorstellen, ein statistisches Verfahren als eine Aktivität auszuwählen, die vor dem Sammeln von Daten durchgeführt werden soll, dann ist dies eine natürliche und vernünftige Formulierung eines geplanten zweistufigen Prozesses, da beide Daten ( ) und der "zukünftige Wert" X 0 muss als zufällig modelliert werden.Xi,i=1,…,n X0
Ein Toleranzintervall, das durch Endpunkte , hat die definierende Eigenschaft, dass(L(x),U(x)]
Beachten Sie das Fehlen eines Verweises auf : Es spielt keine Rolle.X0
Wenn die Menge der Normalverteilungen ist, existieren Vorhersageintervalle der Form{Fθ}
( ist der Stichprobenmittelwert und s ist die Stichprobenstandardabweichung). Die von Hahn & Meeker tabellierten Werte der Funktion k hängen nicht von den Daten x ab . Selbst im Normalfall gibt es andere Vorhersageintervallverfahren : Dies sind nicht die einzigen.x¯ s k x
Ebenso existieren Toleranzintervalle des Formulars
There are other tolerance interval procedures: these are not the only ones.
Noting the similarity among these pairs of formulas, we may solve the equation
This allows one to reinterpret a prediction interval as a tolerance interval (in many different possible ways by varyingα′ and p ) or to reinterpret a tolerance interval as a prediction interval (only now α usually is uniquely determined by α′ and p ). This may be one origin of the confusion.
quelle
As I understand things, for normal tolerance limits, the value ofK(α,p) comes from a non central t percentile. Clearly, to W Huber's point, there are some statisticians who are unfamiliar with the idea of tolerance limits versus prediction limits; the idea of tolerance seems to arise mostly in engineering design and manufacturing, as opposed to clinical biostatistics. Perhaps the reason for lack of familiarity with tolerance intervals, and the confusion with prediction intervals, is the context in which one receives his or her statistical training.
quelle