Vorhersage- und Toleranzintervalle

Ich habe ein paar Fragen zu Vorhersage- und Toleranzintervallen.

Lassen Sie uns zunächst die Definition der Toleranzintervalle vereinbaren: Wir erhalten ein Konfidenzniveau von beispielsweise 90%, den Prozentsatz der zu erfassenden Bevölkerung von beispielsweise 99% und eine Stichprobengröße von beispielsweise 20. Die Wahrscheinlichkeitsverteilung ist bekannt, beispielsweise normal zur Bequemlichkeit. Angesichts der obigen drei Zahlen (90%, 99% und 20) und der Tatsache, dass die zugrunde liegende Verteilung normal ist, können wir nun die Toleranzzahl berechnen $k$ . Bei einer Stichprobe $(x_1,x_2,\ldots,x_{20})$ mit dem Mittelwert $\bar{x}$ und der Standardabweichung $s$ beträgt das Toleranzintervall $\bar{x}\pm ks$ . Wenn dieses Toleranzintervall 99% der Bevölkerung erfasst, wird die Stichprobe als Erfolg bezeichnet, und die Anforderung ist, dass 90% der Stichproben Erfolge sind . $(x_1,x_2,\ldots,x_{20})$

Kommentar: 90% ist die a priori Wahrscheinlichkeit, dass eine Stichprobe erfolgreich ist. 99% ist die bedingte Wahrscheinlichkeit, dass eine zukünftige Beobachtung im Toleranzintervall liegt, vorausgesetzt, die Stichprobe ist erfolgreich.

Meine Fragen: Können wir Vorhersageintervalle als Toleranzintervalle sehen? Im Internet habe ich widersprüchliche Antworten darauf erhalten, ganz zu schweigen davon, dass niemand die Vorhersageintervalle wirklich sorgfältig definiert hat. Wenn Sie also eine genaue Definition des Vorhersageintervalls (oder einer Referenz) haben, würde ich es begrüßen.

Ich habe verstanden, dass beispielsweise ein Vorhersageintervall von 99% nicht 99% aller zukünftigen Werte für alle Stichproben erfasst . Dies wäre dasselbe wie ein Toleranzintervall, das 99% der Bevölkerung mit einer Wahrscheinlichkeit von 100% erfasst.

In den Definitionen I für eine 90% Prädiktionsintervall gefunden, beträgt 90% der a - priori - Wahrscheinlichkeit , eine Probe gegeben, sagen wir (Größe festgelegt ist ) und eine einzige zukünftigen Beobachtung , dass befindet sich im Vorhersageintervall. Es scheint also, dass sowohl die Stichprobe als auch der zukünftige Wert gleichzeitig angegeben werden, im Gegensatz zum Toleranzintervall, in dem die Stichprobe angegeben wird und mit einer gewissen Wahrscheinlichkeit ein Erfolg ist , und unter der Bedingung, dass die Stichprobe vorliegt ein Erfolg $(x_1,x_2,\ldots,x_{20})$ $y$ $y$ wird ein zukünftiger Wert angegeben und fällt mit einer gewissen Wahrscheinlichkeit in das Toleranzintervall. Ich bin nicht sicher, ob die obige Definition des Vorhersageintervalls richtig ist oder nicht, aber sie scheint (zumindest) nicht intuitiv zu sein.

Irgendeine Hilfe?

prediction prediction-interval tolerance-interval Ioannis Souldatos
quelle

Einseitige Toleranzintervalle für eine normale Stichprobe können zum Verständnis dieses Begriffs beitragen. Eine obere

99 %

$99\%$ -Toleranzgrenze ist nichts anderes als eine obere Konfidenzgrenze des

99 %

$99\%$ -Quantils der angenommenen Verteilung des Modells. Daher ist im Fall einer Normalverteilung ist dies ein Konfidenzintervall des Parameters

μ + k σ

$\mu + k\sigma$ wo

k = z_{99 %}

$k=z_{99\%}$ ist

99 %

$99\%$ der Norm Gaußsche Verteilung.

Stéphane Laurent

Dies ist eine gute Neuformulierung, Stéphane, da sie sofort zeigt, dass es verschiedene Arten von Toleranzgrenzen gibt: Man kann eine obere Konfidenzgrenze für

μ + z_{0.99} σ

$\mu + z_{0.99}\sigma$ , eine untere Konfidenzgrenze für

μ + z_{0.99} σ

$\mu + z_{0.99}\sigma$ oder für ( sagen wir) eine unvoreingenommene Schätzung dieses Parameters. Alle drei werden in der Literatur als "Toleranzgrenzen" bezeichnet.

whuber

Ich denke, Sie wollten lieber eine untere Konfidenzgrenze für

sagen ?

μ - z_{0.99} σ

$\mu - z_{0.99}\sigma$

Stéphane Laurent

Eigentlich nein, Stéphane (weshalb ich darauf geachtet habe, die Formel für den Parameter zu wiederholen). Es gibt auch drei ähnliche Definitionen für eine untere Toleranzgrenze. Zum Beispiel könnten wollen wir unter -estimate der oberen 99. Perzentil der Bevölkerung, aber die Menge an Unterschätzung steuern wir darauf bestehen , da sein (sagen wir) eine 5% ige Chance , dass unsere Unterschätzung noch zu hoch sein wird. Auf diese Weise können wir beispielsweise sagen: "Die Daten zeigen mit 95% iger Sicherheit, dass das 99. Perzentil der Bevölkerung diesen und jenen Wert überschreitet."

whuber

Antworten:

Ihre Definitionen scheinen korrekt zu sein.

Das Buch, das zu diesen Themen zu konsultieren ist, ist Statistical Intervals (Gerald Hahn & William Meeker), 1991. Ich zitiere:

Ein Vorhersageintervall für eine einzelne zukünftige Beobachtung ist ein Intervall, das mit einem bestimmten Grad an Sicherheit die nächste (oder eine andere vorgegebene) zufällig ausgewählte Beobachtung aus einer Population enthält.

[A] Toleranzintervall ist ein Intervall, von dem behauptet werden kann, dass es mindestens einen bestimmten Anteil p der Bevölkerung mit einem bestimmten Vertrauensgrad von . $100(1-\alpha)\%$

Hier finden Sie Anpassungen in der mathematischen Standardterminologie. Die Daten seien eine Realisierung unabhängiger Zufallsvariablen mit der gemeinsamen kumulativen Verteilungsfunktion . ( erscheint als eine Erinnerung daran , dass unbekannt sein kann , aber zu liegen in einer gegebenen Menge von Verteilungen angenommen ). Sei $\mathbf{x}=(x_1,\ldots,x_n)$ $\mathbf{X}=(X_1,\ldots,X_n)$ $F_\theta$ $\theta$ $F$ ${F_\theta \vert \theta \in \Theta}$ $X_0$ eine andere Zufallsvariable mit der gleichen Verteilung und unabhängig von den ersten Variablen sein. $F_\theta$ $n$

Ein Vorhersageintervall (für eine einzelne zukünftige Beobachtung), gegeben durch Endpunkte , hat die definierende Eigenschaft, dass $[l(\mathbf{x}), u(\mathbf{x})]$

$inf_{θ} {{Pr}_{θ} (X_{0} \in [l (X), u (X)])} = 100 (1 - α) % .$ $\inf_\theta\{{\Pr}_\theta(X_0 \in [l(\mathbf{X}), u(\mathbf{X})])\}= 100(1-\alpha)\%.$
Insbesondere bezieht sich auf die variate Verteilung von durch das Gesetz bestimmt , . Beachten Sie das Fehlen bedingter Wahrscheinlichkeiten: Dies ist eine vollständige gemeinsame Wahrscheinlichkeit. Beachten Sie auch das Fehlen eines Verweises auf eine zeitliche Abfolge: sehr gut rechtzeitig vor den anderen Werten beobachtet werden. Das ist egal. ${\Pr}_\theta$ $n+1$ $(X_0, X_1, \ldots, X_n)$ $F_\theta$ $X_0$

Ich bin mir nicht sicher, welche Aspekte davon "nicht intuitiv" sind. Wenn wir uns vorstellen, ein statistisches Verfahren als eine Aktivität auszuwählen, die vor dem Sammeln von Daten durchgeführt werden soll, dann ist dies eine natürliche und vernünftige Formulierung eines geplanten zweistufigen Prozesses, da beide Daten ( ) und der "zukünftige Wert" muss als zufällig modelliert werden. $X_i, i=1,\ldots,n$ $X_0$
Ein Toleranzintervall, das durch Endpunkte , hat die definierende Eigenschaft, dass $(L(\mathbf{x}), U(\mathbf{x})]$

$inf_{θ} {{Pr}_{θ} (F_{θ} (U (X)) - F_{θ} (L (X)) \geq p)} = 100 (1 - α) % .$ $\inf_\theta\{{\Pr}_\theta\left(F_\theta(U(\mathbf{X})) - F_\theta(L(\mathbf{X})\right) \ge p)\} = 100(1-\alpha)\%.$
Beachten Sie das Fehlen eines Verweises auf : Es spielt keine Rolle. $X_0$

Wenn die Menge der Normalverteilungen ist, existieren Vorhersageintervalle der Form $\{F_\theta\}$

l (x) = \bar{x} - k (α, n) s, u (x) = \bar{x} + k (α, n) s

$l(\mathbf{x}) = \bar{x} - k(\alpha, n) s, \quad u(\mathbf{x}) = \bar{x} + k(\alpha, n) s$

( ist der Stichprobenmittelwert und ist die Stichprobenstandardabweichung). Die von Hahn & Meeker tabellierten Werte der Funktion hängen nicht von den Daten . Selbst im Normalfall gibt es andere Vorhersageintervallverfahren : Dies sind nicht die einzigen. $\bar{x}$ $s$ $k$ $\mathbf{x}$

Ebenso existieren Toleranzintervalle des Formulars

L (x) = \bar{x} - K (α, n, p) s, U (x) = \bar{x} + K (α, n, p) s .

$L(\mathbf{x}) = \bar{x} - K(\alpha, n, p) s, \quad U(\mathbf{x}) = \bar{x} + K(\alpha, n, p) s.$

There are other tolerance interval procedures: these are not the only ones.

Noting the similarity among these pairs of formulas, we may solve the equation

k (α, n) = K (α^{'}, n, p) .

$k(\alpha, n) = K(\alpha', n, p).$

This allows one to reinterpret a prediction interval as a tolerance interval (in many different possible ways by varying $\alpha'$ and $p$ ) or to reinterpret a tolerance interval as a prediction interval (only now $\alpha$ usually is uniquely determined by $\alpha'$ and $p$ ). This may be one origin of the confusion.

whuber
quelle

The confusion among these intervals is real. A decade ago I had several difficult conversations with a government statistician who was ignorant of the difference and (virulently) unable to recognize there is one. Her prominent role in creating guidance, reviewing reports, advising case workers, distributing software, and even peer-reviewed publication has promoted the continuance of these misconceptions. So beware!

whuber

Very nice answer, thanks. I had heart some statisticians saying that a prediction interval is a tolerance interval with

p = 50 %

$p=50\%$ . Is there a real fact behind this idea ? In other words, is it true that

k (α, n) = K (α, n, 0.5)

$k(\alpha,n)=K(\alpha,n,0.5)$ , or something like that ?

Stéphane Laurent

No, that's not true @Stéphane. To see why not, consider the case of extremely large

n

$n$ and moderate confidence, say 95%. With

p = 50 %

$p=50\%$ , the two-sided tolerance interval should therefore be extremely close to some middle 50% of the distribution, so by definition there's only 50% chance that

X_{0}

$X_0$ will lie within it, not the desired 95%. That's a huge difference! Intuitively, a tolerance interval for 95% of the population should be sort of close to a prediction interval with 95% confidence, but they still don't exactly agree.

whuber

I have just thought about this and I believe the fact is the following :

k (α, n) \approx K (50 %, n, 1 - α)

$\boxed{k(\alpha,n) \approx K(50\%,n,1-\alpha)}$ when

n

$n$ is large. This is easy to see when

K

$K$ is the classical tolerance factor given with the help of the non-central t distribution (the

50 %

$50\%$ -quantile is the non-centrality parameter

z_{1 - α} / \sqrt{n}

$z_{1-\alpha}/\sqrt{n}$ )

Stéphane Laurent

@whuber. Thank you for the answer. I will have to make sure I understand it, before I mark it correct. Give me some time to "digest" it.

Ioannis Souldatos

As I understand things, for normal tolerance limits, the value of $K(\alpha,p)$ comes from a non central t percentile. Clearly, to W Huber's point, there are some statisticians who are unfamiliar with the idea of tolerance limits versus prediction limits; the idea of tolerance seems to arise mostly in engineering design and manufacturing, as opposed to clinical biostatistics. Perhaps the reason for lack of familiarity with tolerance intervals, and the confusion with prediction intervals, is the context in which one receives his or her statistical training.

Scott P.
quelle