Gibt es eine Beispielversion der einseitigen Chebyshev-Ungleichung?

Ich interessiere mich für folgende einseitige Cantelli-Version der Chebyshev-Ungleichung :

P (X - E (X) \geq t) \leq \frac{V a r (X)}{V a r (X) + t^{2}} .

$\mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,.$

Wenn Sie den Populationsmittelwert und die Varianz kennen, können Sie die Obergrenze für die Wahrscheinlichkeit der Beobachtung eines bestimmten Werts berechnen. (Das habe ich zumindest verstanden.)

Ich möchte jedoch den Stichprobenmittelwert und die Stichprobenvarianz anstelle des tatsächlichen Populationsmittelwerts und der Varianz verwenden.

Ich vermute, dass sich die Obergrenze erhöhen würde, da dies zu mehr Unsicherheit führen würde.

Gibt es eine zu der obigen analoge Ungleichung, die jedoch den Stichprobenmittelwert und die Varianz verwendet?

Edit : Das Analogon "sample" der Chebyshev-Ungleichung (nicht einseitig) wurde ausgearbeitet. Die Wikipedia-Seite enthält einige Details. Ich bin mir jedoch nicht sicher, wie es sich auf den oben genannten einseitigen Fall übertragen lässt.

probability mathematical-statistics probability-inequalities mean casandra
quelle

Danke Glen_b. Das ist ein interessantes Problem. Ich habe immer gedacht, dass die Chebyshev-Ungleichung mächtig ist (da Sie damit statistische Inferenzen erstellen können, ohne eine Wahrscheinlichkeitsverteilung zu benötigen); Es wäre also ziemlich großartig, es mit dem Stichprobenmittelwert und der Varianz zu verwenden.

Kasandra

Antworten:

Ja, wir können anhand des Stichprobenmittelwerts und der Varianz ein analoges Ergebnis erzielen, wobei möglicherweise ein paar leichte Überraschungen dabei auftauchen.

Zunächst müssen wir die Fragestellung ein wenig verfeinern und einige Annahmen machen. Es sollte klar sein, dass wir nicht hoffen können, die Populationsvarianz durch die Stichprobenvarianz auf der rechten Seite zu ersetzen, da letztere zufällig ist ! Wir konzentrieren unsere Aufmerksamkeit also erneut auf die äquivalente Ungleichung Falls es nicht klar ist, dass diese äquivalent sind, beachten Sie, dass wir in der ursprünglichen Ungleichung einfach durch ohne dass die Allgemeinheit darunter leidet.

P (X - E X \geq t σ) \leq \frac{1}{1 + t^{2}} .

$\mathbb P\left( X - \mathbb E X \geq t \sigma \right) \leq \frac{1}{1+t^2} \>.$

t

$t$

t σ

$t \sigma$

Zweitens nehmen wir an, dass wir eine Zufallsstichprobe und dass wir an einer Obergrenze für die analoge Größe interessiert sind , wobei die Stichprobe ist Mittelwert und ist die Standardabweichung der Stichprobe. $X_1,\ldots,X_n$ $\mathbb P(X_1 - \bar X \geq t S)$ $\bar X$ $S$

Einen halben Schritt vorwärts

Beachten Sie, dass wir bereits durch Anwenden der ursprünglichen einseitigen Chebyshev-Ungleichung auf das wobei , was kleiner als die rechte Seite der Originalversion ist. Das macht Sinn! Jede bestimmte Erkenntnis einer Zufallsvariablen aus einer Stichprobe liegt in der Regel (geringfügig) näher am Stichprobenmittelwert, zu dem sie beiträgt, als am Populationsmittelwert. Wie wir weiter unten sehen werden, werden wir unter noch allgemeineren Annahmen durch ersetzen . $X_1 - \bar X$

P (X_{1} - \bar{X} \geq t σ) \leq \frac{1}{1 + \frac{n}{n - 1} t^{2}}

$\mathbb P( X_1 - \bar X \geq t\sigma ) \leq \frac{1}{1 + \frac{n}{n-1}t^2}$

σ^{2} = V a r (X_{1})

$\sigma^2 = \mathrm{Var}(X_1)$

σ

$\sigma$

S

$S$

Eine Beispielversion von einseitigem Chebyshev

Behauptung : Sei eine Zufallsstichprobe mit . Dann istInsbesondere ist die Beispielversion der Schranke enger als die ursprüngliche Populationsversion. $X_1,\ldots,X_n$ $\mathbb P(S = 0) = 0$
$P (X_{1} - \bar{X} \geq t S) \leq \frac{1}{1 + \frac{n}{n - 1} t^{2}} .$ $\mathbb P(X_1 - \bar X \geq t S) \leq \frac{1}{1 + \frac{n}{n-1} t^2}\>.$

Hinweis : Wir gehen nicht davon aus, dass die entweder einen endlichen Mittelwert oder eine Varianz haben! $X_i$

Beweis . Die Idee ist, den Beweis der ursprünglichen einseitigen Chebyshev-Ungleichung anzupassen und dabei Symmetrie anzuwenden. Setzen Sie zunächst um die Schreibweise zu . Dann beobachte, dass $Y_i = X_i - \bar X$

P ({Y.}_{1} \geq t S) = \frac{1}{n} \sum_{ich = 1}^{n} P ({Y.}_{ich} \geq t S) = E \frac{1}{n} \sum_{ich = 1}^{n} 1_{({Y.}_{ich} \geq t S)} .

$\mathbb P( Y_1 \geq t S ) = \frac{1}{n} \sum_{i=1}^n \mathbb P( Y_i \geq t S ) = \mathbb E \frac{1}{n} \sum_{i=1}^n \mathbf 1_{(Y_i \geq t S)} \>.$

Nun, für jedes , auf , $c > 0$ $\{S > 0\}$

1_{({Y.}_{ich} \geq t S)} = 1_{({Y.}_{ich} + t c S \geq t S (1 + c))} \leq 1_{(({Y.}_{ich} + t c S)^{2} \geq t^{2} (1 + c)^{2} S^{2})} \leq \frac{({Y.}_{ich} + t c S)^{2}}{t^{2} (1 + c)^{2} S^{2}} .

$\newcommand{I}[1]{\mathbf{1}_{(#1)}} \I{Y_i \geq t S} = \I{Y_i + t c S \geq t S (1+c)} \leq \I{(Y_i + t c S)^2 \geq t^2 (1+c)^2 S^2} \leq \frac{(Y_i + t c S)^2}{t^2(1+c)^2 S^2}\>.$

Dann ist da und .

\frac{1}{n} \sum_{ich} 1_{({Y.}_{ich} \geq t S)} \leq \frac{1}{n} \sum_{ich} \frac{({Y.}_{ich} + t c S)^{2}}{t^{2} (1 + c)^{2} S^{2}} = \frac{(n - 1) S^{2} + n t^{2} c^{2} S^{2}}{n t^{2} (1 + c)^{2} S^{2}} = \frac{(n - 1) + n t^{2} c^{2}}{n t^{2} (1 + c)^{2}},

$\frac{1}{n} \sum_i \I{Y_i \geq t S} \leq \frac{1}{n} \sum_i \frac{(Y_i + t c S)^2}{t^2(1+c)^2 S^2} = \frac{(n-1)S^2 + n t^2 c^2 S^2}{n t^2 (1+c)^2 S^2} = \frac{(n-1) + n t^2 c^2}{n t^2 (1+c)^2} \>,$

\bar{Y} = 0

$\bar Y = 0$

\sum_{i} Y_{i}^{2} = (n - 1) S^{2}

$\sum_i Y_i^2 = (n-1)S^2$

Die rechte Seite ist eine Konstante ( ! ), So dass sich unter Berücksichtigung der Erwartungen auf beiden Seiten ergibt: Schließlich ergibt die Minimierung über , was nach einer kleinen Algebra das Ergebnis festlegt.

P (X_{1} - \bar{X} \geq t S) \leq \frac{(n - 1) + n t^{2} c^{2}}{n t^{2} (1 + c)^{2}} .

$\mathbb P(X_1 - \bar X \geq t S) \leq \frac{(n-1) + n t^2 c^2}{n t^2 (1+c)^2} \>.$

c

$c$

c = \frac{n - 1}{n t^{2}}

$c = \frac{n-1}{n t^2}$

Dieser lästige technische Zustand

Beachten Sie, dass wir annehmen mussten, um in der Analyse durch dividieren zu können . Für absolut kontinuierliche Verteilungen ist dies kein Problem, für diskrete Verteilungen jedoch ein Nachteil. Für eine diskrete Verteilung besteht eine gewisse Wahrscheinlichkeit, dass alle Beobachtungen gleich sind. In diesem Fall ist für alle und . $\mathbb P(S = 0) = 0$ $S^2$ $0 = Y_i = t S = 0$ $i$ $t > 0$

Wir können uns herauswinden, indem wir . Dann zeigt eine sorgfältige Abwägung des Arguments, dass alles praktisch unverändert durchläuft und wir bekommen $q = \mathbb P(S = 0)$

Folgerung 1 . Für den Fall haben wir $q = \mathbb P(S = 0) > 0$
$P (X_{1} - \bar{X} \geq t S) \leq (1 - q) \frac{1}{1 + \frac{n}{n - 1} t^{2}} + q .$ $\mathbb P(X_1 - \bar X \geq t S) \leq (1-q) \frac{1}{1 + \frac{n}{n-1} t^2} + q \>.$

Beweis . Teilen Sie die Ereignisse und . Der vorherige Beweis geht für und der Fall ist trivial. $\{S > 0\}$ $\{S = 0\}$ $\{S > 0\}$ $\{S = 0\}$

Eine etwas sauberere Ungleichung ergibt sich, wenn wir die nicht strenge Ungleichung in der Wahrscheinlichkeitsangabe durch eine strenge Version ersetzen.

Folgerung 2 . Sei (möglicherweise Null). Dann ist $q = \mathbb P(S = 0)$
$P (X_{1} - \bar{X} > t S) \leq (1 - q) \frac{1}{1 + \frac{n}{n - 1} t^{2}} .$ $\mathbb P(X_1 - \bar X > t S) \leq (1-q) \frac{1}{1 + \frac{n}{n-1} t^2} \>.$

Schlussbemerkung : Die Probe - Version der Ungleichheit benötigte keine Annahmen über (außer , dass es nicht fast sicher sein , konstant in dem nicht strikter Ungleichheit Fall, der die Originalversion auch davon ausgegangen , stillschweigend) im Wesentlichen vor , weil die Probe Mittelwert und Probenvarianz existieren immer, unabhängig davon, ob es ihre Populationsanaloga tun oder nicht. $X$

Kardinal
quelle

Dies ist nur eine Ergänzung zu @ cardinals genialer Antwort. Samuelson-Ungleichung besagt, dass für eine Stichprobe der Größe , wenn wir mindestens drei verschiedene Werte der realisierten , gilt: wobei ohne die Vorspannungskorrektur berechnet wird, . $n$ $x_i$

x_{ich} - \bar{x} < s \sqrt{n - 1}, ich = 1, . . . n

$x_i-\bar x < s\sqrt{n-1},\;\; i=1,...n$

s

$s$

s = {(\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2})}^{1 / 2}

$s= \left (\frac 1n\sum_{i=1}^n(x_i-\bar x)^2\right)^{1/2}$

Dann können wir unter Verwendung der Schreibweise von Kardinals Antwort feststellen, dass

P (X_{1} - \bar{X} \geq S \sqrt{n - 1}) = 0 ein . s . [1]

$\mathbb P\left(X_1-\bar X \ge S\sqrt{n-1}\right) =0 \;\;a.s. \qquad [1]$

Da wir drei verschiedene Werte benötigen, haben wir nach Annahme . Setzen Sie also in Kardinals Ungleichung (die ursprüngliche Version), die wir erhalten $S\neq 0$ $t=\sqrt{n-1}$

P (X_{1} - \bar{X} \geq S \sqrt{n - 1}) \leq \frac{1}{1 + n}, [2]

$\mathbb P\left (X_1 - \bar X \geq S\sqrt{n-1}\right) \leq \frac{1}{1 + n}, \;\; \qquad [2]$

Gl. ist natürlich kompatibel mit Gl. . Aus der Kombination der beiden geht hervor, dass die Kardinal-Ungleichung als probabilistische Aussage für nützlich ist . $[2]$ $[1]$ $0< t < \sqrt{n-1}$

Wenn die Kardinal-Ungleichung erfordert, dass vorspannungskorrigiert berechnet wird (nennen Sie diese ), werden die Gleichungen $S$ $\tilde S$

P (X_{1} - \bar{X} \geq \tilde{S} \frac{n - 1}{\sqrt{n}}) = 0 ein . s . [1 ein]

$\mathbb P\left(X_1-\bar X \ge \tilde S\frac{n-1}{\sqrt{n}}\right) =0 \;\;a.s. \qquad [1a]$

und wir wählen , um durch Kardinals Ungleichung zu erhalten $t= \frac{n-1}{\sqrt{n}}$

P (X_{1} - \bar{X} \geq \tilde{S} \frac{n - 1}{\sqrt{n}}) \leq \frac{1}{n}, [2 ein]

$\mathbb P\left (X_1 - \bar X \geq \tilde S\frac{n-1}{\sqrt{n}}\right) \leq \frac{1}{ n}, \;\; \qquad [2a]$ und das Wahrscheinlichkeitsintervall für ist

t

$t$

0 < t < \frac{n - 1}{\sqrt{n}} .

$0< t < \frac{n-1}{\sqrt{n}}.$

Alecos Papadopoulos
quelle

(+1) Übrigens, als ich dieses Problem zum ersten Mal betrachtete, die Tatsache, dass war eigentlich der erste Hinweis darauf, dass die Stichprobenungleichung enger sein sollte als das Original. Ich wollte das in meinen Posten drücken, fand aber keinen (bequemen) Platz dafür. Ich freue mich, dass Sie es hier erwähnen (eigentlich eine kleine Verbesserung), zusammen mit Ihrer sehr netten zusätzlichen Ausarbeitung. Prost.

max_{i} | X_{i} - \bar{X} | \leq S \sqrt{n - 1}

$\max_i |X_i - \bar X| \leq S\sqrt{n-1}$

Kardinal

Prost @Cardinal, tolle Antwort - bitte klären Sie für mich - spielt es für Ihre Ungleichung eine Rolle, wie man die Stichprobenvarianz definiert (verzerrt oder nicht)?

Alecos Papadopoulos

Nur ganz leicht. Ich habe die vorspannungskorrigierte Stichprobenvarianz verwendet. Wenn Sie zum Normalisieren anstelle von , erhalten Sie am Ende anstelle von was bedeutet, dass der Ausdruck in der endgültigen Ungleichung verschwindet. In diesem Fall erhalten Sie die gleiche Schranke wie bei der ursprünglichen einseitigen Chebyshev-Ungleichung. (Vorausgesetzt, ich habe die Algebra richtig gemacht.) :-)

n

$n$

n - 1

$n-1$

\frac{1 + t^{2} c^{2}}{t^{2} (1 + c)^{2}}

$\frac{1+t^2c^2}{t^2(1+c)^2}$

\frac{(n - 1) + n t^{2} c^{2}}{n t^{2} (1 + c)^{2}},

$\frac{(n-1) + n t^2c^2}{nt^2(1+c)^2} \,,$

n / (n - 1)

$n/(n-1)$

Kardinal

@Cardinal ... was bedeutet, dass die relevanten Gleichungen in meiner Antwort und , was bedeutet, dass Ihre Ungleichung uns sagt, dass für ausgewählt wurde, um Samuelson-Ungleichung zu aktivieren, die Wahrscheinlichkeit des untersuchten Ereignisses nicht größer sein kann als , dh nicht größer als die zufällige Auswahl eines realisierten Wertes aus der Stichprobe ... was irgendwie einen unscharfen, intuitiven Sinn ergibt: Was sich als deterministisch unmöglich erwiesen hat, überschreitet bei probabilistischer Annäherung seine Wahrscheinlichkeitsgrenze nicht die Äquiprobierbarkeit ... nicht klar in meinen Gedanken noch.

1 a

$1a$

2 a

$2a$

t

$t$

1 / n

$1/n$

Alecos Papadopoulos