Wie viele der größten Terme in

Betrachten Sie $\sum_{i=1}^N |X_i|$ wobei $X_1, \ldots, X_N$ iid sind und die CLT gilt.
Wie viele der größten Begriffe machen die Hälfte der Gesamtsumme aus?
Zum Beispiel erreichen 10 + 9 + 8 $\approx$ (10 + 9 + 8 $\dots$ + 1) / 2: 30% der Terme ungefähr die Hälfte der Gesamtzahl.

Definieren
$\qquad\text{sumbiggest( j}; X_1 \dots X_N ) \equiv \text{sum of the j biggest of } |X_1| \dots |X_N|$
$\qquad\text{halfsum}( N ) \equiv \text{the smallest j such that sumbiggest( j )} \approx \text{sumbiggest}( N ) / 2 .$

Gibt es ein allgemeines asymptotisches Ergebnis für die Halbsumme ( $N, \mu, \sigma$ )?
Eine einfache, intuitive Ableitung wäre schön.

(Ein wenig Monte Carlo schlägt vor, dass manchmal die halbe Summe ( $N$ ) $\approx N$ / 4 oder so ist;
das heißt, das größte Viertel des $X_i$ addiert sich zur Hälfte der Gesamtsumme.
Ich erhalte 0,24 $N$ für die Halbnormalen, 0,19 $N$ für exponentiell für $N$ = 20, 50, 100.)

central-limit-theorem asymptotics denis
quelle

Erwarten Sie kein CLT-ähnliches universelles Ergebnis. Zum Beispiel unterscheidet sich die Antwort für einheitliche (0,1) Variablen stark von der Antwort für einheitliche (1000.1001) Variablen!

whuber

Richtig, die halbe Summe hängt natürlich von Mittelwert und SD ab. Aber warum ~ N / 5 für Exponential?

Denis

Asymptotisch, Denis, die Cutoff für den halfsum wird der Wert

für die

, wo

die pdf für IS

;; Die Frage fragt nach

(

ist das cdf für

). Im Falle der Uniform

x $x$

∫x0tf(t)dt=1/2 $\int_0^x t f(t)dt = 1/2$

f $f$

|Xi| $|X_i|$

N(1−F(x)) $N(1-F(x))$

F $F$

|Xi| $|X_i|$

[0,1] $[0,1]$ Verteilung erhalten Sie die Antwort von @ Dilip; für ein Exponential gilt

. x≈0.186682N≈N/5 $x\approx 0.186682 N \approx N/5$

whuber

Antworten:

Nein, es gibt kein allgemeines asymptotisches Ergebnis. Sei das geordnete , wobei das größte ist. $x_{[1]} \dots x_{[N]}$ $x_i$ $x_{[1]}$

Betrachten Sie die folgenden zwei Beispiele:

1) . Klar gilt das CLT. Sie benötigen nur Beobachtung für $P(x=0) = 1$ $M=1$ . $\sum_{j=1}^M|x_{[j]}| \ge \frac{1}{2} \sum_N|x_i|$

2) . Klar gilt das CLT. Sie benötigen Beobachtungen für $P(x=1) = 1$ $M=\lceil N/2\rceil$ . $\sum_{j=1}^M|x_{[j]}| \ge \frac{1}{2} \sum_N|x_i|$

Für ein nicht triviales Beispiel ist die Bernoulli-Verteilung:

3) . Wieder einmal gilt das CLT. Sie benötigen der Beobachtungen, um Ihre Bedingungen zu erfüllen. Durch Variieren von zwischen 0 und 1 können Sie Beispiel 1 oder Beispiel 2 so nahe kommen, wie Sie möchten. $P(x=1) = p,\space P(x=0) = 1-p$ $\lceil pN/2\rceil$ $p$

jbowman
quelle

Es ist zwar offensichtlich, dass die Antwort irgendwo zwischen

und

, aber das bedeutet nicht, dass kein allgemeines Ergebnis vorliegt. Dies impliziert, dass wir Antworten in Betracht ziehen sollten, bei denen der Bruch von einigen Eigenschaften der zugrunde liegenden Verteilung wie dem Mittelwert und der SD abhängt. Diese reichen zusammen mit der CLT aus, um spezifische und quantitative Informationen darüber zu liefern, wie die

im Vergleich zu ihrer Summe verteilt sind. Es ist also vernünftig, auf ein solches Ergebnis zu hoffen. 0 $0$

N/2 $N/2$

x[i] $x[i]$

whuber

Hier ist ein grobes Argument, das eine etwas andere Schätzung für gleichmäßig verteilte Zufallsvariablen gibt. Angenommen, sind kontinuierliche Zufallsvariablen, die gleichmäßig auf . Dann hat den Mittelwert . Nehmen wir an, dass durch einen überraschenden und absolut unglaublichen Zufall die Summe genau gleich . So wir , wie viele der größten Werte schätzen wollen Summe bis zu oder mehr. Nun ist das Histogramm von Proben ( $X_i$ $[0,1]$ $\sum_i X_i$ $N/2$ $N/2$ $X$ $N/4$ $N$ $N$ very large) drawn from the uniformm distribution $U[0,1]$ is roughly flat from $0$ to $1$ , and so for any $x$ , $0 < x < 1$ , there are $(1-x)N$ samples distributed roughly uniformly between $x$ to $1$ . These samples have average value $(1+x)/2$ and sum equal to $(1-x)N(1+x)/2) = (1-x^2)N/2$ . The sum exceeds $N/4$ for $x \leq 1/\sqrt{2}$ . So, the sum of $(1-1/\sqrt{2})N \approx 0.3N$ largest samples exceeds $N/4$ .

You could try and generalize this a bit. If $\sum_i X_i = Y$ , then for any given $Y$ , we want $x$ to be such that $(1-x^2)N/2 = Y/2$ where $Y$ is normal with mean $N/2$ and variance $N/12$ . Thus, conditioned on a value of $Y$ , $x = \sqrt{1-(Y/N)}$ . Multiply by the density of $Y$ and integrate (from $Y=0$ to $Y=N$ ) to find the average number of largest samples that will exceed half the random sum.

Dilip Sarwate
quelle

The distance between two points restricted to be in the interval

(0,1) $(0,1)$ cannot be exponentially distributed because the distance must be less than

1 $1$ while an exponential random variable take on values in

(0,∞) $(0,\infty)$ . What is true is that if

Y1,Y2,…,Yn+1 $Y_1, Y_2, \ldots, Y_{n+1}$ are independent exponential random variables, then conditioned on

Ymax=α $Y_{\max} = \alpha$ , the order statistics

Y(1),Y(2),…,Y(n) $Y_{(1)}, Y_{(2)}, \ldots, Y_{(n)}$ are uniformly distributed in

(0,α) $(0, \alpha)$ . See, for example, this question and answer on the companion site math.SE. (continued)

Dilip Sarwate

In any case, my argument does not use the distances between the ordered samples from the uniform distribution.

Dilip Sarwate

You're right, I misunderstood you. As a side question, aren't the pieces between uniform-random points exponentially distributed, after scaling -- the converse of your q+a ? [Broken Stick Rule from the Wolfram Demonstrations Project] (demonstrations.wolfram.com/BrokenStickRule) sure looks exponential, there must be an easy? proof.

denis

Please ask your side question as a separate question.

Dilip Sarwate

Started, then saw probability-distribution-of-fragment-lengths, you could comment there.

denis

Let's assume X has just positive values to get rid of the absolute value.

Without an exact prove, I think you have to solve for k

$(1-F_{X}(k))E(X|X>=k)= \frac{1}{2} E(X)$ with F being the cumulative distribution function for X

and then the answer is given by taking the $n(1-F_X(k))$ highest values.

My logic is that asymtopically the sum of all values higher than k should be about

$n(1-F_{X}(k))E(X|X>=k)$

and asymtopically half the total sum is about

$\frac{1}{2}nE(X)$ .

Numerical simulation show that the result holds for the uniform case (uniform in $[0,1]$ ) where $F(k)=k$ and I get $k=\sqrt(\frac{1}{2})$ . I am not certain if the result always hold or if it can be simplified further, but I think it really depends on the distribution function F.

Erik
quelle