Exponentielle Obergrenze

12

Angenommen, wir haben IID-Zufallsvariablen mit der Verteilung . Wir werden eine Probe des beobachten ist auf folgende Weise: lassen unabhängig Zufallsvariablen an , dass die ganze 's und ‚s sind unabhängig und definieren die Stichprobengröße . Die - geben an, welche der - in der Stichprobe enthalten sind, und wir möchten den Anteil der Erfolge in der Stichprobe untersuchen, der durch definiert ist X1,,XnBer(θ)XiY1,,YnBer(1/2)XiYiN=i=1nYiYiXi

Z={1Ni=1nXiYiifN>0,0ifN=0.
Für wollen wir eine Obergrenze für , die mit exponentiell abfällt . Die Ungleichung von Hoeffding gilt aufgrund der Abhängigkeiten zwischen den Variablen nicht sofort.P rϵ>0 nPr(Zθ+ϵ)n
Zen
quelle
1
Sei . (i) Ist nicht unabhängig von ? (ii) ist nicht ? ... Infolgedessen ist mir nicht klar, dass nicht "eine Summe unabhängiger Zufallsvariablen" istZi=1NXiYiZiZjiZ=ZiZ
Glen_b - Monica
Ah, guter Punkt. Ich dachte an n , anstatt N . Aber kannst du nicht stattdessen Z i = 1 schreiben Zi=1nXiYiund seiZ=i=1nZi? Das heißt, summieren Sie über alle Fälle, obY1 oder 0 ist oder nicht. ... nein, das funktioniert nicht. Der Zähler ist derselbe, aber der Nenner ist anders.
Glen_b -Reinstate Monica
Das gibt weniger als den Anteil an Erfolgen in der Probe, die die Menge des Interesses an dem Problem ist, weil (1/n)i=1nXiYi(1/N)i=1nXiYi , da Nn .
Zen
1
Ja, deshalb habe ich mit "nein, das geht nicht" geendet. Es gibt Ungleichungen, die für den nicht unabhängigen Fall gelten, wie zum Beispiel einige von Bernsteins Ungleichungen (siehe den vierten Punkt), und es gibt eine Reihe von Ungleichungen, die für Martingale gelten (obwohl ich nicht weiß, dass diese hier zutreffen werden).
Glen_b
1
Ich werde einen Blick darauf werfen und auch versuchen, einen Zusammenhang mit den Martingal-Ergebnissen zu finden. Die Schranke für U=(1/n)i=1nXiYi ist so einfach ( Pr(Uθ/2+ϵ)exp(2nϵ2) ), dass es verlockend ist, dies zu verbinden mit Z mit einer Art von Konditionierung.
Zen

Antworten:

15

Wir können auf ziemlich direkte Weise eine Verbindung zu Höffdings Ungleichung herstellen .

Beachten , dass wir

{Z>θ+ϵ}={iXiYi>(θ+ϵ)iYi}={i(Xiθϵ)Yi>0}.

Setze Zi=(Xiθϵ)Yi+ϵ/2 so dass die Zi iid sind, EZi=0 und

P(Z>θ+ϵ)=P(iZi>nϵ/2)enϵ2/2,
Von einer einfachen Anwendung derHoeffding Ungleichung(da dieZi[θϵ/2,1θϵ/2] , und so nehmen Werte in einem Intervall der Größe eins).

Es gibt eine reiche und faszinierende Literatur, die sich in den letzten Jahren insbesondere zu Themen der Zufallsmatrixtheorie mit verschiedenen praktischen Anwendungen aufgebaut hat. Wenn Sie sich für so etwas interessieren, empfehle ich:

R. Vershynin, Einführung in die nicht-asymptotische Analyse von Zufallsmatrizen , Kapitel 5 von Compressed Sensing, Theory and Applications. Herausgegeben von Y. Eldar und G. Kutyniok. Cambridge University Press, 2012.

Ich denke, die Darstellung ist klar und bietet eine sehr schöne Möglichkeit, sich schnell an die Literatur zu gewöhnen.

Kardinal
quelle
1
Da die ϵ / 2 in ihre Definition einschließen , habe ich den Eindruck, dass Z i[ - θ - ϵ / 2 , 1 - θ - ϵ / 2 ] (die Schranke ändert sich nicht). Ziϵ/2Zi[θϵ/2,1θϵ/2]
Alecos Papadopoulos
1
Dear @Zen: Beachten Sie, dass eine sorgfältige Berücksichtigung des Falls es Ihnen ermöglicht, die strenge Ungleichung > durch überall zu ersetzen, ohne die endgültige Schranke zu ändern. N=0>
Kardinal
Sehr geehrter @ Kardinal, ich habe die Frage umformuliert, weil ein (leicht) verzerrter Schätzer von θ ist , da E [ Z ] = E [ I { N = 0 } Z ] + E [ I { N > 0 } Z ] = ( 1 - 1 / 2 n )Zθ . E[Z]=E[I{N=0}Z]+E[I{N>0}Z]=(11/2n)θ
Zen
6

Details, um den Fall . N=0

{Zθ+ϵ}=({Zθ+ϵ}{N=0})({Zθ+ϵ}{N>0})=({0θ+ϵ}{N=0})({Zθ+ϵ}{N>0})=({N=0})({Zθ+ϵ}{N>0})={i=1nXiYi(θ+ϵ)i=1nYi}{N>0}{i=1nXiYi(θ+ϵ)i=1nYi}={i=1n(Xiθϵ)Yi0}={i=1n((Xiθϵ)Yi+ϵ/2)nϵ/2}.

For Alecos.

E[i=1nWi]=E[I{i=1nYi=0}i=1nWi]+E[I{i=1nYi>0}i=1nWi]=E[I{i=1nYi>0}i=1nYii=1nYi]=E[I{i=1nYi>0}]=11/2n.
Zen
quelle
5

This answer keeps mutating. The current version does not relate to the discussion I had with @cardinal in the comments (although it was through this discussion that I thankfully realized that the conditioning approach did not appear to lead anywhere).

For this attempt, I will use another part of Hoeffding's original 1963 paper, namely section 5 "Sums of Dependent Random Variables".

Set

WiYii=1nYi,i=1nYi0,i=1nWi=1,n2

while we set Wi=0 if i=1nYi=0.

Then we have the variable

Zn=i=1nWiXi,E(Zn)μn

We are interested in the probability

Pr(Znμn+ϵ),ϵ<1μn

As for many other inequalities, Hoeffding starts his reasoning by noting that

Pr(Znμn+ϵ)=E[1{Znμnϵ0}]
and that

1{Znμnϵ0}exp{h(Znμnϵ)},h>0

For the dependent-variables case, as Hoeffding we use the fact that i=1nWi=1 and invoke Jensen's inequality for the (convex) exponential function, to write

ehZn=exp{h(i=1nWiXi)}i=1nWiehXi

and linking results to arrive at

Pr(Znμn+ϵ)eh(μn+ϵ)E[i=1nWiehXi]

Focusing on our case, since Wi and Xi are independent, expected values can be separated,

Pr(Znμn+ϵ)eh(μn+ϵ)i=1nE(Wi)E(ehXi)

In our case, the Xi are i.i.d Bernoullis with parameter θ, and E[ehXi] is their common moment generating function in h, E[ehXi]=1θ+θeh. So

Pr(Znμn+ϵ)eh(μn+ϵ)(1θ+θeh)i=1nE(Wi)

Minimizing the RHS with respect to h, we get

eh=(1θ)(μn+ϵ)θ(1μnϵ)

Plugging it into the inequality and manipulating we obtain

Pr(Znμn+ϵ)(θμn+ϵ)μn+ϵ(1θ1μnϵ)1μnϵi=1nE(Wi)

while

Pr(Znθ+ϵ)(θθ+ϵ)θ+ϵ(1θ1θϵ)1θϵi=1nE(Wi)

Hoeffding shows that

(θθ+ϵ)θ+ϵ(1θ1θϵ)1θϵe2ϵ2

Courtesy of the OP (thanks, I was getting a bit exhausted...)

i=1nE(Wi)=11/2n

So, finally, the "dependent variables approach" gives us

Pr(Znθ+ϵ)(112n)e2ϵ2BD

Let's compare this to Cardinal's bound, that is based on an "independence" transformation, BI. For our bound to be tighter, we need

BD=(112n)e2ϵ2enϵ2/2=BI

2n12nexp{(4n2)ϵ2}

So for n4 we have BDBI. For n5, pretty quickly BI becomes tighter than BD but for very small ϵ, while even this small "window" quickly converges to zero. For example, for n=12, if ϵ0.008, then BI is tighter. So in all, Cardinal's bound is more useful.

COMMENT
To avoid misleading impressions regarding Hoeffding's original paper, I have to mention that Hoeffding examines the case of a deterministic convex combination of dependent random variables. Specificaly, his Wi's are numbers, not random variables, while each Xi is a sum of independent random variables, while the dependency may exist between the Xi's. He then considers various "U-statistics" that can be represented in this way.

Alecos Papadopoulos
quelle
Alecos: E[W1]=(11/2n)/n (take a look at the derivation at the end of my answer). Your bound doesn't decay exponentially with n as cardinal's does.
Zen
@Zen Indeed (in fact it increases with sample size, although boundedly), that's why Cardinal's bound is more useful for most sample sizes.
Alecos Papadopoulos