In dem klassischen Coupon Collector-Problem ist bekannt, dass die Zeit erforderlich ist, um einen Satz von zufällig ausgewählten Coupons zu vervollständigen, , und .
Diese Obergrenze ist besser als die durch die Chebyshev-Ungleichung gegebene, die ungefähr .
Meine Frage ist: Gibt es eine entsprechende Untergrenze für T, die besser ist als Tschebyschew ? (zB so etwas wie )?
Antworten:
Ich gebe dies als zweite Antwort, da die Analyse vollständig elementar ist und genau das gewünschte Ergebnis liefert.
Satz Fürc>0 und n≥1 ist
Die Idee hinter dem Beweis ist einfach:
Beweis
Für jedes und jedes gilt:t s>0
Da und unabhängig sind, können wir schreiben:T=∑iTi Ti
Nun, da geometrisch ist, sagen wir mit Erfolgswahrscheinlichkeit , dann zeigt eine einfache BerechnungTi pi
Die für unser Problem sind , , usw. Daher istpi p1=1 p2=1−1/n p3=1−2/n
Wählen wir für und . Dann ist und , was ergibt.s=1/n t=nlogn−cn c>0
Wenn wir dies zusammenfassen, erhalten wir
wie gewünscht.
quelle
Obwohl @cardinal bereits eine Antwort gegeben hat, die genau die gesuchte Grenze angibt, habe ich ein ähnliches Argument im Chernoff-Stil gefunden, das eine stärkere Grenze geben kann:
Satz : (Dies ist stärker für )c > π 2
Beweis :
Wie in der Antwort von @ cardinal können wir die Tatsache verwenden, dass eine Summe unabhängiger geometrischer Zufallsvariablen mit Erfolgswahrscheinlichkeiten . Daraus folgt, dass und .T i p i = 1 - i / n E [ T i ] = 1 / p i E [ T ] = ≤ n i = 1 E [ T i ] = n ≤ n i = 1 1T Ti pi=1−i/n E[Ti]=1/pi E[T]=∑ni=1E[Ti]=n∑ni=11i≥nlogn
Definieren Sie nun neue Variablen und . Wir können dann schreiben S : = ∑ i S i Pr ( T ≤ n log n - c n ) ≤ Pr ( T ≤ E [ T ] - c n ) = Pr ( S ≤ - c n ) = Pr ( exp ( - s SSi:=Ti−E[Ti] S:=∑iSi
Wir haben die Durchschnittswerte berechnet
es-1≥sez
Da also , wir können schreiben Pr(T≤nlogn-cn)≤ e 1∑ip−2i=n2∑n−1i=11i2≤n2π2/6
Wenn wir , erhalten wir schließlich Pr ( T ≤ n log n - c n ) ≤ e - 3 c 2s>0
quelle
Wichtiger Hinweis : Ich habe beschlossen, den in dieser Antwort ursprünglich angegebenen Beweis zu entfernen. Es war länger, rechenintensiver, verwendete größere Hämmer und erwies sich als schwächer als die anderen Beweise, die ich gegeben habe. Rundum eine minderwertige Herangehensweise (aus meiner Sicht). Wenn Sie wirklich interessiert sind, können Sie sich die Änderungen ansehen.
Die asymptotischen Ergebnisse, die ich ursprünglich zitiert habe und die unten in dieser Antwort noch zu finden sind, zeigen, dass wir als etwas besser können als die in der anderen Antwort bewiesene Grenze, die für alle .n→∞ n
Die folgenden asymptotischen Ergebnisse gelten
und
Die Konstante und die Grenzen werden als . Beachten Sie, dass sie, obwohl sie in zwei Ergebnisse unterteilt sind, fast dasselbe Ergebnis haben, da in beiden Fällen nicht auf Nicht-Negativ beschränkt ist.c∈R n→∞ c
Siehe zB Motwani und Raghavan, Randomized Algorithms , S. 60-63 für einen Beweis.
Außerdem : David liefert freundlicherweise einen Beweis für seine angegebene Obergrenze in den Kommentaren zu dieser Antwort.
quelle
Benjamin Doerr gibt (im Kapitel "Analysieren randomisierter Suchheuristiken: Werkzeuge aus der Wahrscheinlichkeitstheorie" im Buch "Theory of Randomized Search Heuristics", siehe den Link für ein Online-PDF) einen etwas einfachen Beweis dafür
Proposition Sei die Stoppzeit des Couponsammelprozesses. Dann .T Pr[T≤(1−ϵ)(n−1)lnn]≤e−nϵ
Dies scheint die gewünschte Asymptotik zu liefern (aus der zweiten Antwort von @ cardinal), aber mit dem Vorteil, dass es für alle und .n ϵ
Hier ist eine Beweisskizze.
Beweisskizze: Sei der Fall, dass der te Coupon in den ersten Zügen gesammelt wird . Somit ist . Die Schlüsseltatsache ist, dass die für jedes , negativ korreliert sind . Intuitiv ist dies ziemlich klar, da das Wissen, dass der te Coupon in den ersten Zügen es weniger wahrscheinlich machen würde, dass der te Coupon auch in den ersten Zügen gezogen wird.Xi i t Pr[Xi=1]=(1−1/n)t Xi I⊆[n] Pr[∀i∈I,Xi=1]≤∏i∈IPr[Xi=1] i t j t
Man kann die Behauptung beweisen, aber die Menge bei jedem Schritt um 1 vergrößern . Dann wird gezeigt, dass für . Entsprechend reduziert sich die Mittelung auf das Zeigen von . Doerr gibt dafür nur ein intuitives Argument an. Ein Weg zu einem Beweis ist wie folgt. Man kann beobachten, dass unter der Bedingung, dass der Coupon nach allen Coupons in kommt, die Wahrscheinlichkeit, nach dem bisherigen Zeichnen von einen neuen Coupon von nun ist. anstelle der vorherigenI Pr[∀i∈I,Xi=1|Xj=1]≤Pr[∀i∈I,Xi=1] j∉I j I I k | Ich | - kPr[∀i∈I,Xi=1|Xj=0]≥Pr[∀i∈I,Xi=1] j I I k | Ich| -k|I|−kn−1 jich|I|−kn . Zerlegt man also die Zeit, um alle Coupons als Summe geometrischer Zufallsvariablen zu sammeln, so kann man sehen, dass die Konditionierung auf den Coupon erfolgt, nachdem die Erfolgswahrscheinlichkeiten erhöht habe, und dies macht es nur wahrscheinlicher, dass die Coupons früher gesammelt werden ( durch stochastische Dominanz: Jede geometrische Zufallsvariable wird in Bezug auf die stochastische Dominanz durch die Konditionierung erhöht, und diese Dominanz kann dann auf die Summe angewendet werden.j I
In Anbetracht dieser negativen Korrelation folgt, dass , was das ergibt gewünschte Bindung mit . t = ( 1 - ϵ ) ( n - 1 ) ln nPr[T≤(1−ϵ)(n−1)lnn]≤(1−(1−1/n)t)n t=(1−ϵ)(n−1)lnn
quelle