Verteilung des größten Fragmentes eines gebrochenen Stockes (Abstände)

21

Lassen Sie einen Stab der Länge 1 gleichmäßig zufällig in Fragmente zerbrechen . Wie ist die Verteilung der Länge des längsten Fragments?k+1

Genauer gesagt, sei IID , und sei die zugehörige Ordnungsstatistik, dh wir ordnen einfach die Probe so, dass . Sei .(U1,Uk)U(0,1)(U(1),,U(k))U(1)U(2),,U(k)Zk=max(U(1),U(2)U(1),,U(k)U(k1),1U(k))

Ich interessiere mich für die Distribution von Zk . Momente, asymptotische Ergebnisse oder Näherungen für k sind ebenfalls interessant.

gui11aume
quelle
9
Dies ist ein gut untersuchtes Problem. siehe R. Pyke (1965), "Spacings", JRSS (B) 27 : 3, S. 395-449. Ich werde versuchen, später noch einmal Informationen hinzuzufügen, es sei denn, jemand schlägt mich. Es gibt auch einen Artikel von 1972 desselben Autors (" Spacings revisited "), aber ich denke, was Sie suchen, ist so ziemlich alles im Ersten. In Devroye (1981) , "Gesetze des iterierten Logarithmus für die Ordnungsstatistik einheitlicher Abstände" Ann. Probab. , 9 : 5, 860 & ndash; 867.
Glen_b -Reinstate Monica
4
Diese sollten auch einige gute Suchbegriffe enthalten, um später Arbeit zu finden, wenn Sie es brauchen.
Glen_b
3
Das ist fantastisch. Die erste Referenz ist schwer zu finden. Für Interessierte habe ich es auf The Grand Locus gestellt .
gui11aume
Bitte korrigieren Sie den Druckfehler: Y(k) anstelle von U(k) .
Viktor
Vielen Dank @Viktor! Zögern Sie nicht, die Bearbeitung für solche kleinen Dinge selbst vorzunehmen (ich denke, dass sie von anderen Benutzern zur Genehmigung überprüft wird).
gui11aume

Antworten:

18

Mit den Informationen von @Glen_b konnte ich die Antwort finden. Verwenden Sie die gleichen Notationen wie die Frage

P(Zkx)=j=0k+1(k+1j)(1)j(1jx)+k,

Dabei ist a+=a wenn a>0 und sonst 0 . Ich gebe auch die Erwartung und die asymptotische Konvergenz für die Gumbel- Distribution ( NB : nicht Beta) an

E(Zk)=1k+1i=1k+11ilog(k+1)k+1,P(Zkx)exp(e(k+1)x+log(k+1)).

Das Material der Proofs stammt aus mehreren Veröffentlichungen, die in den Referenzen verlinkt sind. Sie sind etwas langwierig, aber unkompliziert.

1. Nachweis der genauen Verteilung

Sei IID gleichförmige Zufallsvariablen im Intervall . Indem wir sie bestellen, erhalten wir die mit bezeichneten Ordnungsstatistiken . Die einheitlichen Abstände sind definiert als , mit und . Die geordneten Abstände sind die entsprechenden geordneten Statistiken . Die interessierende Variable ist .(U1,,Uk)(0,1)k(U(1),,U(k))Δi=U(i)U(i1)U(0)=0U(k+1)=1Δ(1)Δ(k+1)Δ(k+1)

Für festes definieren wir die Indikatorvariable . Aufgrund der Symmetrie ist der Zufallsvektor austauschbar, sodass die gemeinsame Verteilung einer Teilmenge der Größe der gemeinsamen Verteilung von entspricht der erste . Durch die Erweiterung des Produktes erhalten wir somitx(0,1)1i=1{Δi>x}(11,,1k+1)jj

P(Δ(k+1)x)=E(i=1k+1(11i))=1+j=1k+1(k+1j)(1)jE(i=1j1i).

Wir werden nun beweisen, dass , wodurch die oben angegebene Verteilung erstellt wird. Wir beweisen dies für , da der allgemeine Fall ähnlich bewiesen ist.E(i=1j1i)=(1jx)+kj=2

E(i=121i)=P(Δ1>xΔ2>x)=P(Δ1>x)P(Δ2>x|Δ1>x).

Wenn , liegen die Haltepunkte im Intervall . In diesem Fall sind die Haltepunkte noch austauschbar, sodass die Wahrscheinlichkeit, dass der Abstand zwischen dem zweiten und dem ersten Haltepunkt größer als ist, mit der Wahrscheinlichkeit identisch ist, dass der Abstand zwischen dem ersten Haltepunkt und der linken Barriere (an Position ) ist größer als . SoΔ1>xk(x,1)xxx

P(Δ2>x|Δ1>x)=P(all points are in (2x,1)|all points are in (x,1)),soP(Δ2>xΔ1>x)=P(all points are in (2x,1))=(12x)+k.

2. Erwartung

Für Distributionen mit endlicher Unterstützung haben wir

E(X)=P(X>x)dx=1P(Xx)dx.

Durch Integration der Verteilung von erhalten wirΔ(k+1)

E(Δ(k+1))=1k+1j=1k+1(k+1j)(1)j+1j=1k+1j=1k+11j.

Die letzte Gleichheit ist eine klassische Darstellung der harmonischen Zahlen , die wir unten demonstrieren.Hi=1+12++1i

Hk+1=011+x++xkdx=011xk+11xdx.

Mit der Änderung der Variablen und der Erweiterung des Produkts erhalten wiru=1x

Hk+1=01j=1k+1(k+1j)(1)j+1uj1du=j=1k+1(k+1j)(1)j+1j.

3. Alternative Konstruktion gleichmäßiger Abstände

Um die asymptotische Verteilung des größten Fragments zu erhalten, müssen wir eine klassische Konstruktion einheitlicher Abstände als Exponentialvariablen dividiert durch ihre Summe zeigen. Die Wahrscheinlichkeitsdichte der zugehörigen Ordnungsstatistik beträgt(U(1),,U(k))

fU(1),U(k)(u(1),,u(k))=k!,0u(1)u(k+1).

Wenn wir die gleichmäßigen Abstände , erhalten wir mitΔi=U(i)U(i1)U(0)=0

fΔ1,Δk(δ1,,δk)=k!,0δi++δk1.

Durch die Definition von wir alsoU(k+1)=1

fΔ1,Δk+1(δ1,,δk+1)=k!,δ1++δk=1.

Nun sei eine exponentielle IID-Zufallsvariable mit dem Mittelwert 1 und sei . Mit einer einfachen Änderung der Variablen können wir das sehen(X1,,Xk+1)S=X1++Xk+1

fX1,Xk,S(x1,,xk,s)=es.

Definiere , so dass wir durch eine Änderung der Variablen erhaltenYi=Xi/S

fY1,Yk,S(y1,,yk,s)=skes.

Durch Integration dieser Dichte in Bezug auf wir alsos

fY1,Yk,(y1,,yk)=0skesds=k!,0yi++yk1,and thusfY1,Yk+1,(y1,,yk+1)=k!,y1++yk+1=1.

Die gemeinsame Verteilung von gleichmäßigen Abständen im Intervall ist also die gleiche wie die gemeinsame Verteilung von exponentiellen Zufallsvariablen geteilt durch ihre Summe. Wir kommen zur folgenden Äquivalenz der Verteilungk+1(0,1)k+1

Δ(k+1)X(k+1)X1++Xk+1.

4. Asymptotische Verteilung

Unter Verwendung der obigen Äquivalenz erhalten wir

P((k+1)Δ(k+1)log(k+1)x)=P(X(k+1)(x+log(k+1))X1++Xk+1k+1)=P(X(k+1)log(k+1)x+(x+log(k+1))Tk+1),

Dabei ist . Diese Variable verschwindet wahrscheinlich, weil und . Asymptotisch ist die Verteilung dieselbe wie die von . Weil die IID sind, haben wirTk+1=X1++Xk+1k+11E(Tk+1)=0Var(log(k+1)Tk+1)=(log(k+1))2k+10X(k+1)log(k+1)Xi

P(X(k+1)log(k+1)x)=P(X1x+log(k+1))k+1=(1exlog(k+1))k+1=(1exk+1)k+1exp{ex}.

5. Grafische Übersicht

Das folgende Diagramm zeigt die Verteilung des größten Fragments für verschiedene Werte von . Für ich auch die asymptotische Gumbelverteilung (dünne Linie) überlagert. Das Gumbel ist eine sehr schlechte Näherung für kleine Werte von so dass ich sie weglasse, um das Bild nicht zu überladen. Die Gumbel-Näherung ist gut von .kk=10,20,50kk50

Verteilung des größten Fragmentes eines gebrochenen Stockes

6. Referenzen

Die obigen Beweise sind den Referenzen 2 und 3 entnommen. Die zitierte Literatur enthält viel mehr Ergebnisse, wie die Verteilung der geordneten Abstände eines beliebigen Ranges, ihre Grenzverteilung und einige alternative Konstruktionen der geordneten gleichmäßigen Abstände. Die wichtigsten Verweise sind nicht leicht zugänglich, daher biete ich auch Links zum Volltext an.

  1. Bairamov et al. (2010) Grenzergebnisse für geordnete gleichmäßige Abstände , Stat. Papers, 51: 1, S. 227-240
  2. Holst (1980) Auf den Längen der zufällig gebrochenen Stockstücke beschreibt J. Appl. Prob., 17, S. 623–634
  3. Pyke (1965) Spacings , JRSS (B) 27: 3, S. 395-449
  4. Renyi (1953) Zur Theorie der Ordnungsstatistik , Acta math Hung, 4, S. 191-231
gui11aume
quelle
Brillant. übrigens eine bekannte Asymptotik für ? E(Zk2)
Amir Sagiv
@AmirSagiv das ist eine gute Frage. Ich habe mir die Referenzen angesehen und konnte sie nicht finden. Ich konnte den obigen Beweis auch nicht anpassen. Dadurch wurde mir klar, dass ich nicht weiß, wie die Verteilung eines Quadrats eines Gumbel ist. Vielleicht ein guter Anfang?
gui11aume
1
$ gui11aume Schau mal hier: mathoverflow.net/a/293381/42864
Amir Sagiv
1
@AmirSagiv Dies ist ein sehr guter Beitrag. Aus irgendeinem Grund habe ich Ihre Frage falsch verstanden und dachte, Sie an der asymptotischen Verteilung von interessiert (obwohl Ihr Kommentar sehr klar war), daher ist mein Kommentar oben nicht so relevant. Zk2
gui11aume
3

Dies ist keine vollständige Antwort, aber ich habe einige schnelle Simulationen durchgeführt, und das habe ich erhalten: Histogramm des längsten Fragments

Dies sieht bemerkenswert Beta-artig aus, und dies ist ein wenig sinnvoll, da die Ordnungsstatistik der IID-Gleichverteilungen Beta- Wiki ist .

Dies könnte einen Ansatzpunkt geben, um das resultierende PDF abzuleiten.

Ich werde aktualisieren, wenn ich zu einer endgültigen geschlossenen Lösung komme.

Prost!

Lima
quelle
Nur eine weitere Sache: Die Form des Histogramms zur Erhöhung von k ändert sich nicht wesentlich, abgesehen davon, dass es nahe an 0 "gequetscht" wird.
Lima,
1
Vielen Dank für Ihre Meinung zu @Lima (und willkommen bei Cross Validated). Ich denke, Ihre Antwort kann verbessert werden. Erstens würde ich ohne Beweise keine Aussagen machen. Wenn dies falsch ist, können Sie die Personen, die diesen Thread sehen, auf die falsche Spur setzen. Zweitens würde ich dokumentieren, was Sie getan haben. Ohne den Wert von , den Sie verwendet haben, und ohne den Code hilft die Zahl niemandem. Schließlich würde ich die Antwort kopieren, bearbeiten und alles entfernen, was die Frage nicht direkt beantwortet. k
gui11aume
1
Danke für die Vorschläge. Sie sind über den Stapelaustausch hinaus gültig, und ich werde daran denken, sie zu verwenden.
Lima
1

Ich habe die Antwort für eine Konferenz in Siena (Italien) im Jahr 2005 erstellt. Der Artikel (2006) ist auf meiner Website hier (pdf) zu finden . Die genauen Verteilungen aller Abstände (kleinste bis größte) finden Sie auf den Seiten 75 und 76.

Ich hoffe, auf der RSS-Konferenz im September 2016 in Manchester (England) einen Vortrag zu diesem Thema halten zu können.

CJStephens
quelle
2
Willkommen auf der Seite. Wir versuchen, ein permanentes Repository mit hochwertigen statistischen Informationen in Form von Fragen und Antworten aufzubauen. Aus diesem Grund sind wir aufgrund von Linkrot vorsichtig, wenn nur Links beantwortet werden. Kannst du ein vollständiges Zitat und eine Zusammenfassung der Informationen unter dem Link posten, falls sie tot sind? Bitte unterschreiben Sie hier auch nicht Ihre Beiträge. Jeder Beitrag hat einen Link zu Ihrer Benutzerseite, auf der Sie diese Informationen veröffentlichen können.
gung - Wiedereinsetzung von Monica