Wie heißt diese diskrete Verteilung (rekursive Differenzgleichung), die ich abgeleitet habe?

11

Ich bin in einem Computerspiel auf diese Distribution gestoßen und wollte mehr über ihr Verhalten erfahren. Es ergibt sich aus der Entscheidung, ob ein bestimmtes Ereignis nach einer bestimmten Anzahl von Spieleraktionen eintreten soll. Die Details darüber hinaus sind nicht relevant. Es scheint auf andere Situationen anwendbar zu sein, und ich fand es interessant, weil es einfach zu berechnen ist und einen langen Schwanz erzeugt.

Bei jedem Schritt n erzeugt das Spiel eine einheitliche Zufallszahl 0X<1 . Wenn X<p(n) , wird das Ereignis ausgelöst. Nachdem das Ereignis einmal aufgetreten ist, setzt das Spiel n=0 und durchläuft die Sequenz erneut. Ich bin nur an einem Auftreten des Ereignisses für dieses Problem interessiert, da dies die Verteilung darstellt, die das Spiel verwendet. (Außerdem können alle Fragen zu mehreren Vorkommen mit einem einzigen Vorkommensmodell beantwortet werden.)

Die Haupt- "Anomalie" hierbei ist, dass der Wahrscheinlichkeitsparameter in dieser Verteilung mit der Zeit zunimmt oder anders ausgedrückt, der Schwellenwert mit der Zeit ansteigt. Im Beispiel ändert es sich linear, aber ich nehme an, dass andere Regeln gelten könnten. Nach Schritten oder Aktionen des Benutzersn

p(n)=kn

für eine Konstante . An einem bestimmten Punkt n max erhalten wir p ( n max ) 1 . Das Ereignis tritt einfach garantiert in diesem Schritt auf.0<k<1nmaxp(nmax)1

Das konnte ich feststellen

und F ( n ) = p ( n ) + F ( n - 1 ) [ 1 - p ( n ) ] für PMF f ( n ) und CDF F ( n ) . Kurz gesagt, die Wahrscheinlichkeit, dass das Ereignis auf dem n wird

f(n)=p(n)[1F(n1)]
F(n)=p(n)+F(n1)[1p(n)]
f(n)F(n)nDer dritte Schritt ist gleich der Wahrscheinlichkeit , abzüglich der Wahrscheinlichkeit, dass er bereits in einem vorhergehenden Schritt aufgetreten ist.p(n)

Hier ist eine Handlung von unserem Freund Monte Carlo zum Spaß mit . Der Median beträgt 21 und der Durchschnitt 22. k0.003Geben Sie hier die Bildbeschreibung ein

Dies entspricht im Großen und Ganzen einer Differenzgleichung erster Ordnung aus der digitalen Signalverarbeitung, die mein Hintergrund ist, und so fand ich das ziemlich neu. Ich bin auch fasziniert von der Vorstellung, dass nach einer beliebigen Formel variieren könnte.p(n)

Meine Fragen:

  1. Wie heißt diese Distribution, wenn sie eine hat?
  2. Gibt es eine Möglichkeit, einen Ausdruck für ohne Bezugnahme auf F ( n ) abzuleiten ?f(n)F(n)
  3. Gibt es andere Beispiele für solche diskreten rekursiven Verteilungen?

Bearbeitet Klären Prozess zur Zufallszahlengenerierung.

jbarlow
quelle
1
Gibt es einen Grund, warum Sie eckige Klammern anstelle von () gewählt haben?
Cam.Davidson.Pilon
1
@ Cam.Davidson.Pilon: Mein DSP-Hintergrund hat sich eingeschlichen. Wir verwenden in der Regel eckige Klammern für diskrete Zeitfunktionen. Ich denke, das muss nerven, also werde ich es ändern.
Jbarlow
1
Der von Ihnen angenommene Prozess wird hier nicht klar definiert. Sie sagen: "Bei jedem Schritt würfelt das Spiel mit einer Zufallszahl X. Wenn X.nX , wird das Ereignis ausgelöst." Sie geben jedoch keine Angabe darüber, wie X gezeichnet wird. Ich denke, es wäre hilfreich, wenn der Prozess etwas genauer beschrieben werden könnte. X<p(n)X
Kardinal
2
@jbarlow: Entschuldigung, wenn meine vorherige Bemerkung unklar war. Wenn für einige 0 < k < 1 ist, kann Ihr Prozess auf keinen Fall mehr als k - 1 Schritte haben, da eine einheitliche Zufallszahl zwischen Null und Eins definitiv kleiner als p ( n wäre ) für jedes n > 1 / k . Die Größe p ( n ) als Funktion von n ist sehr eng mit dem verbunden, was man als bezeichnetp(n)=kn0<k<1k1p(n)n>1/kp(n)nGefahrenfunktion im Teilbereich der Statistik, bekannt als Überlebensanalyse .
Kardinal
1
Für kleines zeigt die Verwendung des Differentialanalogons dieser Differenzgleichung, dass F ( nicht f !) Nahe an Gauß liegt. (Daraus schließen wir zum Beispiel sofort, dass der Mittelwert nahe √ liegen musskF f) Bitte beachten Sie auch, dass es einige (starke) Einschränkungen fürk gibt, denn wennp(n)1überschreitet(was letztendlich der Fall ist), gibt es keine Garantie dafür, dassFkleiner oder gleich1bleibt1/k=33318kp(n)1F1 .
whuber

Antworten:

9

In gewissem Sinne haben Sie alle nichtnegativen Verteilungen mit ganzzahligen Werten charakterisiert .

Lassen Sie uns die Beschreibung des zufälligen Prozesses für einen Moment beiseite legen und uns auf die Rekursionen in der Frage konzentrieren.

Wenn , dann mit Sicherheit F n = p n + ( 1 - P n ) F n - 1 . Wenn wir diese zweite Rekursion in Bezug auf die Überlebensfunktion S n = 1 - F n = P ( T umschreiben fn=pn(1Fn1)Fn=pn+(1pn)Fn1 (wobei T die Verteilung F hatSn=1Fn=P(T>n)TF) bekommen wir etwas sehr suggestives und leicht zu handhabendes. Es ist klar, dass Und so S n = n Π k = 0 ( 1 - P k )

Sn=1Fn=(1pn)Sn1,
Solange unsere Sequenz ( p n ) Werte in [ 0 , 1 ] annimmtund nicht zu schnell gegen Null konvergiert, erhalten wir eine gültige Überlebensfunktion (dh monoton auf Null abnehmend als n ).
Sn=k=0n(1pk).
(pn)[0,1]n

Genauer,

Satz : Eine Folge mit Werten in [ 0 , 1 ] bestimmt genau dann eine Verteilung auf die nichtnegativen ganzen Zahlen, wenn - n = 0 log(pn)[0,1] Und alle derartigen Verteilungen haben eine entsprechende Sequenz (obwohl es nicht eindeutig sein kann).

n=0log(1pn)=,

Somit ist die in der Frage geschriebene Rekursion ganz allgemein : Jede nichtnegative ganzzahlige Verteilung hat eine entsprechende Folge (pn) die Werte annimmt, ist .[0,1]

Das Gegenteil ist jedoch nicht der Fall; Das heißt, es gibt Sequenzen mit Werten in [ 0 , 1 ] , die keiner gültigen Verteilung entsprechen. (Betrachten Sie insbesondere 0 < p n < 1 für alle n N und p n = 0 für n > N. )(pn)[0,1]0<pn<1nNpn=0n>N

Aber warte, es gibt noch mehr!

Wir haben einen Zusammenhang mit der Überlebensanalyse angedeutet, und es lohnt sich, dies etwas genauer zu untersuchen. In der klassischen Überlebensanalyse mit einer absolut kontinuierlichen Verteilung und entsprechender Dichte f ist die Hazard-Funktion definiert als h ( t ) = f ( t )Ff

h(t)=f(t)S(t).

Die kumulative Gefahr ist dann und eine einfache Analyse von Derivaten zeigen, dass S ( t ) = exp ( - Λ ( t ) ) = exp ( - t 0 h ( s )Λ(t)=0th(s)ds Daraus können wir sofort eine Charakterisierung einer zulässigen Gefahrenfunktion geben: Es ist jede messbare Funktion h, so dass h ( t ) 0 für alle t und t 0 h ( s ) ist.

S(t)=exp(Λ(t))=exp(0th(s)ds).
hh(t)0t as0th(s)ds .t

Wir erhalten eine ähnliche Rekursion für die Überlebensfunktion wie oben, indem wir feststellen, dass für S ( t ) = e - t t 0t>t0

S(t)=et0th(s)dsS(t0).

Beachten Sie insbesondere, dass wir als stückweise konstant wählen könnten, wobei jedes Stück die Breite 1 hat und das Integral gegen unendlich konvergiert. Dies würde eine Überlebensfunktion S (h(t)S(t)

Zurück zum diskreten Gehäuse

S(n)

h(t)=hn=log(1pn),
(n1,n](pn)

pnlog(1pn)pn=fn/Sn1 , die zwischen der Gefahrenfunktion einer kontinuierlichen Verteilung und die diskrete Verteilung mit passenden Überlebensfunktion auf der ein heuristisches Verbindung liefert ganze Zahlen.

pn=knfnn=k1fn=0n>k1

Kardinal
quelle
1
kk=1/2f=(0,1/2,1/2,0,)k=1/mf(m+1)=f(m+2)==0
2
fnFnfn
2
Gute Antwort. Das ist sehr aufschlussreich. Ich war wirklich interessiert zu sehen, dass dieses Problem mit anderen Bereichen und Konzepten zusammenhängt.
Jbarlow
1
@ Jbarlow: Danke. Ich bin froh, dass Sie es nützlich fanden! Ich habe es genossen, ein bisschen darüber nachzudenken, da es eine schöne Frage ist.
Kardinal
8

Im Falle p(n)=p<1Wir haben einige bekannte Eigenschaften. Wir können die Wiederholungsbeziehung lösen

F(n)=p+F(n1)(1p);F(0)=p

has the solution

F(n)=P(Nn)=1(1p)n+1
which is the geometric distribution. It is well studied.

The more general case of p(n) can probably not be computed in closed form, and thus likely does not have a known distribution.

Other cases:

  1. p(n)=pn;p<1;F(0)=p has solution
    F(n)=1(1p)Γ(n+1p)Γ(1p)Γ(n+1)
    which is not a commonly known distribution.
  2. Define S(n)=1F(n) (known as the survival function in stats), the recurrence relation above reduces to the simpler form:
    S(n)=(1p(n))S(n1)
  3. From your example, it appears you want a function p(n) that increases in n. Your choice p(n)=kn isn't great analytically because of the break at p>1. Mathematicians and statisticians prefer smooth things. So I propose
    p(n)=1(1p)n+1p<1
    which p(0)=p and converges to 1. Solving the recurrence relation with this p(n), has the nice analytical form:
    F(n)=1(1p)n+1n!
    Consider S(n)=1F(n)=(1p)n+1n!. A known stat fact is that
    i=0S(i)=E[N]
    which, if you remember some calculus, looks a lot like the exponential's Taylor series, hence,
    E[N]=(1p)e(1p)
Cam.Davidson.Pilon
quelle
2
Cam, that's not the hazard function., but rather the survival function. :-)
cardinal
1
ty, *edited to survival
Cam.Davidson.Pilon