Generieren von kausal abhängigen Zufallsvariablen

Ich versuche, Sätze von kausal verbundenen Zufallsvariablen zu generieren und habe dies mit einem Monte-Carlo-Ansatz begonnen.

Die Basislinie ist ein zweidimensional gemessenes Histogramm, aus dem ich zufällige Werte ziehe.

In meinen konkreten Beispielen sind diese Variablen Beschleunigung und Geschwindigkeit - also muss offensichtlich gelten. $\bf{a}$ $\bf{v}$ $v_{i+1} = v_{i} + a_i * dt$

Mein derzeit naiver Ansatz ist:

Ich beginne mit einem . Dann generiere ich ein zufälliges gemäß der gemessenen Wahrscheinlichkeit von für den Wert von . Mit diesem kann ich berechnen und der gesamte Vorgang beginnt von vorne. $v_0$ $a_0$ $\bf{a}$ $v_0$ $a_0$ $v_1$

Wenn ich also die generierten Beschleunigungen in Bins von überprüfe, ist alles in Ordnung. Aber ich respektiere dies offensichtlich überhaupt nicht die marginale Verteilung von . $\bf{a}$ $\bf{v}$ $\bf{v}$

Ich bin ein bisschen mit den grundlegenden Monte-Carlo-Methoden vertraut, obwohl mir, wie Sie vielleicht erraten haben, ein theoretischer Hintergrund fehlt. Es wäre in Ordnung, wenn die beiden Variablen nur durch eine Korrelationsmatrix verbunden wären , aber der kausale Zusammenhang zwischen den beiden bereitet mir Kopfschmerzen.

Ich habe es nicht geschafft, irgendwo ein Beispiel für diese Art von Problem zu finden - ich könnte die falschen Begriffe googeln. Ich wäre zufrieden, wenn mich jemand auf eine Literatur / ein Beispiel oder eine vielversprechende Methode hinweisen könnte, um dies in den Griff zu bekommen.

(Oder sag mir, dass das angesichts meiner Eingaben nicht wirklich möglich ist - das schätze ich gelegentlich ...)

BEARBEITEN:

Das eigentliche Ziel dieses gesamten Verfahrens: Ich habe eine Reihe von Messungen und , die in einem zweidimensionalen Histogramm . Angesichts dieser Eingabe möchte ich zufällige Mengen von und generieren , die die gemessene Verteilung reproduzieren. $\bf{a}$ $\bf{v}$ $N(a,v)$ $\bf{a_r}$ $\bf{v_r}$

monte-carlo random-generation Sebastian
quelle

Eine interessante Frage. Das zweite "offensichtlich" (über die Nichteinhaltung der Randverteilung) ist mir jedoch überhaupt nicht klar. Warum ist es offensichtlich? Die Verteilung von , die sich in Ihrem "zweidimensionalen Histogramm" widerspiegelt, hängt davon ab, wie Sie diese Variablen abgetastet haben. Ich frage mich, ob dies mögliche Unterschiede erklären könnte. Welche Art von Daten werden durch dieses Histogramm dargestellt und wie genau "zeichnen" Sie Werte daraus?

(v, a)

$(v,a)$

whuber

Nun, für mich ist das offensichtlich, weil die -Verteilungen um Null ziemlich symmetrisch sind. Wenn also generiert wird , besteht keine Abhängigkeit von . Wenn sich das aktuelle am oberen Rand der Randverteilung , würden Sie annehmen, dass eine Tendenz zu negativem . "Zeichenwerte" bezieht sich auf: Nehmen Sie die 1-Dim-Wahrscheinlichkeitsverteilung, bauen Sie die kumulative Verteilung auf, werfen Sie eine Zufallszahl zwischen 0 und 1, finden Sie das wo das Sperma ist. Verteilung hat den Wert . Dieses ist mein "gezeichneter Wert"

a

$\bf{a}$

a_{i}

$a_i$

v

$v$

v

$v$

v

$\bf{v}$

a_{i}

$a_i$

r

$r$

x

$x$

r

$r$

x

$x$

Sebastian

Der Vollständigkeit halber stammen die Daten aus der GPS-Protokollierung. Ich habe eine Reihe von protokollierten Fahrten in Autos, die Geschwindigkeit mit 1 Hz protokollieren. Es gibt also ein Paar und für jeden Datenpunkt. Diese werden in das Histogramm eingetragen.

v

$v$

a

$a$

Sebastian

Ihre Kommentare zeigen an, dass Sie davon ausgehen, dass und unabhängig sind. Das kann unmöglich sein, da die Geschwindigkeit physikalisch begrenzt ist: Das bedeutet, dass viele Beschleunigungen bei extremsten Geschwindigkeiten nicht auftreten. Es ist jedoch nicht einfach, detailliertere Ratschläge zu geben, da Sie nicht artikuliert haben, was Sie erreichen möchten. Stattdessen haben Sie einen Ansatz zur Lösung eines nicht angegebenen Problems beschrieben. Warum ändern Sie diese Frage nicht und fragen stattdessen nach dem Problem, das Sie lösen müssen, anstatt nach einer Lösung, die ungültig aussieht?

a

$\mathbf{a}$

v

$\mathbf{v}$

whuber

Antworten:

Es scheint, dass Sie, um die gemeinsame Verteilung zu reproduzieren , neues nicht nur basierend auf auswählen sollten , sondern auch basierend auf dem alten auch: $\rho(a,v)$ $a$ $v$ $a$

$a_{i+1} \sim \rho'(a_{i+1}|a_i, v_i)$

Die Frage (auf die ich die Antwort noch nicht kenne) ist, wie man , das . $\rho'$ $\rho$

UPD: Sie müssen die folgende Integralgleichung lösen:

ρ (a, v) = \int d a^{'} ρ^{'} (a | a^{'}, v - \frac{a + a^{'}}{2} Δ t) ρ (a^{'}, v - \frac{a + a^{'}}{2} Δ t)

$\rho(a, v) = \int da' \rho'\left(a|a', v-{a+a'\over 2}\Delta t\right) \rho(a', v-{a+a'\over 2}\Delta t)$

Wenn Sie die Funktion mit einem Histogramm approximieren , wenden Sie dies einem linearen Gleichungssystem zu: $\rho$

{\begin{cases} ρ (a, v) = \sum_{a^{'}} ρ^{'} (a | a^{'}, v - \frac{a + a^{'}}{2} Δ t) ρ (a^{'}, v - \frac{a + a^{'}}{2} Δ t) \\ \sum_{a} ρ^{'} (a | a^{'}, v^{'}) = 1 \end{cases}

$\cases{ \rho(a, v) = \sum_{a'} \rho'\left(a|a', v-{a+a'\over 2}\Delta t\right) \rho(a', v-{a+a'\over 2}\Delta t) \\ \sum_a \rho'\left(a|a', v'\right) = 1}$

Dieses System ist unterbestimmt. Sie können eine Glättungsstrafe anwenden, um eine Lösung zu erhalten.

user31264
quelle

Enthalten die GPS-Daten nicht die Position ? Ich hätte gedacht, dass nicht nur von und abhängig ist, sondern auch von . Bedenken Sie: In jedem Straßennetz gibt es Engpässe, Geschwindigkeitsbegrenzungen, Signale, Kreuzungen, steile Gefälle usw., die geolokalisiert sind. So etwas wie ein Ensemble (Vertrieb) definiert durch: $p$ $v_{i+1}$ $v_{i}$ $a_{i}$ $a_{i+1}$ $p_{i}$

$F_{a} = Pr ( A_{i+1} \le a_{i+1}\ |\ a_{i},v_{i},p_{i} )$
$v_{i+1} = v_{i} + a_{i}dt$

Für ein solches Ensemble liegt die Schwierigkeit in der Art der Daten. Es ist wahrscheinlich, dass die wahre Population asymmetrisch, nicht linear (stückweise) ist und möglicherweise keine definierten Momente aufweist. Diese Eigenschaften sind in der vorliegenden Probe möglicherweise nicht erkennbar.

Wie @whuber festgestellt hat, scheint das Problem, dh genau das, was Sie produzieren möchten, noch nicht vollständig und klar definiert zu sein. Es ist nicht klar, ob Sie sich für das Ensemble oder mehr für die Einzelpersonen interessieren.

AsymLabs
quelle

Ich denke, mein Problem ist ziemlich klar - ich habe die gemessene Verteilung von und und möchte daraus ein pseudozufälliges , das sich letztendlich reproduziert die Eingabe. Ich bin mir Ihres Punktes bewusst, ob das, was dabei herauskommt, realistisch ist, aber das ist eine andere Frage ...

v

$\bf{v}$

a

$\bf{a}$

v_{r a n d}

$\bf{v_{rand}}$

Sebastian

Zumindest wäre dies, wie in der obigen Gleichung angegeben, kein stationärer Effekt. Ich würde denken, dass ein erster Schritt darin besteht, die Messwerte nach Zeitintervall zu sortieren und sie dann zu vergleichen. Ich weiß nicht, wie viele Messwerte Sie haben, aber dieser Vergleich könnte als Ausgangspunkt durch etwas wie Pearson's Distribution geführt werden - um zu versuchen, die Art der Verteilung zu klassifizieren.

AsymLabs