Cross-Posting meiner Frage von Mathoverflow , um einige Statistiken spezifische Hilfe zu finden.
Ich studiere einen physikalischen Prozess, der Daten generiert, die gut in zwei Dimensionen mit nicht negativen Werten projizieren. Jeder Prozess hat eine (projizierte) Spur von- - Punkte - siehe Bild unten.
Die Beispielspuren sind blau, ein problematischer Spurtyp wurde von Hand in Grün gezeichnet, und ein bedenklicher Bereich ist in Rot gezeichnet:
Jede Spur ist das Ergebnis eines unabhängigen Experiments. Zwanzig Millionen Experimente wurden über mehrere Jahre durchgeführt, aber von diesen zeigen nur zweitausend das Merkmal, das wir als Spur zeichnen. Wir beschäftigen uns nur mit den Experimenten, die eine Spur erzeugen, daher besteht unser Datensatz aus (ungefähr) zweitausend Spuren.
Es ist möglich, dass ein Track in die betroffene Region gelangt, und wir erwarten dies in der Größenordnung von im Tracks dazu. Die Schätzung dieser Zahl ist die vorliegende Frage:
Wie können wir die Wahrscheinlichkeit berechnen, dass eine beliebige Spur in die betreffende Region gelangt?
Es ist nicht möglich, Experimente schnell genug durchzuführen, um festzustellen, wie oft Spuren generiert werden, die in den betreffenden Bereich gelangen. Daher müssen wir aus den verfügbaren Daten extrapolieren.
Wir haben zum Beispiel gepasst Werte angegeben Dies behandelt Daten wie die grüne Spur jedoch nicht ausreichend - es scheint notwendig zu sein, ein Modell zu haben, das beide Dimensionen umfasst.
Wir haben den Mindestabstand von jeder Strecke zur betreffenden Region angepasst, sind jedoch nicht davon überzeugt, dass dies zu einem vertretbaren Ergebnis führt.
1) Gibt es eine bekannte Möglichkeit, eine Verteilung für die Extrapolation an diese Art von Daten anzupassen?
-oder-
2) Gibt es eine offensichtliche Möglichkeit, diese Daten zu verwenden, um ein Modell zum Generieren von Spuren zu erstellen? Verwenden Sie beispielsweise die Hauptkomponentenanalyse auf den Spuren als Punkte in einem großen Raum und passen Sie dann eine Verteilung (Pearson?) An die auf diese Komponenten projizierten Spuren an.
quelle
Antworten:
Es hört sich so an, als ob Sie die Bildung von Spuren simulieren und dann eine Monte-Carlo-Simulation durchführen möchten, um zu sehen, wie viele Spuren in den roten Bereich fallen. Dazu konvertiere ich zuerst die Linien in zwei Funktionen, von denen eine die Richtung und die andere den Abstand von einem Punkt zum nächsten auf dieser Spur angibt. Jetzt können Sie die mit diesen beiden Funktionen verbundenen Wahrscheinlichkeitsverteilungen untersuchen. Beispielsweise stellen Sie möglicherweise fest, dass die zurückgelegte Strecke einer bestimmten Verteilung folgt (achten Sie darauf, dass sich die Verteilung im Laufe der Zeit nicht ändert). Wenn sich eine der Variablen im Laufe der Zeit ändert, müssen Sie sich mit der Zeitreihenanalyse befassen (nicht mein Feld, sorry).
Ein anderer Gedanke, der mir in den Sinn kommt, ist, dass Sie, da sich die Bewegungsrichtung in xy in den meisten Spuren allmählich ändert, die Richtungsänderung gegenüber der Zeit für die Spuren besser untersuchen sollten.
Sie müssen auch die Wahrscheinlichkeit schätzen, dass eine Spur bei einer bestimmten xy-Koordinate mit einer bestimmten Richtung beginnt. Möglicherweise möchten Sie die Kernel-Dichteschätzung verwenden, um das resultierende PDF zu glätten. Wenn es einer Verteilung zu folgen scheint, für die es ein analytisches Modell gibt, kann die Erwartungsmaximierung verwendet werden, um diese Verteilung an die Daten anzupassen.
Die Monte-Carlo-Simulation würde dann zufällige Stichproben aus diesen Verteilungen ziehen, um die Formen der Spuren zu simulieren. Dann müssen Sie eine große Anzahl von Spuren simulieren und sehen, wie oft diese Spuren durch den roten Bereich verlaufen. Dies können Tausende oder Millionen von Tracks sein. Sie müssen experimentieren, um zu sehen, wann sich die Verteilung nicht mehr ändert, wenn Sie weitere Tracks hinzufügen.
quelle