Mechanik hinter Abweichung von der Zufallsverteilung

8

Das System, an dem wir arbeiten, ist biologisch, insbesondere die Verteilung programmierter DNA-Schadensereignisse über ein Chromosom. Dies kann als 1D-Array (das Chromosom) betrachtet werden, über das Punkte ausgewählt werden können (Orte mit absichtlicher Schädigung). Wir haben die Positionen dieser Ereignisse experimentell kartiert und zunächst gefragt, ob sie zu einer zufälligen Verteilung passen oder nicht - das heißt, Schäden können an jedem Punkt entlang des Chromosoms mit gleicher Wahrscheinlichkeit auftreten und bestimmte Schadensstellen sind unabhängig voneinander. Durch die Erzeugung zufälliger Verteilungen auf MATLAB (randi) stellte sich heraus, dass dies nicht der Fall war.

Durch die Analyse der Inter-Point-Abstände (IPDs) sowohl von den realen als auch von den modellierten Daten wird festgestellt, dass die realen Daten nur unterhalb einer bestimmten IPD-Größe von einer zufälligen Verteilung abweichen, bevor sie sich wieder der zufälligen Verteilung darüber anschließen, dh es gibt weniger kürzere IPDs als zufällig in den realen Daten zu erwarten wäre.

Geben Sie hier die Bildbeschreibung ein

Beispiel für IPD-Ergebnisse:

Geben Sie hier die Bildbeschreibung ein

Red = random modelled distribution
Blue = real data
Y-axis = IPD size (log-scale)
X-axis = IPD number (IPDs are just plotted in numerical order)

Die IPDs sind hier auf einer logarithmischen Y-Achse und einfach in aufsteigender Reihenfolge aufgetragen, als wäre es ein Histogramm. Wie Sie unter einer bestimmten IPD-Größe (Y-Achse) sehen können, weicht die blaue Linie von der roten Linie ab.

Die Hypothese, die wir testen (die eine solide biologische Grundlage hat), ist, dass die Position eines Ereignisses von den bereits gebildeten abhängt. Sobald ein Standort ausgewählt wird, wird eine Zone der Unterdrückung um ihn herum ausgelöst, wodurch die Wahrscheinlichkeit geringer ist, dass die umgebende Region als nächster Standort ausgewählt wird. Dies räumt die Ereignisse effektiv aus und erklärt das Fehlen kürzerer IPDs. Diese Zone nimmt allmählich an Intensität ab, je weiter Sie sich von einem ausgewählten Punkt entfernen. Dies erklärt die Rückkehr zur Unabhängigkeit über einen bestimmten IPD-Abstand.

Geben Sie hier die Bildbeschreibung ein

Frage : Gibt es eine mathematische Methode, mit der wir die Form dieser Zone allein aus den zufälligen und realen Datensätzen ableiten können? Zum Beispiel durch Berechnung der Stärke (Fähigkeit, von der Zufälligkeit abzuweichen) an jedem bestimmten Punkt, bis die Auswirkungen nicht mehr sichtbar sind?

Die Form und der Maßstab des Dreiecks im obigen Diagramm ist die Hauptsache, die ich erhalten möchte (es ist nicht unbedingt ein Dreieck).

Wir haben ein zweites Modell, das diese Hypothese simuliert - und das vielversprechende Ergebnisse liefert. Wir benötigen jedoch eine Anleitung zu Form, Maßstab usw. der Repressionszone. Andernfalls liegt es eher an Versuch und Irrtum, und es können mehrere verschiedene Fenster + Parameter passen.


Ich habe zuvor etwas Ähnliches gesehen, indem ich die IPDs in ein Histogramm zusammengefasst, eine Gamma-Wahrscheinlichkeitsfunktion angepasst und diese dann in eine Hazard-Funktion umgewandelt habe, aber ich bin kein Mathematiker und weiß nicht, ob dies die richtige Methode ist oder wie ich vorgehen soll es.

Ich arbeite größtenteils in MATLAB. Wenn also jemand Hilfe in Form von MATLAB leisten könnte, wäre das großartig - aber jede Hilfe wäre sehr dankbar.

In der Darstellung verwendete Daten:

Real IPDs:

7126.5
11311.5
12582.25
21499
25429.25
28876.5
29178.5
35545.25
37498.75
37881.5
38152
45464
47372.5
48047.5
52397
55563
57100.75
59372
61640.5
63822.5
66672.25
67010
68969
69071.5
69680.75
70136
70228.25
75124
75487.5
76186.5
80091.5
80279
80727.75
83397.25
84412.25
84481
85453.5
85483.25
88821
88862.25
89089.5
90453.25
92416.25
96658
97369.75
98573.25
104459.5
105307.25
107716.5
113079.5
113357.75
113750.25
113848
114834.25
114871
114919.25
116882
116899.75
117400.75
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091

Modelled IPDs:

6309.250317
7485.019638
8691.132742
9875.024811
11093.9262
12328.9784
13540.43008
14760.67732
16018.67552
17243.509
18560.20364
19830.60355
21235.71334
22592.75188
23931.62058
25240.54551
26572.1846
27899.31413
29311.17773
30765.96211
32251.92515
33713.78512
35191.37822
36695.70116
38301.07903
39893.27382
41474.13555
43128.17872
44764.51525
46449.33501
48116.12259
49799.81561
51567.24913
53351.51996
55228.92877
57039.44196
58826.45323
60615.27354
62437.5259
64364.0891
66308.25836
68317.33777
70389.35974
72571.9451
74659.85927
76782.19429
79186.51912
81427.22249
83761.00059
86187.90023
88672.44356
91239.82722
93885.18499
96423.67933
99062.67598
101676.3844
104409.6901
107253.7768
110233.3544
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091
AnnaSchumann
quelle
Die von Ihnen vorgeschlagene Methode ist eine Standardmethode zum Anpassen von Verteilungen. Mir ist nicht klar, ob Zeit für Sie wichtig ist oder nicht, obwohl es so scheint. In diesem Fall haben Sie es möglicherweise mit einem inhomogenen Prozess zu tun. Das wird schwieriger.
Mandata
Ich bin mir nicht sicher, ob ich vollständig verstehe, was Sie in Bezug auf die Zeit fragen. Könnten Sie näher darauf eingehen?
AnnaSchumann
"Diese Zone löst sich allmählich auf und erklärt die Rückkehr zur Unabhängigkeit oberhalb einer bestimmten IPD-Distanz." Interessiert dich das?
Mandata
Können Sie Ihr Phänomen ein wenig beschreiben? Was messen Sie? Es scheint auch, dass Sie mit "zufällig" eine bestimmte Verteilung meinen, die Sie im Sinn haben. Die Variable kann zufällig sein, jedoch aus einer anderen Verteilung, wodurch möglicherweise dünnere Schwänze entstehen als erwartet.
Aksakal
@mandata Ich entschuldige mich - das war schlecht formuliert. Ich habe es über eine Bearbeitung aktualisiert. Ich meinte, dass die Intensität der Zone allmählich abnimmt, je weiter Sie sich von einem ausgewählten Punkt entfernen - nicht, dass sie sich mit der Zeit auflöst.
AnnaSchumann

Antworten:

3

Das Problem ist, dass Sie eine bestimmte zufällige Verteilung der IPD angenommen haben und diese nicht zur empirischen Verteilung passt. Daher ist die Formulierung Ihrer Frage angesichts der Erklärung, die Sie bisher gegeben haben, etwas verwirrend. Die "Abweichung" ist nicht von der Zufälligkeit, sondern von der empirischen Verteilung von der angenommenen theoretischen.

Sie generieren Positionen , wobei 0 und 1000 Grenzen sind. Daher ist die IPD.Δ x i = | x i - x i - 1 |xiU(0,1000)Δxi=|xixi1|

Wir können die bedingungslose Wahrscheinlichkeit eines kleinen IPD für jedes gegebene kleine wie folgt ermitteln:
ε > 0

P(Δxi)<ε
ε>0

P(Δxi)<ε=ε500ε21,000,000

Dies ist eine eigenartige Verteilung. Hier sind seine kumulativen und Dichtefunktionen:Geben Sie hier die Bildbeschreibung ein Geben Sie hier die Bildbeschreibung ein

Die x-Achse ist IPD und die y-Achse ist kumulative (links) und Dichte (rechts) Wahrscheinlichkeitsfunktionen.

Wie Sie sehen können, bedeutet Ihre Wahl des Modells (dh der Randi-Funktion), dass die Wahrscheinlichkeit einer kleinen Entfernung ziemlich hoch ist, viel höher als bei einer großen IPD. Ihr biologisches Phänomen passt wahrscheinlich nicht in dieses Modell. Sie müssen ein anderes Modell ausprobieren.

Aksakal
quelle
Wir haben zunächst getestet, ob unsere experimentell bestimmten Verteilungen mit einer zufälligen Verteilung übereinstimmen oder nicht. Sie tun es nicht - und das wissen wir. Wir versuchen nun, ein neues Modell unter Verwendung der im OP angegebenen Hypothese zu formulieren (die eine spezifische biologische Grundlage hat). Das Hauptproblem besteht darin, dass mehrere Kombinationen von Formen / Maßstäben für die Repressionszone zu den Daten passen - und wir müssen wissen, welche richtig sind. Daher frage ich, ob es möglich ist, die Form / Skalierung allein aus den Datensätzen abzuleiten.
AnnaSchumann
@AnnaSchumann, suchen Sie nach einer Verteilung, deren Dichte für den linken Schwanz niedriger ist als die der induzierten gleichmäßigen Verteilung. Wenn Sie beispielsweise festgestellt haben, dass es einen Modus für die Verteilung von IPDs gibt, können Sie mit Poisson, Neg Binomial, Lognormal oder sogar normal beginnen, um festzustellen, ob die Anpassung besser wird.
Aksakal
Vielen Dank! Ich werde jetzt einen Blick darauf werfen. Wie lauten die Achsenbeschriftungen in den Diagrammen in Ihrer obigen Antwort? Ich bin nicht sicher, ob ich sie vollständig verstehe.
AnnaSchumann
@ AnnaSchumann, aktualisiert die Antwort
Aksakal
Würden die Wahrscheinlichkeiten bestimmter IPD-Größen nicht davon abhängen, wie viele Zahlen Randi in jeder Iteration auswählt? In unserem System haben wir normalerweise ziemlich große Grenzen, wählen aber möglicherweise nur 3-5 Veranstaltungsorte aus. Gibt es eine Möglichkeit, die Wahrscheinlichkeitsverteilungen für verschiedene Mengen ausgewählter Standorte zu modellieren?
AnnaSchumann