Wahrscheinlichkeit, eine bestimmte Sequenz von Basenpaaren zu finden

10

Wenn ich über die Wahrscheinlichkeit nachdenke, wird mir immer klar, wie schlecht ich zählen kann ...

Betrachten Sie eine Folge von Basisbuchstaben , jeweils gleich wahrscheinlich. Wie groß ist die Wahrscheinlichkeit, dass diese Sequenz eine bestimmte Sequenz von interessierenden Basenpaaren der Länge ?A ,nr nA,T,C, and Grn

Es sind verschiedene (gleich wahrscheinliche) Sequenzen möglich. Beginnen Sie mit der interessierenden Sequenz am Anfang der vollständigen Sequenz. Sequenzen wie diese sind möglich. Wir können unsere interessierende Sequenz an verschiedenen Orten beginnen. Daher lautet meine Antwort .4 n - r n + 1 - r ( n + 1 - r ) / 4 r4n4nrn+1r(n+1r)/4r

Diese Wahrscheinlichkeit steigt in , was für mich sinnvoll ist. Diese Wahrscheinlichkeit überschreitet jedoch 1, wenn . Das kann aber nicht sein. Die Wahrscheinlichkeit sollte sich im Limit 1 nähern (scheint mir), aber nicht überschreiten.n > 4 r + r - 1nn>4r+r1

Ich gehe davon aus, dass ich etwas doppelt zähle. Was vermisse ich? Vielen Dank.

(Zu Ihrer Information, keine Hausaufgaben, nur ein Spielzeugbeispiel zur Vorbereitung auf Prüfungen. Eine Frage, die mein Freund aus dem Molekularbiologen gestellt hat.)

Charlie
quelle
Das ist richtig, es sollte eins nicht überschreiten, da dies die Wahrscheinlichkeitsaxiome verletzen würde: books.google.com/…
Chris Simokat
1
(Vage) verwandt: stats.stackexchange.com/questions/12174/…
Kardinal

Antworten:

5

Betrachten wir eine kleine Version dieses Problems mit . Wie ist die Wahrscheinlichkeit, dass eine Folge von fünf Buchstaben das Ziel ? Dies ist einfach: aller Sequenzen beginnen mit dieser Zeichenfolge, weitere enden damit, und keine Sequenz beginnt und endet mit dieser Zeichenfolge. Daher ist die Chance .A C G T 4 - 4 4 - 4 2 × 4 - 4n=5ACGT44442×44

Auf der anderen Seite, wie groß ist die Chance von ? Wiederum beginnen der Sequenzen mit dieser Zeichenfolge, das gleiche Verhältnis endet mit dieser Zeichenfolge, und aller Sequenzen tun beides . Nach dem Prinzip des Einschluss-Ausschlusses lautet die Antwort daher .4 - 4 4 - 5 2 × 4 - 4 - 4 - 5AAAA44452×4445

Im Allgemeinen hängt die Antwort von der Struktur des Teilstrings ab. gesagt, wenn Sie eine Zeichenfolge (z. von links nach rechts) nach , ignorieren Sie alle Zeichen, bis Sie das erste . Danach gibt es drei Möglichkeiten: Das nächste Zeichen ist eine Übereinstimmung für , das nächste ist eine Nichtübereinstimmung für aber kein (Sie befinden sich also wieder im Wartezustand auf ein ) oder Das nächste ist ein Nicht-Match, aber es ist ein , was Sie in den Zustand " Just Saw-an- . Betrachten Sie im Gegensatz dazu eine Suche nach . Angenommen, Sie haben das PräfixA C C A A A A A C T A C G A C T A C G C A A C T ... A C T AACGTACCAAAAACTACGACTAC. Das nächste Zeichen stimmt überein, wenn es . Wenn es sich nicht um eine Übereinstimmung handelt, versetzt Sie (i) ein in den anfänglichen Wartezustand für einen Zustand, (ii) ein Sie auf ein achten, und (iii) ein bedeutet, dass Sie bereits gesehen haben und du bist schon auf halbem Weg zu einem Match (und suchst das zweite ). Die relevante "Struktur" besteht offensichtlich aus Mustern von Teilzeichenfolgen im Ziel, die mit dem Präfix des Ziels übereinstimmen. Deshalb hängen die Chancen von der Zielzeichenfolge ab.GCAACTACTA

Die FSA-Diagramme, die ich in einer Antwort zur Zeit befürworte, in der ein Muster aus Kopf und Zahl in einer Reihe von Münzwürfen getroffen wurde, können zum Verständnis dieses Phänomens beitragen.

whuber
quelle
3

Eine grobe Näherung wäre . Sie nehmen die Wahrscheinlichkeit an, dass Ihre Sequenz nicht an einem bestimmten Ort auftritt, und setzen sie auf die Anzahl der Orte (fälschlicherweise unter der Annahme der Unabhängigkeit), die nicht , und dies ist eine Annäherung an das Nichtauftreten Sie müssen dies also von subtrahieren . n - r + 1 n - r 11(11/4r)nr+1nr+1nr1

Eine genaue Berechnung hängt von dem genauen Muster ab, nach dem Sie suchen. eher nicht auf als .A T C G TAAAAAATCGT

Henry
quelle
Vielleicht bin ich es nur, aber scheint etwas klarer zu sein, um zu verstehen, wie die Gleichung konstruiert wurde. 1(1(1/4)r)n(r1)
@ JoeRocc - Ich vermute, das ist persönlich. Wenn Sie von Seite bis Seite eines Buches lesen, haben Sie Seiten oder Seiten gelesen ? 300400400300+1=101400(3001)=101
Henry
Keine Sorge, ich habe mich nur an das Problem gehalten. Wenn wir intuitiv eine Gleichung als ableiten , dann denke ich, wenn wir versuchen, sie jemandem zu erklären, ist es am besten, sie so zu belassen, anstatt sie zu vereinfachen (obwohl sich dies bei Betrachtung sicherlich als intuitiver herausstellen kann). Ihre Intuition kann auf jeden Fall anders gewesen sein :)(a(b(c1+d)))ab+c1+d
2

Sie zählen die Sequenzen doppelt, die Ihre Zielteilsequenz mehrmals enthalten, beispielsweise sowohl an Position A als auch an Position B! = A. Deshalb kann Ihre fehlerhafte Wahrscheinlichkeit 1 überschreiten

user145136
quelle
Sehr gut gemacht ! +1
Michael R. Chernick
1

Es ist möglich, die genaue Wahrscheinlichkeit einer bestimmten Teilsequenz unter Verwendung einer Markov-Ketten-Darstellung des Problems zu erhalten. Die Einzelheiten zum Aufbau der Kette hängen von der jeweiligen interessierenden Teilsequenz ab, aber ich werde einige Beispiele dafür geben.


Genaue Wahrscheinlichkeit über die Markov-Kette: Betrachten Sie eine diskrete Folge von Ergebnissen von bei der die Ergebnisse in der Folge austauschbar sind, und nehmen Sie an, dass wir an einem Teilstring der Länge interessiert sind . Für jeden gegebenen Wert von sei das Ereignis, bei dem der interessierende Teilstring auftritt, und sei das Ereignis, dass die letzten Ergebnisse die ersten Zeichen im Teilstring von sind Interesse (aber nicht mehr als das). Wir verwenden diese Ereignisse, um die folgende Aufteilung von möglichen interessierenden Zuständen anzugeben:A,T,C,GknWHaaa<kk+1

State 0W¯H0,   State 1W¯H1,   State 2W¯H2,   State 3W¯H3,   State k1W¯Hk1,State kW.  

Da angenommen wird, dass die Folge von Ergebnissen austauschbar ist, haben wir unabhängige Ergebnisse, die von ihren jeweiligen Wahrscheinlichkeiten . Ihr interessierender Prozess kann als zeitdiskrete Markov-Kette dargestellt werden, die in bei beginnt und gemäß einer Wahrscheinlichkeitsmatrix übergeht, die von der jeweiligen interessierenden Teilzeichenfolge abhängt. Die Übergangsmatrix ist immer einθA+θT+θC+θG=1State 0n=0(k+1)×(k+1)Matrix, die die Übergangswahrscheinlichkeiten unter Verwendung der obigen Zustände darstellt. Wenn der interessierende Teilstring nicht erreicht wurde, kann jeder Übergang Sie entweder einen Schritt näher an den Teilstring bringen oder Sie in einen vorherigen Zustand zurückversetzen, der von dem jeweiligen Teilstring abhängt. Sobald der Teilstring erreicht ist, ist dies ein absorbierender Zustand der Kette, der die Tatsache darstellt, dass das Ereignis von Interesse aufgetreten ist.

Wenn der interessierende Teilstring beispielsweise ist, die Übergangsmatrix:AAAAAA

P=[1θAθA000001θA0θA00001θA00θA0001θA000θA001θA0000θA01θA00000θA0000001.]

Wenn der interessierende Teilstring ist, die Übergangsmatrix im Gegensatz dazu :ACTAGC

P=[1θAθA00001θAθCθAθC00001θAθTθA0θT0001θA000θA001θAθCθGθAθC00θG01θAθCθA0000θC0000001.]

Wie oben zu sehen ist, erfordert die Konstruktion der Übergangsmatrix die Beachtung des jeweiligen Teilstrings. Ein falsches Ergebnis versetzt Sie in einen vorherigen Status in der Zeichenfolge zurück, der von der jeweiligen interessierenden Teilzeichenfolge abhängt. Sobald die Übergangsmatrix erstellt ist, ist für einen gegebenen Wert von die Wahrscheinlichkeit, dass sich der Teilstring in der Kette befindet, . (Diese Wahrscheinlichkeit ist für alle Null .)nP(W|n)={Pn}0,kn<k


Programmieren in R: Sie können dies als Funktion in programmieren, indem Sie eine Funktion Rerstellen, die die Übergangsmatrix für die Markov-Kette und ein Array ihrer Potenzen bis zu einer gewünschten Anzahl von Versuchen generiert. Sie können dann die entsprechende Übergangswahrscheinlichkeit für den Wert von lesen, der von Interesse ist. Hier ist ein Beispiel für einen Code, um dies zu tun:n

#Create function to give n-step transition matrix for n = 1...N
#We will use the example of the substring of interest "AAAAAA"

#a is the probability of A
#t is the probability of T
#c is the probability of C
#g is the probability of G
#N is the last value of n
PROB <- function(N,a,t,c,g) { TOT <- a+t+c+g;
                              a <- a/TOT; 
                              t <- t/TOT; 
                              c <- c/TOT; 
                              g <- g/TOT; 

                              P <- matrix(c(1-a, a, 0, 0, 0, 0, 0,
                                            1-a, 0, a, 0, 0, 0, 0,
                                            1-a, 0, 0, a, 0, 0, 0,
                                            1-a, 0, 0, 0, a, 0, 0,
                                            1-a, 0, 0, 0, 0, a, 0,
                                            1-a, 0, 0, 0, 0, 0, a,
                                              0, 0, 0, 0, 0, 0, 1),
                                          nrow = 7, ncol = 7, 
                                          byrow = TRUE);
                              PPP <- array(0, dim = c(7,7,N));
                              PPP[,,1] <- P;
                              for (n in 2:N) { PPP[,,n] <- PPP[,,n-1] %*% P; } 
                              PPP }

#Calculate probability for N = 100 for equiprobable outcomes
N <- 100;
a <- 1/4;
t <- 1/4;
c <- 1/4;
g <- 1/4;
PROB(N,a,t,c,g)[1,7,N];

[1] 0.01732435

Wie Sie dieser Berechnung entnehmen können, beträgt die Wahrscheinlichkeit, den Teilstring in Würfen mit gleichwahrscheinlichen Ergebnissen zu erhalten, . Dies ist nur ein Beispiel unter Verwendung eines bestimmten Teilstrings und einer gegebenen Anzahl von Versuchen, es kann jedoch variiert werden, um Wahrscheinlichkeiten in Bezug auf andere interessierende Teilstrings zu erhalten.AAAAAAn=1000.01732435

Ben - Monica wieder einsetzen
quelle