Wenn ich über die Wahrscheinlichkeit nachdenke, wird mir immer klar, wie schlecht ich zählen kann ...
Betrachten Sie eine Folge von Basisbuchstaben , jeweils gleich wahrscheinlich. Wie groß ist die Wahrscheinlichkeit, dass diese Sequenz eine bestimmte Sequenz von interessierenden Basenpaaren der Länge ?A ,r ≤ n
Es sind verschiedene (gleich wahrscheinliche) Sequenzen möglich. Beginnen Sie mit der interessierenden Sequenz am Anfang der vollständigen Sequenz. Sequenzen wie diese sind möglich. Wir können unsere interessierende Sequenz an verschiedenen Orten beginnen. Daher lautet meine Antwort .4 n - r n + 1 - r ( n + 1 - r ) / 4 r
Diese Wahrscheinlichkeit steigt in , was für mich sinnvoll ist. Diese Wahrscheinlichkeit überschreitet jedoch 1, wenn . Das kann aber nicht sein. Die Wahrscheinlichkeit sollte sich im Limit 1 nähern (scheint mir), aber nicht überschreiten.n > 4 r + r - 1
Ich gehe davon aus, dass ich etwas doppelt zähle. Was vermisse ich? Vielen Dank.
(Zu Ihrer Information, keine Hausaufgaben, nur ein Spielzeugbeispiel zur Vorbereitung auf Prüfungen. Eine Frage, die mein Freund aus dem Molekularbiologen gestellt hat.)
quelle
Antworten:
Betrachten wir eine kleine Version dieses Problems mit . Wie ist die Wahrscheinlichkeit, dass eine Folge von fünf Buchstaben das Ziel ? Dies ist einfach: aller Sequenzen beginnen mit dieser Zeichenfolge, weitere enden damit, und keine Sequenz beginnt und endet mit dieser Zeichenfolge. Daher ist die Chance .… A C G T … 4 - 4 4 - 4 2 × 4 - 4n=5 …ACGT… 4−4 4−4 2×4−4
Auf der anderen Seite, wie groß ist die Chance von ? Wiederum beginnen der Sequenzen mit dieser Zeichenfolge, das gleiche Verhältnis endet mit dieser Zeichenfolge, und aller Sequenzen tun beides . Nach dem Prinzip des Einschluss-Ausschlusses lautet die Antwort daher .4 - 4 4 - 5 2 × 4 - 4 - 4 - 5…AAAA… 4−4 4−5 2×4−4−4−5
Im Allgemeinen hängt die Antwort von der Struktur des Teilstrings ab. gesagt, wenn Sie eine Zeichenfolge (z. von links nach rechts) nach , ignorieren Sie alle Zeichen, bis Sie das erste . Danach gibt es drei Möglichkeiten: Das nächste Zeichen ist eine Übereinstimmung für , das nächste ist eine Nichtübereinstimmung für aber kein (Sie befinden sich also wieder im Wartezustand auf ein ) oder Das nächste ist ein Nicht-Match, aber es ist ein , was Sie in den Zustand " Just Saw-an- . Betrachten Sie im Gegensatz dazu eine Suche nach . Angenommen, Sie haben das PräfixA C C A A A A A C T A C G A C T A C G C A A C T ... A C T AACGT A C C A A A A ACTACG ACTAC . Das nächste Zeichen stimmt überein, wenn es . Wenn es sich nicht um eine Übereinstimmung handelt, versetzt Sie (i) ein in den anfänglichen Wartezustand für einen Zustand, (ii) ein Sie auf ein achten, und (iii) ein bedeutet, dass Sie bereits gesehen haben und du bist schon auf halbem Weg zu einem Match (und suchst das zweite ). Die relevante "Struktur" besteht offensichtlich aus Mustern von Teilzeichenfolgen im Ziel, die mit dem Präfix des Ziels übereinstimmen. Deshalb hängen die Chancen von der Zielzeichenfolge ab.G C A A C T …ACT A
Die FSA-Diagramme, die ich in einer Antwort zur Zeit befürworte, in der ein Muster aus Kopf und Zahl in einer Reihe von Münzwürfen getroffen wurde, können zum Verständnis dieses Phänomens beitragen.
quelle
Eine grobe Näherung wäre . Sie nehmen die Wahrscheinlichkeit an, dass Ihre Sequenz nicht an einem bestimmten Ort auftritt, und setzen sie auf die Anzahl der Orte (fälschlicherweise unter der Annahme der Unabhängigkeit), die nicht , und dies ist eine Annäherung an das Nichtauftreten Sie müssen dies also von subtrahieren . n - r + 1 n - r 11−(1−1/4r)n−r+1 n−r+1 n−r 1
Eine genaue Berechnung hängt von dem genauen Muster ab, nach dem Sie suchen. eher nicht auf als .A T C G TAAAAA ATCGT
quelle
Sie zählen die Sequenzen doppelt, die Ihre Zielteilsequenz mehrmals enthalten, beispielsweise sowohl an Position A als auch an Position B! = A. Deshalb kann Ihre fehlerhafte Wahrscheinlichkeit 1 überschreiten
quelle
Es ist möglich, die genaue Wahrscheinlichkeit einer bestimmten Teilsequenz unter Verwendung einer Markov-Ketten-Darstellung des Problems zu erhalten. Die Einzelheiten zum Aufbau der Kette hängen von der jeweiligen interessierenden Teilsequenz ab, aber ich werde einige Beispiele dafür geben.
Genaue Wahrscheinlichkeit über die Markov-Kette: Betrachten Sie eine diskrete Folge von Ergebnissen von bei der die Ergebnisse in der Folge austauschbar sind, und nehmen Sie an, dass wir an einem Teilstring der Länge interessiert sind . Für jeden gegebenen Wert von sei das Ereignis, bei dem der interessierende Teilstring auftritt, und sei das Ereignis, dass die letzten Ergebnisse die ersten Zeichen im Teilstring von sind Interesse (aber nicht mehr als das). Wir verwenden diese Ereignisse, um die folgende Aufteilung von möglichen interessierenden Zuständen anzugeben:A,T,C,G k n W Ha a a<k k+1
Da angenommen wird, dass die Folge von Ergebnissen austauschbar ist, haben wir unabhängige Ergebnisse, die von ihren jeweiligen Wahrscheinlichkeiten . Ihr interessierender Prozess kann als zeitdiskrete Markov-Kette dargestellt werden, die in bei beginnt und gemäß einer Wahrscheinlichkeitsmatrix übergeht, die von der jeweiligen interessierenden Teilzeichenfolge abhängt. Die Übergangsmatrix ist immer einθA+θT+θC+θG=1 State 0 n=0 (k+1)×(k+1) Matrix, die die Übergangswahrscheinlichkeiten unter Verwendung der obigen Zustände darstellt. Wenn der interessierende Teilstring nicht erreicht wurde, kann jeder Übergang Sie entweder einen Schritt näher an den Teilstring bringen oder Sie in einen vorherigen Zustand zurückversetzen, der von dem jeweiligen Teilstring abhängt. Sobald der Teilstring erreicht ist, ist dies ein absorbierender Zustand der Kette, der die Tatsache darstellt, dass das Ereignis von Interesse aufgetreten ist.
Wenn der interessierende Teilstring beispielsweise ist, die Übergangsmatrix:AAAAAA
Wenn der interessierende Teilstring ist, die Übergangsmatrix im Gegensatz dazu :ACTAGC
Wie oben zu sehen ist, erfordert die Konstruktion der Übergangsmatrix die Beachtung des jeweiligen Teilstrings. Ein falsches Ergebnis versetzt Sie in einen vorherigen Status in der Zeichenfolge zurück, der von der jeweiligen interessierenden Teilzeichenfolge abhängt. Sobald die Übergangsmatrix erstellt ist, ist für einen gegebenen Wert von die Wahrscheinlichkeit, dass sich der Teilstring in der Kette befindet, . (Diese Wahrscheinlichkeit ist für alle Null .)n P(W|n)={Pn}0,k n<k
Programmieren in R: Sie können dies als Funktion in programmieren, indem Sie eine Funktionn
R
erstellen, die die Übergangsmatrix für die Markov-Kette und ein Array ihrer Potenzen bis zu einer gewünschten Anzahl von Versuchen generiert. Sie können dann die entsprechende Übergangswahrscheinlichkeit für den Wert von lesen, der von Interesse ist. Hier ist ein Beispiel für einen Code, um dies zu tun:Wie Sie dieser Berechnung entnehmen können, beträgt die Wahrscheinlichkeit, den Teilstring in Würfen mit gleichwahrscheinlichen Ergebnissen zu erhalten, . Dies ist nur ein Beispiel unter Verwendung eines bestimmten Teilstrings und einer gegebenen Anzahl von Versuchen, es kann jedoch variiert werden, um Wahrscheinlichkeiten in Bezug auf andere interessierende Teilstrings zu erhalten.AAAAAA n=100 0.01732435
quelle