Zeichnen von DNA-Chromatogramm-Spurendaten

Implementierung

Angenommen, Sie haben bereits eine Strichzeichnungsroutine, müssen Sie diese nur durch eine Art Interpolation ergänzen. Die Kurven werden erstellt, indem genügend interpolierte kurze Linien gezeichnet werden, damit das Ergebnis glatt aussieht. Ein guter Ausgangspunkt wäre die Verwendung einer vorhandenen Interpolationsroutine, wie sie hier von Paul Bourke angegeben wurde .

Ich werde dies anhand der von ihm bereitgestellten kubischen Routinen veranschaulichen, da dies einige der einfachsten sind, die immer noch vernünftige Ergebnisse liefern. Hier ist der erste (übersetzt in Python) als Referenz:

def cubic(mu,y0,y1,y2,y3):
    mu2 = mu*mu
    a0 = y3 - y2 - y0 + y1
    a1 = y0 - y1 - a0
    a2 = y2 - y0
    a3 = y1
    return a0*mu*mu2 + a1*mu2 + a2*mu + a3

Jede Routine verfügt über einen Parameter, muder den Bruchteil des Index darstellt, den Sie interpolieren möchten. Abhängig von der Routine sind die anderen Parameter eine Anzahl von Stichproben, die den betreffenden Index umgeben. Im kubischen Fall benötigen Sie vier Proben. Zum Beispiel, wenn Sie Ihre Daten y[n], und Sie wollen den Wert an 10.3, muwäre .3, und man würde passieren in y[9], y[10], y[11], und y[12].

Anstatt dann eine einzelne Linie mit Endpunkten zu zeichnen, sagen wir: $(10,y_{10}) \rightarrow (11,y_{11})$ Mit den interpolierten Werten (z. B. würden Sie eine Reihe kürzerer Werte zeichnen. ). Offensichtlich müssten diese Punkte auf die und Dimensionen des zu rendernden Bildes skaliert werden. $(10,y_{10}) \rightarrow (10.1,\text{cubic}(.1,y_9,y_{10},y_{11},y_{12})) \dots$ $x$ $y$

Theorie

Da die Seite / Routine, auf die ich verwiesen habe, keine Quellen zitiert, lohnt es sich zu erklären, woher diese kubischen Routinen stammen (und wie sie funktionieren). Sowohl der oben reproduzierte als auch der sehr ähnliche Catmull-Rom-Spline, den er direkt darunter erwähnt, sind zwei spezielle Fälle für die Verwendung des folgenden kubischen Faltungskerns:

ψ (x) = {\begin{cases} (α + 2) | x |^{3} - (α + 3) | x |^{2} + 1, & if 0 \leq | x | < 1 \\ α | x |^{3} - 5 α | x |^{2} + 8 α | x | - 4 α, & if 1 \leq | x | < 2 \\ 0, & if 2 \leq | x | \end{cases}

$\psi(x) = \begin{cases} (\alpha + 2)|x|^3 - (\alpha + 3)|x|^2 + 1, & \text{ if } 0 \le |x| \lt 1 \\ \alpha|x|^3 - 5\alpha|x|^2 + 8\alpha|x| - 4\alpha, & \text{ if } 1 \le |x| \lt 2 \\ 0, & \text{ if } 2 \le |x| \end{cases}$

Die oben aufgeführte Routine entspricht einem Wert von , und der Catmull-Rom-Spline entspricht . Ich werde nicht zu detailliert darauf eingehen, wie die allgemeine Form des Kernels abgeleitet wird, aber es beinhaltet verschiedene Einschränkungen, wie beispielsweise sicherzustellen, dass eins bei Null und null bei allen anderen ganzen Zahlen ist. $\alpha = -1$ $\alpha = -1/2$ $\psi(x)$

So sieht es aus:

Kubischer Faltungskern

Die beiden Auswahlmöglichkeiten für den Wert von sich aus Versuchen, verschiedene Aspekte der sinc-Funktion , dem idealen Rekonstruktionskern, abzugleichen. Wenn Sie stimmt die Ableitung von mit der Ableitung der sinc-Funktion bei überein , und wenn Sie sie gleich machen, erhalten Sie stattdessen die beste niederfrequente Näherung. In jedem Fall hat ein Wert von viel bessere Eigenschaften, daher ist er wahrscheinlich der beste Wert für die Praxis. Eine viel ausführlichere Diskussion finden Sie im folgenden Artikel ab Seite 328: $\alpha$ $\alpha = -1$ $\psi$ $x = 1$ $-1/2$ $\alpha = -1/2$

Meijering, Erik. "Eine Chronologie der Interpolation: Von der alten Astronomie zur modernen Signal- und Bildverarbeitung." Verfahren des IEEE. vol. 90, nein. 3, S. 319-42. März 2002.

Einblick

Wenn man sich diesen Kernel nur in Bezug auf die tatsächliche Implementierung des Interpolationscodes ansieht, ist möglicherweise nicht klar, wie die beiden zusammenhängen. Grundsätzlich kann der Interpolationsprozess so betrachtet werden, dass verschobene Kopien des Kernels addiert werden, die durch die Stichproben der Daten wie folgt skaliert werden:

Kernelbasierte Rekonstruktion

Wenn Sie eine Implementierung des Kernels haben, können Sie diese direkt wie folgt für die Interpolation verwenden:

def kernel(x, a=-1.0):
    x = abs(x)
    if x >= 0.0 and x < 1.0:
        return (a + 2.0)*x**3.0 - (a + 3.0)*x**2.0 + 1
    elif x >= 1.0 and x < 2.0:
        return a*x**3.0 - 5.0*a*x**2.0 + 8.0*a*x - 4.0*a
    else:
        return 0.0

def cubic(mu,y0,y1,y2,y3):
    a = -1.0        
    result  = y0 * kernel(mu + 1, a)
    result += y1 * kernel(mu, a)     
    result += y2 * kernel(mu - 1, a)
    result += y3 * kernel(mu - 2, a)
    return result

Es ist jedoch viel weniger rechnerisch effizient, dies auf diese Weise zu tun. Betrachten Sie als Brücke vom direkten Kernel-Ansatz zum optimierten oben, dass mit ein wenig algebraischer Manipulation die erste Implementierung in der folgenden Form erfolgen kann:

def cubic(mu,y0,y1,y2,y3):
    mu2 = mu*mu
    mu3 = mu*mu2
    c0 = -mu3 + 2*mu2 - mu
    c1 =  mu3 - 2*mu2 + 1
    c2 = -mu3 + mu2 + mu
    c3 =  mu3 - mu2    
    return c0*y0 + c1*y1 + c2*y2 + c3*y3

In dieser Formulierung können die c0...c3Werte als die Koeffizienten eines FIR-Filters betrachtet werden, das auf die Abtastwerte angewendet wird. Jetzt ist es viel einfacher zu sehen, wie die Routine vom Kernel abgeleitet wird. Betrachten Sie den Kernel mit wie folgt: $\alpha = -1$

ψ (x) = {\begin{cases} | x |^{3} - - 2 | x |^{2} + 1, & wenn 0 \leq | x | < 1 \\ - - | x |^{3} + 5 | x |^{2} - - 8 | x | + 4, & wenn 1 \leq | x | < 2 \\ 0, & wenn 2 \leq | x | \end{cases}

$\psi(x) = \begin{cases} |x|^3 - 2|x|^2 + 1, & \text{ if } 0 \le |x| \lt 1 \\ -|x|^3 + 5|x|^2 - 8|x| + 4, & \text{ if } 1 \le |x| \lt 2 \\ 0, & \text{ if } 2 \le |x| \end{cases}$

Bewerten Sie diesen Kernel nun symbolisch bei verschiedenen verschobenen Offsets, wobei Sie berücksichtigen, dass mu( ) von bis reicht : $\mu$ 01

\begin{array}{rcl} ψ (μ + 1) & = & - - (μ + 1)^{3} + 5 (μ + 1)^{2} - - 8 (μ + 1) + 4 & = & - - μ^{3} + 2 μ^{2} - - μ & (c_{0}) \\ ψ (μ) & = & μ^{3} - - 2 μ^{2} + 1 & = & μ^{3} - - 2 μ^{2} + 1 & (c_{1}) \\ ψ (μ - - 1) & = & (1 - - μ)^{3} - - 2 (1 - - μ)^{2} + 1 & = & - - μ^{3} + μ^{2} + μ & (c_{2}) \\ ψ (μ - - 2) & = & - - (2 - - μ)^{3} + 5 (2 - - μ)^{2} - - 8 (2 - - μ) + 4 & = & μ^{3} - - μ^{2} & (c_{3}) \end{array}

$\begin{eqnarray} \psi(\mu + 1) &=& -(\mu + 1)^3 + 5(\mu + 1)^2 - 8(\mu + 1) + 4 &=& −\mu^3 + 2\mu^2 - \mu & & (c_0) \\ \psi(\mu) &=& \mu^3 - 2\mu^2 + 1 &=& \mu^3 - 2\mu^2 + 1 & & (c_1)\\ \psi(\mu - 1) &=& (1 - \mu)^3 - 2(1 - \mu)^2 + 1 &=& -\mu^3 + \mu^2 + \mu & & (c_2)\\ \psi(\mu - 2) &=& -(2 - \mu)^3 + 5(2 - \mu)^2 - 8(2 - \mu) + 4 &=& \mu^3 - \mu^2 & & (c_3)\\ \end{eqnarray}$

Beachten Sie, dass aufgrund des Absolutwerts für in der Kerneldefinition auf "gespiegelt" wird . Jetzt haben wir die genauen Polynome, die in der "FIR-Version" der Interpolationsroutine verwendet werden. Die Bewertung dieser Polynome kann dann durch Standardtechniken (z. B. Horners Methode ) effizienter gestaltet werden . Ähnliche Dinge können mit anderen Kerneln durchgeführt werden, und es gibt auch andere Möglichkeiten, effiziente Implementierungen zu erstellen (vgl. Homepage für digitales Audio-Resampling ). $\mu - 1, \mu - 2$ $1 - \mu, 2 - \mu$ $x$

Datageist
quelle

Zeichnen von DNA-Chromatogramm-Spurendaten

Antworten: