Ich suche nach der Speichermenge in Bytes (MB, GB, TB usw.), die zum Speichern eines einzelnen menschlichen Genoms erforderlich ist. Ich habe ein paar Artikel auf Wikipedia über DNA, Chromosomen, Basenpaare, Gene gelesen und habe einige grobe Vermutungen, aber bevor ich etwas preisgebe, möchte ich sehen, wie andere dieses Problem angehen würden.
Eine alternative Frage wäre, wie viele Atome in der menschlichen DNA vorhanden sind, aber das wäre für diese Site kein Thema.
Ich verstehe, dass dies eine Annäherung sein wird, also suche ich nach dem minimalen Wert, der in der Lage wäre, die DNA eines jeden Menschen zu speichern.
storage
bioinformatics
dna-sequence
genetics
Milan Babuškov
quelle
quelle
Antworten:
Wenn Sie solchen Dingen vertrauen, behauptet Wikipedia Folgendes : (von http://en.wikipedia.org/wiki/Human_genome#Information_content ):
quelle
Sie speichern nicht die gesamte DNA in einem Strom, sondern meistens in Chromosomen.
Ein großes Chromosom benötigt ungefähr 300 MB und ein kleines ungefähr 50 MB.
Bearbeiten:
Ich denke, der erste Grund, warum es nicht in 2 Bit pro Basispaar gespeichert wird, ist, dass es eine Hürde verursachen würde, mit den Daten zu arbeiten. Die meisten Leute würden nicht wissen, wie man es konvertiert. Und selbst wenn ein Konvertierungsprogramm angeboten würde, dürfen / müssen viele Leute in großen Unternehmen oder Forschungsinstituten nicht fragen oder wissen nicht, wie man Programme installiert ...
1 GB Speicher kostet nichts, selbst der Download von 3 GB dauert mit 100 Mbitsps nur 4 Minuten und die meisten Unternehmen haben schnellere Geschwindigkeiten.
Ein weiterer Punkt ist, dass die Daten nicht so einfach sind, wie Sie erfahren.
zB Die von Craig_Venter erfundene Sequenzierungsmethode war ein großer Durchbruch, hat aber auch Nachteile . Es konnte keine langen Ketten desselben Basenpaars trennen, daher ist nicht immer 100% klar, ob es 8 A oder 9 A gibt. Dinge, um die Sie sich später kümmern müssen ...
Ein weiteres Beispiel ist die DNA-Methylierung, da Sie diese Informationen nicht in einer 2-Bit-Darstellung speichern können.
quelle
Grundsätzlich benötigt jedes Basenpaar 2 Bits (Sie können 00, 01, 10, 11 für T, G, C und A verwenden). Da es im menschlichen Genom etwa 2,9 Milliarden Basenpaare gibt, sind (2 * 2,9 Milliarden) Bits ~ = 691 Megabyte.
Ich bin jedoch kein Experte. Auf der Humangenom- Seite von Wikipedia heißt es jedoch:
Rohes MB:
Ich bin nicht sicher, woher ihre Varianz kommt, aber ich bin sicher, dass Sie es herausfinden können.
quelle
N
z. B. wenn Daten nicht abgebildet werden können und daher unbekannt sind). Die IUPAC-Nukleotidcodes enthalten mehr als die Standard-4, und dies kann den Speicheraufwand erhöhen. ebi.ac.uk/2can/tutorials/aa.htmlR
entweder für A oder G,N
für jede Basis,.
für eine Lücke usw. Wenn wir ein Genom perfekt lesen könnten, wären es nur 2 Bits pro Basis .Ja, der minimale RAM, der für die gesamte menschliche DNA benötigt wird, beträgt ungefähr 770 MB. Die 2-Bit-Darstellung ist jedoch unpraktisch. Es ist schwierig, darin zu suchen oder einige Berechnungen durchzuführen. Daher haben einige Mathematiker eine effektivere Methode entwickelt, um diese Sequenzen von Basen zu speichern ... und sie in Such- und Vergleichsalgorithmen wie zum Beispiel GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html) zu verwenden. Diese Anwendung läuft gerade auf meinem PC, also kann ich Ihnen sagen ... dass die DNA praktisch in ungefähr 1 563 MB gespeichert ist .
quelle
Die meisten Antworten außer den Benutzern slayton, rauchen und Paul Amstrong sind absolut falsch, wenn es um reinen Einzelspeicher ohne Komprimierungstechniken geht.
Das menschliche Genom mit 3 GB Nukleotiden entspricht 3 GB Bytes und nicht ~ 750 MB. Das gemäß NCBI konstruierte "haploide" Genom ist derzeit 3436687 kb oder 3,436687 Gb groß. Überzeugen Sie sich hier .
Haploid = Einzelkopie eines Chromosoms. Diploid = zwei Versionen von Haploid. Menschen haben 22 einzigartige Chromosomen x 2 = 44. Das männliche 23. Chromosom ist X, Y und macht insgesamt 46. Frauen 23. Chrom. ist X, X und macht somit insgesamt 46.
Für Männer wären es 23 + 1 Chromosomen bei der Datenspeicherung auf einer Festplatte und für Frauen 23 Chromosomen, was die kleinen Unterschiede erklärt, die hin und wieder in den Antworten erwähnt werden. Das X-Chrom. von Männern ist gleich X chrom. von den Frauen.
Das Laden des Genoms (23 + 1) in den Speicher erfolgt daher in Teilen über BLAST unter Verwendung konstruierter Datenbanken aus Fasta-Dateien. Unabhängig von gezippten Versionen oder nicht sind Nukleotide kaum zu komprimieren. In den frühen Tagen bestand einer der verwendeten Tricks darin, Tandem-Wiederholungen zu ersetzen (GACGACGAC mit kürzerer Codierung, z. B. "3GAC"; 9 Byte bis 4 Byte). Der Grund war, Festplattenspeicher zu sparen (Bereich der 500-bm-2-GB-Festplatten mit 7.200 U / min und SCSI-Anschlüssen). Für die Sequenzsuche wurde dies auch mit der Abfrage durchgeführt.
Wenn der "codierte Nukleotid" -Speicher 2 Bit pro Buchstabe wäre, erhalten Sie für ein Byte:
A = 00
C = 01
G = 10
T = 11
Nur so profitieren Sie voll von den Positionen 1,2,3,4,5,6,7 und 8 für 1 Byte Codierung. Zum Beispiel würde die Kombination 00.01.10.11 (als Byte
00011011
) dann "ACTG" entsprechen (und in einer Textdatei als nicht erkennbares Zeichen angezeigt werden). Dies allein ist für eine vierfache Reduzierung der Dateigröße verantwortlich, wie wir in anderen Antworten sehen. Somit werden 3,4 GB auf 0,85917175 GB ... ~ 860 MB einschließlich eines dann erforderlichen Konvertierungsprogramms (23 KB bis 4 MB) verkleinert.Aber ... in der Biologie möchten Sie in der Lage sein, etwas zu lesen, daher ist Komprimierung mehr als genug. Entpackt können Sie es immer noch lesen. Wenn diese Bytefüllung verwendet wurde, wird es schwieriger, die Daten zu lesen. Deshalb sind Fasta-Dateien in Wirklichkeit Klartextdateien.
quelle
Das menschliche Genom enthält 2,9 Milliarden Basenpaare. Wenn Sie also jedes Basenpaar als Byte darstellen würden, wären 2,9 Milliarden Bytes oder 2,9 GB erforderlich. Sie könnten wahrscheinlich eine kreativere Methode zum Speichern von Basenpaaren finden, da jedes Basenpaar nur 2 Bits benötigt. Sie könnten also wahrscheinlich 4 Basenpaare pro Byte speichern, was die Summe von weniger als einem GB verringert.
quelle
Es gibt 4 Nukleotidbasen, aus denen unsere DNA besteht. Dies sind A, C, G, T. Daher nimmt jede Base in der DNA 2 Bits auf. Es gibt ungefähr 2,9 Milliarden Basen, das sind ungefähr 700 Megabyte. Das Seltsame ist, dass eine normale Daten-CD gefüllt würde! Zufall?!?
quelle
habe es einfach auch getan. Die Rohsequenz ist ~ 700 MB. Wenn man eine feste Speichersequenz oder einen festen Sequenzspeicheralgorithmus verwendet - und die Tatsache, dass die Änderungen 1% betragen, berechnete ich ~ 120 MB mit einem Perchromosomensequenz-Offset-angegebenen Delta-Speicher. das wars für die lagerung.
quelle
Alle Antworten lassen die Tatsache außer Acht, dass nuDNA nicht die einzige DNA ist, die ein menschliches Genom definiert. mtDNA wird ebenfalls vererbt und trägt zusätzlich 16.500 Basenpaare zu einem menschlichen Genom bei, was der Wikipedia-Schätzung von 770 MB für Männer und 756 MB für Frauen besser entspricht.
Dies bedeutet nicht, dass ein menschliches Genom problemlos auf einem 4-GB-USB-Stick gespeichert werden kann. Bits stellen keine Informationen für sich dar, sondern die Kombination von Bits, die Informationen darstellen. Im Fall von nuDNA und mtDNA werden die Bits codiert (nicht zu verwechseln mit komprimiert), um Proteine und Enzyme darzustellen, für deren Darstellung an sich viele MB Rohdaten erforderlich wären, insbesondere in Bezug auf die Funktionalität.
Denkanstöße: 80% des menschlichen Genoms werden als "nicht-kodierende" DNA bezeichnet. Haben Sie also wirklich geglaubt, dass der gesamte menschliche Körper und das Gehirn in nur 151 bis 154 MB Rohdaten dargestellt werden können?
quelle
Es gibt nur zwei Arten von Basenpaaren, Cytosin kann nur an Guanin binden und Adenin kann nur an Thymin binden. Daher kann jedes Basenpaar als ein einzelnes Bit betrachtet werden. Dies bedeutet, dass ein ganzer Strang menschlicher DNA ~ 3 Milliarden "Bits" ungefähr 350 Megabyte entspricht.
quelle
Eine Basis - T, C, A, G (im Basis-4-Zahlensystem: 0, 1, 2, 3) - wird als zwei Bits (nicht als eines) codiert , so dass ein Basenpaar durch vier Bits codiert wird .
quelle