Wie viel Speicher wäre erforderlich, um ein menschliches Genom zu speichern?

83

Ich suche nach der Speichermenge in Bytes (MB, GB, TB usw.), die zum Speichern eines einzelnen menschlichen Genoms erforderlich ist. Ich habe ein paar Artikel auf Wikipedia über DNA, Chromosomen, Basenpaare, Gene gelesen und habe einige grobe Vermutungen, aber bevor ich etwas preisgebe, möchte ich sehen, wie andere dieses Problem angehen würden.

Eine alternative Frage wäre, wie viele Atome in der menschlichen DNA vorhanden sind, aber das wäre für diese Site kein Thema.

Ich verstehe, dass dies eine Annäherung sein wird, also suche ich nach dem minimalen Wert, der in der Lage wäre, die DNA eines jeden Menschen zu speichern.

Milan Babuškov
quelle
Die Anzahl der Atome hängt von der Zusammensetzung ab. A und T sind kleinere Moleküle als G und C. Die Struktur des Moleküls ist jedoch das Rindfleisch, nicht seine atomare Zusammensetzung, so dass dies keine wirklich nützliche Berechnung ist. (Für das, was es wert ist, zB ist das A-Molekül alias Desoxyadenosin C10H13N5O3, also 31 Atome.)
Tripleee
Siehe auch biostars.org/p/5514
Ondra Žižka
Mit Ausnahme der Benutzer slayton, Paul Amstrong und rauchen sind alle anderen Antworten in ihrem Wesen absolut falsch oder bei weitem nicht vollständig. In den Antworten erwähnte der Benutzer (nicht) die Komprimierungsmethoden oder ist schlecht erklärt. Siehe meine Antwort, um die vierfache Verkleinerung des Genoms zu verdeutlichen, wie in vielen Antworten zu sehen ist.
ZF007
Ich stimme dafür, diese Frage als nicht zum Thema gehörend zu schließen, da sie hier nicht zum Thema gehört und auf bioinformatics.stackexchange.com
Chris_Rands

Antworten:

67

Wenn Sie solchen Dingen vertrauen, behauptet Wikipedia Folgendes : (von http://en.wikipedia.org/wiki/Human_genome#Information_content ):

Die 2,9 Milliarden Basenpaare des haploiden menschlichen Genoms entsprechen maximal etwa 725 Megabyte Daten, da jedes Basenpaar mit 2 Bits codiert werden kann. Da einzelne Genome um weniger als 1% voneinander abweichen, können sie verlustfrei auf ungefähr 4 Megabyte komprimiert werden.

Oliver Charlesworth
quelle
7
Um nur einen biologischen Kommentar hinzuzufügen, bedeutet "haploide" hier nur eine Kopie jedes Chromosoms. Die menschliche Referenzanordnung ist haploide (und ein Mosaik aus mehreren Personen). Ein tatsächliches individuelles Genom ist diploid (2 Kopien jedes Chromosoms, außer X und Y), aber wiederum nur eine Variante zwischen den beiden Kopien an einer kleinen Untergruppe von Stellen.
Alex Stoddard
9
Ich habe einen Tag lang darüber nachgedacht und Folgendes erkannt: Wenn Sie eine menschliche DNA im Basisfall gespeichert hätten, müsste die DNA jedes nachfolgenden Menschen nur als Unterschied zwischen ihr und dem Basisfall gespeichert werden. Für gleichgeschlechtliche Beispiele ist die DNA zu 99,9% gleich. Und geschlechtsübergreifend sind es 98,5%.
Costa
3
Denken Sie auch daran, dass nicht alle Informationen, die in DNA-Basenpaaren kodiert sind, auch epigenetische Informationen enthalten.
Annarfych
das macht Sinn. Basenpaare sind grundsätzlich 4-när. Eine 4-Nary-Zahl besteht aus 2 Bits, also doppelt so groß. Das sind also 5,8 Gigabit oder 5,8 / 8 Gigabyte, was 0,725 GB oder 725 MB entspricht. Die 'Komprimierung' ist nur möglich, weil Sie ein Diff gegen das abgebildete Genom speichern können, anstatt Ihr gesamtes Genom zu speichern.
Dave Cousineau
@Annarfych Dies ist äußerst irreführend, da epigenetische Informationen per Definition nicht vererbbar sind (trotz fehlgeleiteter gegenteiliger Behauptungen in der populären Presse). Erbliche Informationen werden nur in der DNA gespeichert.
Konrad Rudolph
25

Sie speichern nicht die gesamte DNA in einem Strom, sondern meistens in Chromosomen.

Ein großes Chromosom benötigt ungefähr 300 MB und ein kleines ungefähr 50 MB.


Bearbeiten:

Ich denke, der erste Grund, warum es nicht in 2 Bit pro Basispaar gespeichert wird, ist, dass es eine Hürde verursachen würde, mit den Daten zu arbeiten. Die meisten Leute würden nicht wissen, wie man es konvertiert. Und selbst wenn ein Konvertierungsprogramm angeboten würde, dürfen / müssen viele Leute in großen Unternehmen oder Forschungsinstituten nicht fragen oder wissen nicht, wie man Programme installiert ...

1 GB Speicher kostet nichts, selbst der Download von 3 GB dauert mit 100 Mbitsps nur 4 Minuten und die meisten Unternehmen haben schnellere Geschwindigkeiten.

Ein weiterer Punkt ist, dass die Daten nicht so einfach sind, wie Sie erfahren.

zB Die von Craig_Venter erfundene Sequenzierungsmethode war ein großer Durchbruch, hat aber auch Nachteile . Es konnte keine langen Ketten desselben Basenpaars trennen, daher ist nicht immer 100% klar, ob es 8 A oder 9 A gibt. Dinge, um die Sie sich später kümmern müssen ...

Ein weiteres Beispiel ist die DNA-Methylierung, da Sie diese Informationen nicht in einer 2-Bit-Darstellung speichern können.

rauschen
quelle
2
+1 von mir. Ich habe jedoch keine Ahnung, was "großes" oder "kleines" Chromosom bedeutet.
Milan Babuškov
1
Diese Zahlen stimmen nicht mit den Aussagen von Wikipedia überein (siehe Tabelle unter en.wikipedia.org/wiki/Human_genome#Information_content ). Ich sage nicht, dass Sie falsch liegen, aber können Sie die Diskrepanz erklären?
Oliver Charlesworth
Es sieht so aus, als würde er Mbp (Millionen von Basenpaaren, wobei jedes Basenpaar eine einzelne Position im Genom darstellt) anstelle von MB zitieren, das eine 2-Bit-Codierung jeder Position annehmen kann
Alex Stoddard
Ein Teil der DNA-Methylierung eines Genoms ändert sich im Laufe der Lebensdauer des Organismus. Das Einbeziehen von DNA-Methylierungsdaten für ein menschliches Genom wäre eher eine detaillierte Momentaufnahme einer Person zu einem bestimmten Zeitpunkt als eine allgemeine Beschreibung des Individuums. Obwohl das OP nicht spezifizierte, welche sie wollten.
Cowlinator
12

Grundsätzlich benötigt jedes Basenpaar 2 Bits (Sie können 00, 01, 10, 11 für T, G, C und A verwenden). Da es im menschlichen Genom etwa 2,9 Milliarden Basenpaare gibt, sind (2 * 2,9 Milliarden) Bits ~ = 691 Megabyte.

Ich bin jedoch kein Experte. Auf der Humangenom- Seite von Wikipedia heißt es jedoch:

Rohes MB:

  • Männlich (XY): 770 MB
  • Weiblich (XX): 756 MB

Ich bin nicht sicher, woher ihre Varianz kommt, aber ich bin sicher, dass Sie es herausfinden können.

Paul Armstrong
quelle
6
Realistisch gesehen sind mehr als 2 Bits erforderlich, da andere Basen in Sequenzinformationen gespeichert sind ( Nz. B. wenn Daten nicht abgebildet werden können und daher unbekannt sind). Die IUPAC-Nukleotidcodes enthalten mehr als die Standard-4, und dies kann den Speicheraufwand erhöhen. ebi.ac.uk/2can/tutorials/aa.html
Alex Reynolds
@AlexReynolds defekter Link: /
o0 '.
2
@AlexReynolds @ o0 ' bioinformatics.org/sms2/iupac.html ist ein besserer Link für diese IUPAC-Codes. AIUI, ein bestimmter Genom- "Scan" benötigt aufgrund von Ungenauigkeit mehr als 2 Bits, also Rentweder für A oder G, Nfür jede Basis, .für eine Lücke usw. Wenn wir ein Genom perfekt lesen könnten, wären es nur 2 Bits pro Basis .
Skifahrerseite
1
Das X-Chromosom ist für Frauen einzeln. Männer haben als Extra das Y-Chrom. codiert werden, was sich bekanntlich von X crhom unterscheidet.
ZF007
Dies hängt auch davon ab, wie Sie Megabyte definieren : binäre 2 ^ 20 oder metrische 10 ^ 6 Bytes. Sie verwenden Binär, daher ist Ihre Zahl niedriger.
il - ya
8

Ja, der minimale RAM, der für die gesamte menschliche DNA benötigt wird, beträgt ungefähr 770 MB. Die 2-Bit-Darstellung ist jedoch unpraktisch. Es ist schwierig, darin zu suchen oder einige Berechnungen durchzuführen. Daher haben einige Mathematiker eine effektivere Methode entwickelt, um diese Sequenzen von Basen zu speichern ... und sie in Such- und Vergleichsalgorithmen wie zum Beispiel GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html) zu verwenden. Diese Anwendung läuft gerade auf meinem PC, also kann ich Ihnen sagen ... dass die DNA praktisch in ungefähr 1 563 MB gespeichert ist .

Filip OvertoneSinger Rydlo
quelle
4

Die meisten Antworten außer den Benutzern slayton, rauchen und Paul Amstrong sind absolut falsch, wenn es um reinen Einzelspeicher ohne Komprimierungstechniken geht.

Das menschliche Genom mit 3 GB Nukleotiden entspricht 3 GB Bytes und nicht ~ 750 MB. Das gemäß NCBI konstruierte "haploide" Genom ist derzeit 3436687 kb oder 3,436687 Gb groß. Überzeugen Sie sich hier .

Haploid = Einzelkopie eines Chromosoms. Diploid = zwei Versionen von Haploid. Menschen haben 22 einzigartige Chromosomen x 2 = 44. Das männliche 23. Chromosom ist X, Y und macht insgesamt 46. Frauen 23. Chrom. ist X, X und macht somit insgesamt 46.

Für Männer wären es 23 + 1 Chromosomen bei der Datenspeicherung auf einer Festplatte und für Frauen 23 Chromosomen, was die kleinen Unterschiede erklärt, die hin und wieder in den Antworten erwähnt werden. Das X-Chrom. von Männern ist gleich X chrom. von den Frauen.

Das Laden des Genoms (23 + 1) in den Speicher erfolgt daher in Teilen über BLAST unter Verwendung konstruierter Datenbanken aus Fasta-Dateien. Unabhängig von gezippten Versionen oder nicht sind Nukleotide kaum zu komprimieren. In den frühen Tagen bestand einer der verwendeten Tricks darin, Tandem-Wiederholungen zu ersetzen (GACGACGAC mit kürzerer Codierung, z. B. "3GAC"; 9 Byte bis 4 Byte). Der Grund war, Festplattenspeicher zu sparen (Bereich der 500-bm-2-GB-Festplatten mit 7.200 U / min und SCSI-Anschlüssen). Für die Sequenzsuche wurde dies auch mit der Abfrage durchgeführt.

Wenn der "codierte Nukleotid" -Speicher 2 Bit pro Buchstabe wäre, erhalten Sie für ein Byte:

A = 00
C = 01
G = 10
T = 11

Nur so profitieren Sie voll von den Positionen 1,2,3,4,5,6,7 und 8 für 1 Byte Codierung. Zum Beispiel würde die Kombination 00.01.10.11 (als Byte 00011011) dann "ACTG" entsprechen (und in einer Textdatei als nicht erkennbares Zeichen angezeigt werden). Dies allein ist für eine vierfache Reduzierung der Dateigröße verantwortlich, wie wir in anderen Antworten sehen. Somit werden 3,4 GB auf 0,85917175 GB ... ~ 860 MB einschließlich eines dann erforderlichen Konvertierungsprogramms (23 KB bis 4 MB) verkleinert.

Aber ... in der Biologie möchten Sie in der Lage sein, etwas zu lesen, daher ist Komprimierung mehr als genug. Entpackt können Sie es immer noch lesen. Wenn diese Bytefüllung verwendet wurde, wird es schwieriger, die Daten zu lesen. Deshalb sind Fasta-Dateien in Wirklichkeit Klartextdateien.

ZF007
quelle
1
Sie können es auch als Bild- oder Audioaufnahme oder sogar als Video speichern - und das Speichern dauert Terabates. Dies ist jedoch nicht erforderlich und minimal , wie es gefragt wurde.
il - ya
@ il - ya ... mir fehlt der Punkt, den Sie ansprechen wollen ... (Ich denke, Sie bewegen sich gerne um 250 km TDK-Band. Sie wiegen 600 kg und benötigen drei Stunden zum Zurückspulen.)
ZF007
1
Der Punkt ist, dass 1 von 4 Basenpaaren mit 2 Informationsbits codiert sind. So viele Daten werden benötigt, um sie zu codieren - Sie können nicht mit weniger codieren. Sie können es aber auch anders codieren: Sie können ein ganzes Byte verwenden oder ein Bild zeichnen, das nur wenige KB benötigt, oder eine Audioaufnahme machen. All dies würde es weiterhin ermöglichen, die erforderlichen Informationen zu speichern, aber das wäre nicht erforderlich oder eine minimale Codierung. Sie haben willkürlich Lesbarkeitskriterien festgelegt (mit dem Standardtexteditor), die in der ursprünglichen Frage nicht gestellt wurden.
il - ya
So funktioniert das in der Biologie leider nicht. Die Kommunikationsmethode zwischen Wissenschaftlern besteht entweder aus mündlichen, Papier- oder Textdateiformaten, die leicht von einem Bildschirm aus gelesen werden können. Wenn Sie ein Basenpaar haben, reicht es aus, ein Byte mit Nullen oder Einsen zu füllen. Es gibt jedoch 4 Basen (2 Paare). In einem Byte haben Sie 4 Positionen für ein Basispaar und 4 Positionen, die den Typ des Basispaars angeben. Die Datenkomprimierung funktioniert, aber Menschen benötigen Lesbarkeit. Ein einzelnes Pixel im RGB-Code (3 Werte und ein Intensitätswert) verwendet 32 ​​Byte. Nur 8 Bits für einen Buchstaben. Es macht also keinen Sinn, daraus eine Mona Lisa zu machen, oder?
ZF007
6
ZF007, Sie haben meinen Punkt über Minimalität verpasst. Die Frage war: "Wie viel Speicher wäre erforderlich , um menschliche DNA zu speichern?" mit weiteren Details "... ich suche nach einem minimalen Wert, der die DNA eines jeden Menschen speichern kann." Sie versuchen, eine andere Frage zu beantworten: "Wie viel Speicher würde es erfordern, menschliche DNA in einer lesbaren Form zu speichern, die von Biologen zur Übermittlung von Genomdaten verwendet wird ?" Wenn Sie die lesbaren Textdaten mit einem guten Komprimierungsalgorithmus komprimieren, wird ihre Größe deutlich unter 2 Bit pro Basispaar liegen.
il - ya
3

Das menschliche Genom enthält 2,9 Milliarden Basenpaare. Wenn Sie also jedes Basenpaar als Byte darstellen würden, wären 2,9 Milliarden Bytes oder 2,9 GB erforderlich. Sie könnten wahrscheinlich eine kreativere Methode zum Speichern von Basenpaaren finden, da jedes Basenpaar nur 2 Bits benötigt. Sie könnten also wahrscheinlich 4 Basenpaare pro Byte speichern, was die Summe von weniger als einem GB verringert.

Slayton
quelle
Bits ~ = Bytes. 2,9 Milliarden Bits sind rund 350 MB
SDGuero
4
@ SDGuero, Basenpaare sind Basis 4, nicht Basis 2, daher benötigen Sie mindestens 2 Bits, um ein Basispaar darzustellen.
Slayton
BS im Bitjargon ... jede Nukleotidbase besteht aus 1 Zeichen und damit 1 Byte, unabhängig von der verwendeten Zeichenumwandlungstabelle (AscII, UTF-8 usw.); ohne 2-Byte-asiatische Codierung.
ZF007
1
@ zf007 Basenpaare werden durch die TOKENS von a, c, g und t dargestellt. Ein Token ist nicht dasselbe wie ein Zeichen. Es gibt keinen Grund, warum a nicht als 00, c als 01, g als 10 und t als 11
codiert werden kann
1
Da ist die Diskrepanz; Sie behaupten, dass eine von Menschen lesbare Datei erforderlich ist, die nicht im ursprünglichen Beitrag enthalten ist.
MatBailie
3

Es gibt 4 Nukleotidbasen, aus denen unsere DNA besteht. Dies sind A, C, G, T. Daher nimmt jede Base in der DNA 2 Bits auf. Es gibt ungefähr 2,9 Milliarden Basen, das sind ungefähr 700 Megabyte. Das Seltsame ist, dass eine normale Daten-CD gefüllt würde! Zufall?!?

Matthew McGuinness
quelle
3

habe es einfach auch getan. Die Rohsequenz ist ~ 700 MB. Wenn man eine feste Speichersequenz oder einen festen Sequenzspeicheralgorithmus verwendet - und die Tatsache, dass die Änderungen 1% betragen, berechnete ich ~ 120 MB mit einem Perchromosomensequenz-Offset-angegebenen Delta-Speicher. das wars für die lagerung.

zwischen den Gästen
quelle
1

Alle Antworten lassen die Tatsache außer Acht, dass nuDNA nicht die einzige DNA ist, die ein menschliches Genom definiert. mtDNA wird ebenfalls vererbt und trägt zusätzlich 16.500 Basenpaare zu einem menschlichen Genom bei, was der Wikipedia-Schätzung von 770 MB für Männer und 756 MB für Frauen besser entspricht.

Dies bedeutet nicht, dass ein menschliches Genom problemlos auf einem 4-GB-USB-Stick gespeichert werden kann. Bits stellen keine Informationen für sich dar, sondern die Kombination von Bits, die Informationen darstellen. Im Fall von nuDNA und mtDNA werden die Bits codiert (nicht zu verwechseln mit komprimiert), um Proteine ​​und Enzyme darzustellen, für deren Darstellung an sich viele MB Rohdaten erforderlich wären, insbesondere in Bezug auf die Funktionalität.

Denkanstöße: 80% des menschlichen Genoms werden als "nicht-kodierende" DNA bezeichnet. Haben Sie also wirklich geglaubt, dass der gesamte menschliche Körper und das Gehirn in nur 151 bis 154 MB Rohdaten dargestellt werden können?

ar18
quelle
-3

Es gibt nur zwei Arten von Basenpaaren, Cytosin kann nur an Guanin binden und Adenin kann nur an Thymin binden. Daher kann jedes Basenpaar als ein einzelnes Bit betrachtet werden. Dies bedeutet, dass ein ganzer Strang menschlicher DNA ~ 3 Milliarden "Bits" ungefähr 350 Megabyte entspricht.

Der Linux Fanboy
quelle
2
Sie haben zwei Arten von Paaren, die in zwei Richtungen verlaufen können. Sie benötigen also zwei Bits für jedes Paar. Aus diesem Grund schreiben die meisten der oben genannten Beiträge ~ 700 MB und nicht 350 MB.
Trondster
-3

Eine Basis - T, C, A, G (im Basis-4-Zahlensystem: 0, 1, 2, 3) - wird als zwei Bits (nicht als eines) codiert , so dass ein Basenpaar durch vier Bits codiert wird .

Henry KO Norman
quelle
2
Abgesehen davon, dass sich Basen in einem Paar gegenseitig ergänzen, fügen Sie also keine Informationen hinzu. So können sowohl Basis als auch Basispaar mit zwei Bits codiert werden.
il - ya
Wenn Sie ein "A" haben, womit ergänzen Sie es? "AC" "AG" "AT" sind alle gültig. Ebenso, wenn Sie "T" haben, sind die "TG" "TC" "TA" gültig. Was machen Sie also?
Roger Johansson
1
@ RogerJohansson Nein, nur das "AT" -Basenpaar ist in der DNA gültig. Ebenso für "TA", "CG" und "GC". Es gibt keine andere Basenpaarkombination.
Konrad Rudolph
@KonradRudolph gibt es mindestens neun Purine ( en.wikipedia.org/wiki/Purine ). Alle können verwendet werden, um A oder G zu ersetzen. Dies würde die Lösung der OP-Frage komplexer machen. Ich bin damit einverstanden, es einfach zu halten und mich an A, G, T und C zu halten.
ZF007
1
@ ZF007 Sie existieren, kommen aber im menschlichen Genom nicht stabil vor und sind daher für die Speicherung des Genoms nicht relevant. Ihre biologische Relevanz ist nur im Zusammenhang mit Mutationen (und nur vorübergehend) und RNA-Modifikationen wichtig. Insbesondere (im Kontext dieser Antwort) werden Genomdaten nicht als "Basenpaare" gespeichert, sondern als Folge einzelner Basen, und jede Position kann in zwei Bits codiert werden. Dies ist nicht theoretisch, sondern wird tatsächlich so durchgeführt (außer dass genetische Daten für die meisten Anwendungen in (gzippten) ASCII gespeichert und nicht bitkomprimiert werden).
Konrad Rudolph