Was ist die Definition von „Big Data“?

23

Ist dort eines?

Alle Definitionen, die ich finden kann, beschreiben die Größe, Komplexität / Vielfalt oder Geschwindigkeit der Daten.

Die Wikipedia-Definition ist die einzige, die ich mit einer tatsächlichen Nummer gefunden habe

Big Data-Größen sind ein sich ständig änderndes Ziel. Ab 2012 reichen sie von einigen Dutzend Terabyte bis zu vielen Petabyte Daten in einem einzigen Datensatz.

Dies widerspricht jedoch anscheinend der MIKE2.0-Definition , auf die im nächsten Absatz Bezug genommen wird. Sie besagt, dass "große" Daten klein sein können und dass 100.000 Sensoren in einem Flugzeug, das nur 3 GB Daten erzeugt, als groß angesehen werden können.

IBM trotz der Aussage, dass:

Big Data ist mehr als nur eine Frage der Größe.

haben die Größe in ihrer Definition hervorgehoben .

O'Reilly hat auch betont "volume, velocity and variety" . Obwohl gut erklärt und ausführlicher, scheint die Definition eine Neuauflage der anderen zu sein - oder natürlich umgekehrt.

Ich denke , dass ein Computer Weekly Artikel Titel fasst eine Reihe von Artikeln ziemlich gut „Was große Daten sind und wie sie verwendet werden , um Wettbewerbsvorteile zu erlangen“ .

Aber ZDNet gewinnt ab 2012 mit :

„Big Data“ ist ein Schlagwort, das aus der Hochleistungsrechnernische des IT-Marktes sprudelt ... Wenn man sich die Präsentationen von zehn Technologieanbietern ansieht, werden wahrscheinlich fünfzehn oder so unterschiedliche Definitionen herauskommen. Jede Definition stützt natürlich tendenziell den Bedarf an Produkten und Dienstleistungen dieses Lieferanten. Stell dir das vor.

Grundsätzlich ist "Big Data" in irgendeiner Form "groß".

Was ist "groß"? Ist es zum gegenwärtigen Zeitpunkt quantifizierbar?

Wenn "groß" nicht quantifizierbar ist, gibt es eine Definition, die sich nicht nur auf Allgemeingültigkeiten stützt?

Ben
quelle
7
"Was ist" groß "? Ist es zur Zeit quantifizierbar?" Sicher. Big ist mehr, als Sie derzeit bewältigen können;)
Oded
1
@Oded, dann müsstest du "handle" definieren :-).
Ben
14
Wenn Sie fragen müssen, ist Ihre nicht groß genug, um zu zählen. ;)
FrustratedWithFormsDesigner
@ Ben - Das ist für jedes Individuum und System unterschiedlich definiert ...
Oded
4
"Groß" bezieht sich höchstwahrscheinlich auf "schwer zu handhaben". Genug, um nicht in den Speicher zu passen, füllen Sie die Festplatte, nehmen Sie sich Zeit für die Übertragung über das Netzwerk usw.

Antworten:

42

Es gibt keinen; Es ist ein Modewort.

Der Clou dabei ist, dass Ihre Daten nicht den Möglichkeiten herkömmlicher Systeme entsprechen. Die Daten sind zu groß, um auf der größten Festplatte gespeichert zu werden. Die Abfragen dauern ohne spezielle Optimierung zu lange. Das Netzwerk oder die Festplatte können den eingehenden Datenfluss nicht unterstützen. Datengröße / Datenbreite ...

Grundsätzlich ist es so, dass Ihre Daten jenseits eines unklaren Wendepunkts liegen, an dem "einfach mehr Hardware hinzufügen" sie nicht schneiden kann.

Telastyn
quelle
+1 und darüber hinaus ändert sich das, was als "groß" gilt, ständig, da bessere Hardware aufholt und zuvor angepasste Tools ausgereift, standardisiert und kommerziell vertrieben werden, um solche Probleme zu lösen.
FrustratedWithFormsDesigner
Mit anderen Worten: nein, keine Ahnung, nein, nein :-).
Ben
Bevor Big Data zu einer großen Sache wurde, haben viele Unternehmen und Forschungsinstitute bereits Big Data-Aktivitäten durchgeführt. Erst jetzt, mit all den Herausforderungen in den Bereichen Social Media / Online-Big Data, ist es mehr zum Mainstream geworden.
Paul Hiemstra
2

Wie in Oracle Link (Kommentar von Immad Careem) oracle.com/us/technologies/big-data/index.html angegeben. Big Data ist alles, was keine relationalen Daten sind, die in einem RDBMS gespeichert sind. Wenige Jahre vor dem Hype waren es nur "viele Daten". Jetzt wuchs es und wurde von Vermarktern als eine Art Spezialdaten beworben.

Es gibt mehrere sekundäre Gründe (außer Marketing), Big Data als eine echte Sache zu betrachten.

  1. Erfindung von Map-Reduce
  2. NOSQL-Technologien wie Hadoop
  3. Einige Entwicklungen im traditionellen RDBMS werden durch die Nachfrage nach unstrukturierten Datentypen beeinflusst
  4. Möglicherweise einige von EMC2 angebotene Hardwaretechnologien

quelle
2
"Erfindung von Map-Reduce"? Du machst wohl Witze.
Telastyn
1
"Alles, was keine relationalen Daten sind" ist eine Definition, die nur von jemandem stammen kann, der sich auf RDB konzentriert wie Oracle (und das ist falsch). Nach dieser Definition sind jeder SolR-Index, jede MongoDB-Datenbank und jede Berkley-DB "Big Data". Und das ist doch blöd.
Joachim Sauer
0

Mit Doug Laney Antwort als Ausgangspunkt, wir Reverse Engineering 30 eine Liste von Big Data - Definitionen, jetzt über und geht stark. Unsere Liste der Definitionen für "Big Data" befindet sich hier .

Wir freuen uns über Korrekturen, Eingaben, Grafiken usw.

Opentracker BData
quelle
-1

Es ist großartig zu sehen, wie O'Reilly und andere sich endlich an Gartners 3-V-Big-Data-Versionen orientieren, die wir vor über 11 Jahren zum ersten Mal eingeführt haben. Als Referenz ist hier das Originalstück, das ich 2001 geschrieben habe: http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/ .

In der kürzlich aktualisierten Definition von Gartner wird auch der Wertaspekt berücksichtigt: "Big Data sind Informationsressourcen mit Volumen, Geschwindigkeit und / oder Vielfalt, die innovative Formen der Informationsverarbeitung für eine verbesserte Aufdeckung von Erkenntnissen, Entscheidungsfindung und Prozessautomatisierung erfordern."

Wir haben auch eine Methode zur Quantifizierung der Datengröße entlang der drei Vektoren entwickelt, die für die Übernahme der Technologie maßgeblich sind. Ich kann es jedoch nicht öffentlich teilen.

Doug Laney
quelle