Was genau ist Big Data?

44

Mir wurde mehrmals die Frage gestellt:

Was ist Big-Data?

Sowohl von Schülern als auch von meinen Verwandten, die das Rummel um Statistiken und ML aufgreifen.

Ich habe diesen Lebenslauf gefunden . Und ich habe das Gefühl, dass ich der einzigen Antwort dort zustimme.

Die Wikipedia-Seite enthält auch einige Kommentare, aber ich bin mir nicht sicher, ob ich wirklich mit allem einverstanden bin.

BEARBEITEN: (Ich bin der Meinung, dass die Wikipedia-Seite die Methoden zur Lösung dieses Problems und das unten erwähnte Paradigma nicht erläutert .)

Ich habe kürzlich einen Vortrag von Emmanuel Candès besucht , in dem er das Big-Data-Paradigma als vorstellte

Zuerst Daten sammeln Fragen später stellen

Dies ist der Hauptunterschied zu hypothesengetriebener Forschung, bei der Sie zuerst eine Hypothese formulieren und dann Daten sammeln, um etwas darüber zu sagen.

Er beschäftigte sich intensiv mit der Quantifizierung der Zuverlässigkeit von Hypothesen, die durch Datenschnüffeln erstellt wurden. Das Wichtigste, was ich aus seinem Vortrag herausgenommen habe, war, dass wir wirklich anfangen müssen, den FDR zu kontrollieren, und er präsentierte die Knockoff- Methode, um dies zu tun.

Meiner Meinung nach sollte der Lebenslauf eine Frage dazu haben, was Big-Data ist und wie Sie es definieren. Ich habe das Gefühl, dass es so viele verschiedene "Definitionen" gibt , dass es schwierig ist, wirklich zu verstehen, was es ist, oder es anderen zu erklären, wenn kein allgemeiner Konsens darüber besteht, woraus es besteht.

Ich bin der Meinung, dass die von Candès bereitgestellte "Definition / Paradigma / Beschreibung" die naheliegendste Sache ist, der ich zustimme. Was sind Ihre Gedanken?

EDIT2: Ich bin der Meinung, dass die Antwort mehr als nur eine Erklärung der Daten selbst liefern sollte. Es sollte eine Kombination aus Daten / Methoden / Paradigma sein.

EDIT3: Ich bin der Meinung, dass dieses Interview mit Michael Jordan auch etwas zur Tabelle hinzufügen könnte.

EDIT4: Ich habe mich entschieden, die Antwort mit der höchsten Bewertung als die richtige zu wählen. Obwohl ich denke, dass alle Antworten etwas zur Diskussion beitragen und ich persönlich der Meinung bin, dass dies eher eine Frage des Paradigmas ist, wie wir Hypothesen erstellen und mit Daten arbeiten. Ich hoffe, dass diese Frage als Referenz für diejenigen dienen wird, die nach Big-Data suchen. Ich hoffe, dass die Wikipedia-Seite geändert wird, um das Mehrfachvergleichsproblem und die Kontrolle von FDR weiter zu betonen.

Gumeo
quelle
55
"Big Data ist wie Sex im Teenageralter: Jeder redet darüber, niemand weiß wirklich, wie es geht, jeder denkt, jeder tut es, also behauptet jeder, er tue es." Simon Matthews
Alexander Lutsenko
4
Dieses Zitat ist nicht mehr gültig. Die Leute machen in letzter Zeit viele außergewöhnliche Arbeiten. Wenn Sie sich die Wettbewerbe auf Kaggle ansehen, verbessern Unternehmen ihr Geschäft und verdienen viel Geld, indem sie nicht viel Geld ausgeben. Weitere Beispiele für die Anwendung von Big Data finden Sie hier: linkedin.com/pulse/…
Metariat
5
@ XuanQuangDO, ich stimme zu. Nimm dieses Zitat nicht ernst.
Alexander Lutsenko
6
@XuanQuangDO: Nun, ich bin sicher, dass einige Teenager außergewöhnlichen Sex haben, aber das ändert nichts an der Tatsache, dass es auch viele inkompetente oder irreführende Dinge gibt, die die Leute rücksichtslos verspotten werden ;-)
Steve Jessop

Antworten:

54

Ich hatte das Vergnügen, an einem Vortrag von Dr. Hadley Wickham von RStudio teilzunehmen. Er definierte es so, dass

  • Big Data: Auf einem Computer passt kein Speicher:> 1 TB
  • Mittlere Datenmenge: Passt in den Speicher eines Servers: 10 GB - 1 TB
  • Kleine Datenmengen: Passt in den Arbeitsspeicher eines Laptops: <10 GB

Hadley glaubt auch, dass die meisten Daten zumindest auf überschaubare Probleme reduziert werden können und dass eine sehr kleine Menge tatsächlich echte Big Data ist. Er bezeichnet dies als "Big Data Mirage".

  • 90% Kann durch Teilmengen / Stichproben / Zusammenfassen auf ein kleines / mittleres Datenproblem reduziert werden
  • 9% Kann auf eine sehr große Anzahl kleiner Datenprobleme reduziert werden
  • 1% ist irreduzibel groß

Folien finden Sie hier .

Chris C
quelle
2
@ GuðmundurEinarsson, ich habe es gerade bearbeitet, danke für den Vorschlag.
Chris C
5
Ich glaube zwar nicht, dass es klare Grenzen gibt, aber ich denke, dass dieser Beitrag sehr aufschlussreich ist. Als ich in einem SW-Unternehmen gearbeitet habe, habe ich mit einigen Kunden nach " Big-Data-Lösungen " gesucht . In Wirklichkeit haben sie ein 16 GB SODIMM verpasst.
usεr11852 sagt Reinstate Monic
2
Heutzutage sind nichtflüchtige Speicher mit 1 TB SSDs nicht allzu weit von flüchtigen Speichern in der Geschwindigkeit entfernt. Ich glaube, ich würde erwarten, dass Big Data größer als 1 TB ist, vielleicht mindestens 50 TB oder so.
Mehrdad
3
Bei allem Respekt für Sie und Hadley geht es bei den Angebotsdaten nicht nur um das Volumen. In der Regel werden die Gebotsdaten über das 3-V- und in jüngerer Zeit das 4- V-Modell (vorgeschlagen von Gartner) definiert - siehe Antwort von Dawny33 unten. Einige Experten (einschließlich von Gartner) betrachten jedoch noch eine andere, und sie argumentieren mit der wichtigsten V-Dimension, bei der V für Geschäftswert steht . Zum Beispiel beziehen Sie sich auf diesen Beitrag und diesen Beitrag .
Aleksandr Blekh
2
@AleksandrBlekh Ihr Kommentar enthält sowohl eine differenzierte Diskussion der Kontroverse um die Kriterien für "Big Data" unter Experten als auch einige Referenzen, um Ihre Behauptungen zu untermauern. Ich denke, du solltest darüber nachdenken, es in eine Antwort umzuwandeln.
Silverfish
19

Ein Datensatz / Stream heißt Big Data, wenn er alle vier V erfüllt

  • Volumen
  • Geschwindigkeit
  • Richtigkeit
  • Vielfalt

Sofern dies nicht der Fall ist, kann der Datensatz nicht als Big Data bezeichnet werden.

Eine ähnliche Antwort von mir als Referenz.


Davon abgesehen als Datenwissenschaftler; Ich finde das Map-Reduce-Framework sehr schön. Teilen Sie Ihre Daten, ordnen Sie sie zu und die Ergebnisse des Mapper-Schritts werden in einem einzigen Ergebnis zusammengefasst. Ich finde dieses Framework wirklich faszinierend und wie es der Datenwelt zugute gekommen ist.

Und so gehe ich bei meiner täglichen Arbeit mit dem Datenproblem um:

  1. Säulendatenbanken: Dies ist ein Segen für Datenwissenschaftler. Ich verwende Aws Red Shift als säulenförmigen Datenspeicher. Es hilft bei der Ausführung komplexer SQL-Abfragen und ist schmerzfreier. Ich finde es wirklich gut, besonders wenn mein Wachstumsteam einige wirklich komplexe Fragen stellt und ich nicht sagen muss: "Ja, ich habe eine Abfrage durchgeführt, wir würden sie in einem Tag erhalten!"
  2. Spark und das Map Reduce Framework: Die Gründe wurden oben erläutert.

Und so wird ein Datenexperiment durchgeführt:

  • Das zu beantwortende Problem wird identifiziert
  • Die möglichen Datenquellen werden nun aufgelistet.
  • Pipelines dienen dazu, Daten aus lokalen Datenbanken in Redshift zu übertragen. Ja, Spark kommt hierher. Es ist wirklich praktisch, wenn die DBs -> S3 -> Redshift-Daten übertragen.
  • Anschließend werden die Abfragen und SQL-Analysen für die Daten in Redshift durchgeführt.

Ja, es gibt Big-Data-Algorithmen wie Hyperloglog usw .; aber ich habe nicht die Notwendigkeit gefunden, sie zu benutzen.

Also ja. Die Daten werden zuerst gesammelt, bevor die Hypothese erstellt wird.

Dawny33
quelle
5
Ich bin mit diesen Dingen einverstanden, aber ich denke, dass der Begriff Big Data mehr als die Daten selbst abdeckt. Es sind auch die Methoden, die darauf angewendet werden, und das Paradigma, zuerst die Daten zu sammeln, bevor Hypothesen darüber erstellt werden.
Gumeo,
1
@ GuðmundurEinarsson Ich hatte es eilig, also wollte ich dir die beste Antwort in kurzer Zeit geben. Deshalb habe ich es jetzt bearbeitet und mit dem Workflow und den Erkenntnissen aus meinen täglichen Erfahrungen mit großen Datenmengen in der Branche erweitert.
Dawny33
1
Die vier Vs werden hier invertiert, um Big Data zu definieren, anstatt wichtige bemerkenswerte Eigenschaften von Big Data zu sein. Viele Beispiele können aus Big Data erstellt werden, ohne dass einige davon 4 sind, und einige sind sogar in der IBM-Infografik aufgeführt.
John
@John Ja, die V's ändern sich in der Tat sehr. Es gibt auch ein Argument für ein neues V ( Wert )
Dawny33
1
Ich sage nicht, dass sie sich ändern, ich sage, dass Sie eine Beschreibung einiger Eigenschaften falsch in eine Definition umkehren. Es ist, als würde jemand ihnen wichtige Dinge über einen Hund als Loyalität, Lachen und Lecken beschreiben und jemand anderes kommt und sagt, das sei die Definition eines Hundes. Ich denke jedoch, Sie waren in Bezug auf die Umkehrung der Analyserichtung eher auf dem richtigen Weg, aber es muss nur in gewisser Weise an die Größe der Daten angehängt werden. Ich denke, es gibt viele gute Möglichkeiten, dies zu tun, und es wäre großartig, wenn Sie eine entwickeln würden.
John
14

Ich denke, die einzig nützliche Definition von Big Data sind Daten, die alle Informationen zu einem bestimmten Phänomen katalogisieren . Damit meine ich, dass Big Data keine Stichproben aus einer interessierenden Population und keine Messungen an diesen Einheiten sammelt, sondern Messungen an der gesamten interessierenden Population. Angenommen, Sie sind an Amazon.com-Kunden interessiert. Es ist durchaus möglich, dass Amazon.com Informationen über alle Einkäufe seiner Kunden sammelt, anstatt nur einige Benutzer oder nur einige Transaktionen zu verfolgen.

Meiner Meinung nach sind Definitionen, die von der Speichergröße der Daten selbst abhängen, von begrenztem Nutzen. Nach dieser Metrik sind bei einem ausreichend großen Computer keine Daten tatsächlich große Daten. Im Extremfall eines unendlich großen Computers mag dieses Argument einschränkend erscheinen. Betrachten Sie jedoch den Fall eines Vergleichs meines Notebooks für Endverbraucher mit den Servern von Google. Natürlich hätte ich enorme logistische Probleme beim Versuch, ein Terabyte an Daten zu durchforsten, aber Google verfügt über die Ressourcen, um diese Aufgabe recht einfach zu bewältigen. Noch wichtiger ist, dass die Größe Ihres Computers keine intrinsische Eigenschaft der Daten ist. Die Definition der Daten ausschließlich in Bezug auf die von Ihnen verwendete Technologie entspricht einer Messung der Entfernung in Bezug auf die Länge Ihrer Arme.

Dieses Argument ist nicht nur ein Formalismus. Die Notwendigkeit für komplizierte Parallelisierungsschemata und verteilte Computerplattformen entfällt, sobald Sie über ausreichend Rechenleistung verfügen. Also , wenn wir die Definition akzeptieren , dass Big Data zu groß ist in den Arbeitsspeicher zu passen (oder stürzt Excel, oder was auch immer), dann , nachdem wir unsere Maschinen aktualisieren, hört Big Data zu existieren. Das scheint albern.

Aber schauen wir uns einige Daten zu Big Data an und nennen sie "Big Metadata". In diesem Blogbeitrag wird ein wichtiger Trend beobachtet: Der verfügbare Arbeitsspeicher steigt schneller als die Datenmenge und behauptet provokativ, dass "Big RAM Big Data frisst" - das heißt, mit einer ausreichenden Infrastruktur haben Sie kein Big-Data-Problem mehr, Sie haben es einfach Sie haben Daten und kehren zum Bereich der konventionellen Analysemethoden zurück.

Darüber hinaus weisen verschiedene Darstellungsmethoden unterschiedliche Größen auf, sodass nicht klar ist, was es bedeutet, "Big Data" in Bezug auf die Größe im Speicher zu definieren. Wenn Ihre Daten so aufgebaut sind, dass viele redundante Informationen gespeichert werden (dh Sie wählen eine ineffiziente Codierung), können Sie problemlos die Schwelle überschreiten, mit der Ihr Computer problemlos umgehen kann. Aber warum sollte eine Definition diese Eigenschaft haben? Ob es sich bei dem Datensatz um "Big Data" handelt oder nicht, sollte meines Erachtens nicht davon abhängen, ob Sie im Forschungsdesign effiziente Entscheidungen getroffen haben oder nicht.

Vom Standpunkt eines Praktikers aus sind Big Data, wie ich es definiere, auch mit Rechenanforderungen verbunden, aber diese Anforderungen sind anwendungsspezifisch. Das Durchdenken des Datenbankdesigns (Software, Hardware, Organisation) für Beobachtungen unterscheidet sich stark von dem für10 7104107Beobachtungen, und das ist völlig in Ordnung. Dies impliziert auch, dass Big Data, wie ich es definiere, möglicherweise keine spezielle Technologie benötigt, die über das hinausgeht, was wir in der klassischen Statistik entwickelt haben: Stichproben und Konfidenzintervalle sind immer noch nützliche und gültige Inferenzwerkzeuge, wenn Sie extrapolieren müssen. Lineare Modelle können durchaus akzeptable Antworten auf einige Fragen liefern. Aber Big Data, wie ich es definiere, erfordert möglicherweise eine neuartige Technologie. Vielleicht müssen Sie neue Daten in einer Situation klassifizieren, in der Sie mehr Prädiktoren als Trainingsdaten haben oder in der Ihre Prädiktoren mit Ihrer Datengröße wachsen. Diese Probleme erfordern eine neuere Technologie.


Abgesehen davon halte ich diese Frage für wichtig, da sie implizit darauf abzielt, warum Definitionen wichtig sind - das heißt, für wen definieren Sie das Thema. Eine Diskussion der Hinzufügung für Erstklässler beginnt nicht mit der Mengenlehre, sondern mit der Zählung physikalischer Objekte. Ich habe die Erfahrung gemacht, dass der Großteil des Begriffs "Big Data" in der populären Presse oder in der Kommunikation zwischen Personen verwendet wird, die keine Spezialisten für Statistik oder maschinelles Lernen sind (z. B. Marketingmaterialien für professionelle Analysen) die Idee zum Ausdruck bringen, dass moderne Computerpraktiken bedeuten, dass eine Fülle verfügbarer Informationen vorhanden ist, die genutzt werden können. Dies steht fast immer im Zusammenhang mit Daten, die Informationen über Verbraucher preisgeben, die, wenn auch nicht privat, nicht unmittelbar ersichtlich sind.

Die Konnotation und Analyse im Zusammenhang mit der allgemeinen Verwendung von "Big Data" geht daher auch mit dem Gedanken einher, dass Daten dunkle, verborgene oder sogar private Details des Lebens einer Person enthüllen können, vorausgesetzt, es wird eine ausreichende Inferenzmethode angewendet. Wenn die Medien über Big Data berichten, ist diese Verschlechterung der Anonymität in der Regel das, worauf sie abzielen. Die Definition des Begriffs "Big Data" erscheint in diesem Licht etwas irreführend, da die populäre Presse und Nichtspezialisten sich nicht um die Vorteile des Zufalls kümmern Wälder und Support-Vektor-Maschinen usw. kennen die Herausforderungen der Datenanalyse in verschiedenen Maßstäben nicht. Und das ist in Ordnung.Die Sorge aus ihrer Sicht konzentriert sich auf die sozialen, politischen und rechtlichen Folgen des Informationszeitalters. Eine genaue Definition für die Medien oder Nichtspezialisten ist nicht wirklich nützlich, da auch ihr Verständnis nicht genau ist. (Denken Sie nicht, dass ich selbstgefällig bin - ich beobachte nur, dass nicht jeder Experte in allem sein kann.)

Setzen Sie Monica wieder ein
quelle
7
Diese. "Ich habe die Erfahrung gemacht, dass der Großteil des Begriffs" Big Data "in der populären Presse oder in der Kommunikation zwischen Personen vorkommt, die nicht auf Statistik oder maschinelles Lernen spezialisiert sind (z. B. Marketingmaterialien für professionelle Analysen)."
Momo
2
Ich denke, Sie haben mit Ihrem letzten Absatz den Nagel auf den Kopf getroffen. Ich denke, dass es eine sehr deutliche Lücke zwischen dem Verständnis der Presse und der Meinung der Menschen in den Bereichen Statistik / ML / Datenwissenschaft zum Begriff Big Data gibt. Ich bin einfach der Meinung, dass es einen klareren Konsens darüber geben muss, was es tatsächlich ist. Ein Grund dafür ist ein Verweis, der verhindert, dass Personen den Begriff manipulieren oder missbrauchen können, wenn er offensichtlich nicht zutreffend ist.
Gumeo,
1
Ich glaube, ich stimme Ihnen immer mehr zu. Ich bin immer noch der Meinung, dass der Lebenslauf eine Referenzfrage braucht, bei der interessierte Menschen und Interessierte ihre zwei Schwerpunkte in die Sache stecken. Ich suchte hier nach Fragen und hatte das Gefühl, dass diese Diskussion fehlte.
Gumeo
1
Ich denke, dass dies ein wertvolles Gespräch ist, und ich bin froh, dass Sie die Frage gestellt haben! Und ich bin froh, dass Sie meine Kommentare hilfreich fanden.
Setzen Sie Monica
1
Ich liebe diese Antwort aus mehreren Gründen. Zunächst muss betont werden, dass "Big Data" wenig mit den zur Analyse verwendeten Algorithmen zu tun hat. Die meisten von ihnen sind 20 bis 30 Jahre alt (zufälliger Wald, lineare Regression usw.) und funktionieren einwandfrei. Einige Leute in der Industrie glauben, dass "Big Data" mit ausgefallenen neuen Algorithmen einhergeht, weil sie wahrscheinlich nicht einmal wussten, dass es maschinelles Lernen seit vielen Jahren gibt. Zweitens geht es bei "Big Data" nicht um die Größe. Wenn Sie einen Server mit 128 GB RAM zur Verfügung haben und alles in den Speicher einpassen können, ist das einfach großartig. (Fortsetzung)
skd
7

Bildbeschreibung hier eingeben

Bei der Überprüfung der umfangreichen Literatur zu Big Data habe ich bis zu 14 "V" -Begriffe gesammelt, davon 13 in etwa elf Dimensionen:

  • Gültigkeit,
  • Wert,
  • Variabilität / Varianz,
  • Vielfalt,
  • Geschwindigkeit,
  • Wahrhaftigkeit,
  • Lebensfähigkeit,
  • Virtualität,
  • Visualisierung,
  • Flüchtigkeit,
  • Volumen.

Die 14. Amtszeit ist Vacuity. Laut einem kürzlich veröffentlichten provokanten Beitrag gibt es Big Data nicht . Die wichtigsten Punkte sind:

  • „Big Data“ ist nicht groß
  • Die meisten "Big Data" sind nicht wirklich nützlich
  • Das Beste aus kleinen Daten machen

Eine korrekte Definition von Big Data würde sich mit Hardware, Software, Anforderungen und Wissen entwickeln und sollte wahrscheinlich nicht von einer festen Größe abhängen. Daher die Definition von Big Data: Die nächste Grenze für Innovation, Wettbewerb und Produktivität , Juni 2011:

"Big Data" bezieht sich auf Datensätze, deren Größe die Fähigkeit typischer Datenbanksoftwaretools zum Erfassen, Speichern, Verwalten und Analysieren übersteigt.

Laurent Duval
quelle
1
Der Artikel, auf den sich "vacuity" bezieht, scheint furchtbar schwach zu sein. Es gibt eine Implikation, dass 30 GB Daten / Tag nicht groß sind (und diese Größe die einzige Komponente der Definition ist). Darüber hinaus wird argumentiert, dass Daten, die laut Unternehmen viel größer sind als sie tatsächlich sind, nicht groß sind. Es gibt nirgendwo eine Definition von "groß". Und in allen Beispielen, die verwendet wurden, um "nicht groß" vorzuschlagen, sind viele der Vs hier aufgelistet.
John
Die "Leerstelle" gilt nicht nur für die Größe. Tatsächlich soll sich im letzten Einzeiler die Definition von groß mit dem aktuellen Stand der Praxis weiterentwickeln. Was in der Vergangenheit groß war, kann einige Jahre später als klein angesehen werden. Hier habe ich den Begriff für den Fall verwendet, in dem "Big Data" als magisches Mantra mit wenigen Inhalten verwendet wird, wie im obigen Cartoon dargestellt.
Laurent Duval
1
Wie wahrscheinlich ist es, dass 14 Kriterien alle mit einem Buchstaben V beginnen? Wir sind alle auf Statistik bedachte Leute hier, komm schon!
Aksakal
Grundsätzlich stimme ich zu, dies sollte nur zeigen, dass ein Begriff wie Big Data eher zum Bereich Marketing als zur Statistik gehört. Ich wollte jedoch meine "Sammlung" der von mir gelesenen Begriffe teilen. Es hat mit 3 V, dann mit 5 V und manchmal mit 7 usw. begonnen. Dieser Begriff kann vage dazu beitragen, Merkmale der Daten zu erkennen, die man hat
Laurent Duval
4

Die Leute scheinen sich auf ein großes Qualifikationsmerkmal in Big Data zu fixieren . Die Größe ist jedoch nur eine der Komponenten dieses Begriffs (Domäne). Es reicht nicht aus, dass Ihre Datenmenge groß war , um Ihr Problem (Ihre Domain) als Big Data zu bezeichnen. Sie müssen auch Schwierigkeiten haben, sie zu verstehen, zu analysieren und sogar zu verarbeiten. Einige nennen diese Funktion unstrukturiert , aber es ist nicht nur die Struktur, sondern auch die unklare Beziehung zwischen verschiedenen Teilen und Elementen von Daten.

Betrachten Sie die Datensätze, die Hochenergiephysiker an Orten wie dem CERN verwenden . Sie haben jahrelang mit Daten in Petabyte-Größe gearbeitet, bevor der Begriff Big Data geprägt wurde. Aber selbst jetzt nennen sie diese großen Daten, soweit ich weiß, nicht. Warum? Da die Daten ziemlich regelmäßig sind, wissen sie, was sie damit anfangen sollen. Sie sind möglicherweise noch nicht in der Lage, jede Beobachtung zu erklären, daher arbeiten sie an neuen Modellen usw.

Jetzt nennen wir Big Data die Probleme, die mit Datensätzen zu tun haben, deren Größe in wenigen Sekunden vom LHC in CERN generiert werden könnte. Der Grund dafür ist, dass diese Datensätze in der Regel aus Datenelementen bestehen, die aus einer Vielzahl von Quellen mit unterschiedlichen Formaten, unklaren Beziehungen zwischen den Daten und ungewissem Wert für das Unternehmen stammen. Es könnte nur 1 TB groß sein, aber es ist so schwierig, Audio, Video, Texte, Sprache usw. zu verarbeiten. In Bezug auf die Komplexität und die benötigten Ressourcen übertrifft dies die Petabytes der CERN-Daten. Wir wissen nicht einmal, ob unsere Datensätze nützliche Informationen enthalten.

Daher umfasst das Lösen von Big-Data-Problemen das Parsen, Extrahieren von Datenelementen mit unbekanntem Wert und anschließendes Verknüpfen dieser Elemente. Das "Parsen" eines Bildes kann für sich genommen ein großes Problem sein. Angenommen, Sie suchen nach CCTV-Filmmaterial aus den Straßen der Stadt, um festzustellen, ob die Menschen wütender werden und ob es Auswirkungen auf die Verkehrsunfälle mit Fußgängern hat. Es gibt jede Menge Videos, man findet die Gesichter, versucht, ihre Stimmungen anhand von Ausdrücken zu messen und verknüpft diese dann mit der Anzahl der Unfalldatensätze, Polizeiberichte usw., während man gleichzeitig das Wetter (Niederschlag, Temperatur) und Verkehrsstaus kontrolliert. Sie benötigen die Speicher- und Analysetools, die diese großen Datenmengen unterschiedlicher Art unterstützen und die Daten effizient miteinander verknüpfen können.

Big Data ist ein komplexes Analyseproblem, bei dem die Komplexität sowohl von der Größe als auch von der Komplexität der darin enthaltenen Struktur und Informationskodierung herrührt.

Aksakal
quelle
Guter Input. Der Kontrast, den Sie zwischen dem LHC- und dem CCTV-Datenproblem angeben, wird häufig übersehen.
Gumeo
3

Ich denke, der Grund, warum die Leute von Big Data verwirrt sind, ist, dass sie die Vorteile nicht erkennen. Der Wert von Big Data (Technik) hängt nicht nur von der Menge der Daten ab, die Sie erfassen können, sondern auch von der prädiktiven Modellierung, die letztendlich wichtiger ist:

  1. Die prädiktive Modellierung hat die Art und Weise, wie wir Statistiken und Vorhersagen erstellen, grundlegend geändert. Sie gibt uns einen besseren Einblick in unsere Daten, da neue Modelle, neue Techniken die Trends und das Rauschen der Daten besser erkennen und eine mehrdimensionale Datenbank erfassen können. Je mehr Maße wir in unserer Datenbank haben, desto größer ist die Chance, dass wir das gute Modell erstellen können. Predictive Modeling ist das Herzstück von Big Data.
  2. Big Data (in Bezug auf die Datengröße) ist der vorbereitende Schritt und dient dazu, die prädiktive Modellierung durch: Anreicherung der Datenbank in Bezug auf: 1. Anzahl der Prädiktoren (mehr Variablen), 2. Anzahl der Beobachtungen.

Mehr Prädiktoren, da wir jetzt in der Lage sind, Daten zu erfassen, die zuvor nicht erfasst werden konnten (aufgrund der begrenzten Hardware-Leistung und der begrenzten Kapazität, mit den unstrukturierten Daten zu arbeiten). Mehr Prädiktoren bedeuten mehr Chancen auf signifikante Prädiktoren, dh ein besseres Modell, eine bessere Vorhersage und eine bessere Entscheidung für das Unternehmen.

Mehr Beobachtungen machen das Modell im Laufe der Zeit nicht nur robuster, sondern helfen dem Modell auch, alle möglichen Muster zu lernen / zu erkennen, die in der Realität dargestellt / erzeugt werden können.

Metariat
quelle
3

Das Knifflige an Big Data im Vergleich zu seinem Antonyme (vermutlich Small Data?) Ist, dass es sich um ein Kontinuum handelt. Die Big-Data-Leute sind auf die eine Seite des Spektrums gegangen, die Small-Data-Leute auf die andere, aber es gibt keine klare Linie im Sand, auf die sich alle einigen können.

Ich würde Verhaltensunterschiede zwischen den beiden betrachten. In Situationen mit kleinen Daten haben Sie einen "kleinen" Datensatz, und Sie möchten, dass Sie so viele Informationen wie möglich aus jedem Datenpunkt herausholen, den Sie können. Erhalten Sie mehr Daten, können Sie mehr Ergebnisse erzielen. Es kann jedoch teuer werden, mehr Daten zu erhalten. Die gesammelten Daten sind häufig auf mathematische Modelle beschränkt, z. B. auf die Durchführung einer partiellen Fakultät von Tests, um nach interessanten Verhaltensweisen zu suchen.

In Big-Data-Situationen verfügen Sie über ein "großes" Dataset, Ihr Dataset ist jedoch in der Regel nicht so eingeschränkt. Normalerweise können Sie Ihre Kunden nicht davon überzeugen, ein lateinamerikanisches Möbelstück zu kaufen, nur um die Analyse zu vereinfachen. Stattdessen neigen Sie dazu, unzählige schlecht strukturierte Daten zu haben. Um diese Probleme zu lösen, besteht das Ziel in der Regel nicht darin, "die besten Daten auszuwählen und alles aus ihnen herauszuholen", wie man es vielleicht naiv versucht, wenn man an kleine Daten gewöhnt ist. Das Ziel ist in der Regel eher "Wenn Sie aus jedem einzelnen Datenpunkt nur ein kleines Stück herausholen können, ist die Summe riesig und tiefgreifend."

Dazwischen liegen die mittelgroßen Datensätze mit passender Struktur. Dies sind die "wirklich schwierigen Probleme". Daher gliedern wir uns derzeit in zwei Lager: eines mit kleinen Daten, die das letzte Stück herausholen, und das andere mit großen Daten, die versuchen, jeden Datenpunkt für sich wirken zu lassen richtig. Ich erwarte, dass im weiteren Verlauf mehr Prozesse mit kleinen Datenmengen versuchen, sich an größere Datenmengen anzupassen, und mehr Prozesse mit großen Datenmengen, um strukturiertere Daten zu nutzen.

Cort Ammon
quelle
Ihre Charakterisierung kleiner Daten klingt sehr nach Bem's Buch zur Analyse. Schlagen Sie dazu bitte Kritikpunkte nach, da dies eine unangemessene Methode ist, um kleine Datensätze zu behandeln, die nicht für private Zwecke bestimmt sind, auf denen die zukünftige Datenerfassung basieren soll.
John
@ John Ich muss mir die vielleicht ansehen. Reichen die Kritiken aus, dass ich die Charakterisierung nicht einmal als einen Punkt verwenden kann, um ein Kontinuum zu beschreiben?
Cort Ammon
Es ist wirklich zu lang, darauf einzugehen, aber die wesentliche Botschaft ist, dass Sie mit kleinen Daten nicht alles aus jedem Datenpunkt herauspressen, was Sie können. Vielleicht Google Gelman und Forking Paths; oder experimenteller Freiheitsgrad. Sie müssen die Analyse kleiner und großer Datenmengen unterschiedlich betrachten, nicht nur als Punkte auf einem Kontinuum.
John
3

Ich würde sagen, es gibt drei Komponenten, die für die Definition von Big Data wesentlich sind: die Richtung der Analyse, die Größe der Daten in Bezug auf die Grundgesamtheit und die Größe der Daten in Bezug auf Rechenprobleme.

Die Frage selbst besagt, dass Hypothesen entwickelt werden, nachdem Daten vorliegen. Ich verwende "gesammelt" nicht, weil ich denke, das Wort "gesammelt" impliziert einen Zweck und Daten existieren oft zu keinem bekannten Zweck. Das Sammeln erfolgt häufig in Big Data, indem vorhandene Daten im Dienst einer Frage zusammengeführt werden.

Ein zweiter wichtiger Teil ist, dass es nicht nur irgendwelche Daten gibt, für die eine Post-Hoc-Analyse, wie man es als explorative Analyse mit kleineren Datensätzen bezeichnen würde, geeignet ist. Es muss eine ausreichende Größe haben, von der angenommen wird, dass die daraus gesammelten Schätzungen den Bevölkerungsschätzungen nahe genug sind, dass viele kleinere Stichprobenprobleme ignoriert werden können. Aus diesem Grund bin ich ein wenig besorgt, dass es derzeit einen Vorstoß in Richtung mehrfacher Vergleichskorrekturen gibt. Wenn Sie die gesamte Bevölkerung hatten oder eine Annäherung, die Sie für berechtigt halten, ist, sollten solche Korrekturen streitig sein. Mir ist zwar klar, dass manchmal Probleme auftreten, die die "großen Datenmengen" tatsächlich in eine kleine Stichprobe verwandeln (z. B. große logistische Regressionen), aber es kommt darauf an, zu verstehen, was eine große Stichprobe für eine bestimmte Frage ist. Viele der mehreren Vergleichsfragen sollten stattdessen in Fragen zur Effektgröße umgewandelt werden. Und natürlich ist die ganze Idee, dass Sie Tests mit Alpha = 0,05 verwenden, wie es viele immer noch mit Big Data tun, einfach absurd.

Und schließlich qualifizieren sich kleine Bevölkerungsgruppen nicht. In einigen Fällen gibt es eine kleine Population, und man kann alle erforderlichen Daten sammeln, um sie sehr einfach zu untersuchen und die Erfüllung der ersten beiden Kriterien zu ermöglichen. Die Daten müssen so groß sein, dass sie zu einem Rechenproblem werden. Insofern müssen wir in gewisser Weise zugeben, dass "Big Data" ein vorübergehendes Schlagwort und möglicherweise ein Phänomen sein kann, das ständig auf der Suche nach einer strengen Definition ist. Einige der Dinge, die "Big Data" jetzt groß werden lassen, werden in wenigen Jahren verschwinden, und Definitionen wie die von Hadley, die auf der Computerkapazität basieren, werden kurios erscheinen. Auf einer anderen Ebene sind Rechenprobleme Fragen, die sich nicht mit der Computerkapazität oder möglicherweise mit der Computerkapazität befassen und die niemals gelöst werden können. Ich denke, dass in diesem Sinne die Probleme der Definition "

Man könnte bemerken, dass ich keine Beispiele oder festen Definitionen für ein hartes Rechenproblem für diese Domäne angegeben habe (es gibt eine Menge Beispiele im Allgemeinen in comp sci und einige zutreffende, auf die ich nicht näher eingehen werde). Ich will keine machen, weil ich denke, dass das etwas offen bleiben muss. Im Laufe der Zeit kommen die gesammelten Werke vieler Menschen zusammen, um solche Dinge leichter zu machen, zu diesem Zeitpunkt häufiger durch Softwareentwicklung als durch Hardware. Vielleicht muss das Feld vollständiger reifen, um diese letzte Anforderung fester zu machen, aber die Kanten sind immer unscharf.

John
quelle
danke für deinen Beitrag! Ich denke, dass Sie wertvolle Erkenntnisse für diesen Thread liefern. Ich denke, dass die Größe der Daten für die Bevölkerung hier etwas übersehen wurde.
Gumeo
1

Wikipedia bietet eine recht klare Definition

Big Data ist ein weit gefasster Begriff für Datenmengen, die so umfangreich oder komplex sind, dass herkömmliche Datenverarbeitungsanwendungen nicht ausreichend sind. (Quelle https://en.wikipedia.org/wiki/Big_data )

andere einfache Definition, die ich kenne, ist

Daten, die nicht in den Arbeitsspeicher des Computers passen.

Leider erinnere ich mich nicht daran, worauf es ankam. Alles andere ergibt sich aus diesen Definitionen - man muss irgendwie mit großen Datenmengen umgehen.

Tim
quelle
0

Ich möchte hinzufügen, dass Big Data ein Verweis darauf ist, entweder an großen Datenmengen (Millionen und / oder Milliarden von Zeilen) zu arbeiten oder Informationen / Muster zu breiten Datenressourcen zu finden, die Sie jetzt überall sammeln können.

Yohan Obadia
quelle