Mir wurde mehrmals die Frage gestellt:
Was ist Big-Data?
Sowohl von Schülern als auch von meinen Verwandten, die das Rummel um Statistiken und ML aufgreifen.
Ich habe diesen Lebenslauf gefunden . Und ich habe das Gefühl, dass ich der einzigen Antwort dort zustimme.
Die Wikipedia-Seite enthält auch einige Kommentare, aber ich bin mir nicht sicher, ob ich wirklich mit allem einverstanden bin.
BEARBEITEN: (Ich bin der Meinung, dass die Wikipedia-Seite die Methoden zur Lösung dieses Problems und das unten erwähnte Paradigma nicht erläutert .)
Ich habe kürzlich einen Vortrag von Emmanuel Candès besucht , in dem er das Big-Data-Paradigma als vorstellte
Zuerst Daten sammeln Fragen später stellen
Dies ist der Hauptunterschied zu hypothesengetriebener Forschung, bei der Sie zuerst eine Hypothese formulieren und dann Daten sammeln, um etwas darüber zu sagen.
Er beschäftigte sich intensiv mit der Quantifizierung der Zuverlässigkeit von Hypothesen, die durch Datenschnüffeln erstellt wurden. Das Wichtigste, was ich aus seinem Vortrag herausgenommen habe, war, dass wir wirklich anfangen müssen, den FDR zu kontrollieren, und er präsentierte die Knockoff- Methode, um dies zu tun.
Meiner Meinung nach sollte der Lebenslauf eine Frage dazu haben, was Big-Data ist und wie Sie es definieren. Ich habe das Gefühl, dass es so viele verschiedene "Definitionen" gibt , dass es schwierig ist, wirklich zu verstehen, was es ist, oder es anderen zu erklären, wenn kein allgemeiner Konsens darüber besteht, woraus es besteht.
Ich bin der Meinung, dass die von Candès bereitgestellte "Definition / Paradigma / Beschreibung" die naheliegendste Sache ist, der ich zustimme. Was sind Ihre Gedanken?
EDIT2: Ich bin der Meinung, dass die Antwort mehr als nur eine Erklärung der Daten selbst liefern sollte. Es sollte eine Kombination aus Daten / Methoden / Paradigma sein.
EDIT3: Ich bin der Meinung, dass dieses Interview mit Michael Jordan auch etwas zur Tabelle hinzufügen könnte.
EDIT4: Ich habe mich entschieden, die Antwort mit der höchsten Bewertung als die richtige zu wählen. Obwohl ich denke, dass alle Antworten etwas zur Diskussion beitragen und ich persönlich der Meinung bin, dass dies eher eine Frage des Paradigmas ist, wie wir Hypothesen erstellen und mit Daten arbeiten. Ich hoffe, dass diese Frage als Referenz für diejenigen dienen wird, die nach Big-Data suchen. Ich hoffe, dass die Wikipedia-Seite geändert wird, um das Mehrfachvergleichsproblem und die Kontrolle von FDR weiter zu betonen.
quelle
Antworten:
Ich hatte das Vergnügen, an einem Vortrag von Dr. Hadley Wickham von RStudio teilzunehmen. Er definierte es so, dass
Hadley glaubt auch, dass die meisten Daten zumindest auf überschaubare Probleme reduziert werden können und dass eine sehr kleine Menge tatsächlich echte Big Data ist. Er bezeichnet dies als "Big Data Mirage".
Folien finden Sie hier .
quelle
Ein Datensatz / Stream heißt Big Data, wenn er alle vier V erfüllt
Sofern dies nicht der Fall ist, kann der Datensatz nicht als Big Data bezeichnet werden.
Eine ähnliche Antwort von mir als Referenz.
Davon abgesehen als Datenwissenschaftler; Ich finde das Map-Reduce-Framework sehr schön. Teilen Sie Ihre Daten, ordnen Sie sie zu und die Ergebnisse des Mapper-Schritts werden in einem einzigen Ergebnis zusammengefasst. Ich finde dieses Framework wirklich faszinierend und wie es der Datenwelt zugute gekommen ist.
Und so gehe ich bei meiner täglichen Arbeit mit dem Datenproblem um:
Und so wird ein Datenexperiment durchgeführt:
Ja, es gibt Big-Data-Algorithmen wie Hyperloglog usw .; aber ich habe nicht die Notwendigkeit gefunden, sie zu benutzen.
Also ja. Die Daten werden zuerst gesammelt, bevor die Hypothese erstellt wird.
quelle
Ich denke, die einzig nützliche Definition von Big Data sind Daten, die alle Informationen zu einem bestimmten Phänomen katalogisieren . Damit meine ich, dass Big Data keine Stichproben aus einer interessierenden Population und keine Messungen an diesen Einheiten sammelt, sondern Messungen an der gesamten interessierenden Population. Angenommen, Sie sind an Amazon.com-Kunden interessiert. Es ist durchaus möglich, dass Amazon.com Informationen über alle Einkäufe seiner Kunden sammelt, anstatt nur einige Benutzer oder nur einige Transaktionen zu verfolgen.
Meiner Meinung nach sind Definitionen, die von der Speichergröße der Daten selbst abhängen, von begrenztem Nutzen. Nach dieser Metrik sind bei einem ausreichend großen Computer keine Daten tatsächlich große Daten. Im Extremfall eines unendlich großen Computers mag dieses Argument einschränkend erscheinen. Betrachten Sie jedoch den Fall eines Vergleichs meines Notebooks für Endverbraucher mit den Servern von Google. Natürlich hätte ich enorme logistische Probleme beim Versuch, ein Terabyte an Daten zu durchforsten, aber Google verfügt über die Ressourcen, um diese Aufgabe recht einfach zu bewältigen. Noch wichtiger ist, dass die Größe Ihres Computers keine intrinsische Eigenschaft der Daten ist. Die Definition der Daten ausschließlich in Bezug auf die von Ihnen verwendete Technologie entspricht einer Messung der Entfernung in Bezug auf die Länge Ihrer Arme.
Dieses Argument ist nicht nur ein Formalismus. Die Notwendigkeit für komplizierte Parallelisierungsschemata und verteilte Computerplattformen entfällt, sobald Sie über ausreichend Rechenleistung verfügen. Also , wenn wir die Definition akzeptieren , dass Big Data zu groß ist in den Arbeitsspeicher zu passen (oder stürzt Excel, oder was auch immer), dann , nachdem wir unsere Maschinen aktualisieren, hört Big Data zu existieren. Das scheint albern.
Aber schauen wir uns einige Daten zu Big Data an und nennen sie "Big Metadata". In diesem Blogbeitrag wird ein wichtiger Trend beobachtet: Der verfügbare Arbeitsspeicher steigt schneller als die Datenmenge und behauptet provokativ, dass "Big RAM Big Data frisst" - das heißt, mit einer ausreichenden Infrastruktur haben Sie kein Big-Data-Problem mehr, Sie haben es einfach Sie haben Daten und kehren zum Bereich der konventionellen Analysemethoden zurück.
Darüber hinaus weisen verschiedene Darstellungsmethoden unterschiedliche Größen auf, sodass nicht klar ist, was es bedeutet, "Big Data" in Bezug auf die Größe im Speicher zu definieren. Wenn Ihre Daten so aufgebaut sind, dass viele redundante Informationen gespeichert werden (dh Sie wählen eine ineffiziente Codierung), können Sie problemlos die Schwelle überschreiten, mit der Ihr Computer problemlos umgehen kann. Aber warum sollte eine Definition diese Eigenschaft haben? Ob es sich bei dem Datensatz um "Big Data" handelt oder nicht, sollte meines Erachtens nicht davon abhängen, ob Sie im Forschungsdesign effiziente Entscheidungen getroffen haben oder nicht.
Vom Standpunkt eines Praktikers aus sind Big Data, wie ich es definiere, auch mit Rechenanforderungen verbunden, aber diese Anforderungen sind anwendungsspezifisch. Das Durchdenken des Datenbankdesigns (Software, Hardware, Organisation) für Beobachtungen unterscheidet sich stark von dem für10 7104 107 Beobachtungen, und das ist völlig in Ordnung. Dies impliziert auch, dass Big Data, wie ich es definiere, möglicherweise keine spezielle Technologie benötigt, die über das hinausgeht, was wir in der klassischen Statistik entwickelt haben: Stichproben und Konfidenzintervalle sind immer noch nützliche und gültige Inferenzwerkzeuge, wenn Sie extrapolieren müssen. Lineare Modelle können durchaus akzeptable Antworten auf einige Fragen liefern. Aber Big Data, wie ich es definiere, erfordert möglicherweise eine neuartige Technologie. Vielleicht müssen Sie neue Daten in einer Situation klassifizieren, in der Sie mehr Prädiktoren als Trainingsdaten haben oder in der Ihre Prädiktoren mit Ihrer Datengröße wachsen. Diese Probleme erfordern eine neuere Technologie.
Abgesehen davon halte ich diese Frage für wichtig, da sie implizit darauf abzielt, warum Definitionen wichtig sind - das heißt, für wen definieren Sie das Thema. Eine Diskussion der Hinzufügung für Erstklässler beginnt nicht mit der Mengenlehre, sondern mit der Zählung physikalischer Objekte. Ich habe die Erfahrung gemacht, dass der Großteil des Begriffs "Big Data" in der populären Presse oder in der Kommunikation zwischen Personen verwendet wird, die keine Spezialisten für Statistik oder maschinelles Lernen sind (z. B. Marketingmaterialien für professionelle Analysen) die Idee zum Ausdruck bringen, dass moderne Computerpraktiken bedeuten, dass eine Fülle verfügbarer Informationen vorhanden ist, die genutzt werden können. Dies steht fast immer im Zusammenhang mit Daten, die Informationen über Verbraucher preisgeben, die, wenn auch nicht privat, nicht unmittelbar ersichtlich sind.
Die Konnotation und Analyse im Zusammenhang mit der allgemeinen Verwendung von "Big Data" geht daher auch mit dem Gedanken einher, dass Daten dunkle, verborgene oder sogar private Details des Lebens einer Person enthüllen können, vorausgesetzt, es wird eine ausreichende Inferenzmethode angewendet. Wenn die Medien über Big Data berichten, ist diese Verschlechterung der Anonymität in der Regel das, worauf sie abzielen. Die Definition des Begriffs "Big Data" erscheint in diesem Licht etwas irreführend, da die populäre Presse und Nichtspezialisten sich nicht um die Vorteile des Zufalls kümmern Wälder und Support-Vektor-Maschinen usw. kennen die Herausforderungen der Datenanalyse in verschiedenen Maßstäben nicht. Und das ist in Ordnung.Die Sorge aus ihrer Sicht konzentriert sich auf die sozialen, politischen und rechtlichen Folgen des Informationszeitalters. Eine genaue Definition für die Medien oder Nichtspezialisten ist nicht wirklich nützlich, da auch ihr Verständnis nicht genau ist. (Denken Sie nicht, dass ich selbstgefällig bin - ich beobachte nur, dass nicht jeder Experte in allem sein kann.)
quelle
Bei der Überprüfung der umfangreichen Literatur zu Big Data habe ich bis zu 14 "V" -Begriffe gesammelt, davon 13 in etwa elf Dimensionen:
Die 14. Amtszeit ist Vacuity. Laut einem kürzlich veröffentlichten provokanten Beitrag gibt es Big Data nicht . Die wichtigsten Punkte sind:
Eine korrekte Definition von Big Data würde sich mit Hardware, Software, Anforderungen und Wissen entwickeln und sollte wahrscheinlich nicht von einer festen Größe abhängen. Daher die Definition von Big Data: Die nächste Grenze für Innovation, Wettbewerb und Produktivität , Juni 2011:
quelle
Die Leute scheinen sich auf ein großes Qualifikationsmerkmal in Big Data zu fixieren . Die Größe ist jedoch nur eine der Komponenten dieses Begriffs (Domäne). Es reicht nicht aus, dass Ihre Datenmenge groß war , um Ihr Problem (Ihre Domain) als Big Data zu bezeichnen. Sie müssen auch Schwierigkeiten haben, sie zu verstehen, zu analysieren und sogar zu verarbeiten. Einige nennen diese Funktion unstrukturiert , aber es ist nicht nur die Struktur, sondern auch die unklare Beziehung zwischen verschiedenen Teilen und Elementen von Daten.
Betrachten Sie die Datensätze, die Hochenergiephysiker an Orten wie dem CERN verwenden . Sie haben jahrelang mit Daten in Petabyte-Größe gearbeitet, bevor der Begriff Big Data geprägt wurde. Aber selbst jetzt nennen sie diese großen Daten, soweit ich weiß, nicht. Warum? Da die Daten ziemlich regelmäßig sind, wissen sie, was sie damit anfangen sollen. Sie sind möglicherweise noch nicht in der Lage, jede Beobachtung zu erklären, daher arbeiten sie an neuen Modellen usw.
Jetzt nennen wir Big Data die Probleme, die mit Datensätzen zu tun haben, deren Größe in wenigen Sekunden vom LHC in CERN generiert werden könnte. Der Grund dafür ist, dass diese Datensätze in der Regel aus Datenelementen bestehen, die aus einer Vielzahl von Quellen mit unterschiedlichen Formaten, unklaren Beziehungen zwischen den Daten und ungewissem Wert für das Unternehmen stammen. Es könnte nur 1 TB groß sein, aber es ist so schwierig, Audio, Video, Texte, Sprache usw. zu verarbeiten. In Bezug auf die Komplexität und die benötigten Ressourcen übertrifft dies die Petabytes der CERN-Daten. Wir wissen nicht einmal, ob unsere Datensätze nützliche Informationen enthalten.
Daher umfasst das Lösen von Big-Data-Problemen das Parsen, Extrahieren von Datenelementen mit unbekanntem Wert und anschließendes Verknüpfen dieser Elemente. Das "Parsen" eines Bildes kann für sich genommen ein großes Problem sein. Angenommen, Sie suchen nach CCTV-Filmmaterial aus den Straßen der Stadt, um festzustellen, ob die Menschen wütender werden und ob es Auswirkungen auf die Verkehrsunfälle mit Fußgängern hat. Es gibt jede Menge Videos, man findet die Gesichter, versucht, ihre Stimmungen anhand von Ausdrücken zu messen und verknüpft diese dann mit der Anzahl der Unfalldatensätze, Polizeiberichte usw., während man gleichzeitig das Wetter (Niederschlag, Temperatur) und Verkehrsstaus kontrolliert. Sie benötigen die Speicher- und Analysetools, die diese großen Datenmengen unterschiedlicher Art unterstützen und die Daten effizient miteinander verknüpfen können.
Big Data ist ein komplexes Analyseproblem, bei dem die Komplexität sowohl von der Größe als auch von der Komplexität der darin enthaltenen Struktur und Informationskodierung herrührt.
quelle
Ich denke, der Grund, warum die Leute von Big Data verwirrt sind, ist, dass sie die Vorteile nicht erkennen. Der Wert von Big Data (Technik) hängt nicht nur von der Menge der Daten ab, die Sie erfassen können, sondern auch von der prädiktiven Modellierung, die letztendlich wichtiger ist:
Mehr Prädiktoren, da wir jetzt in der Lage sind, Daten zu erfassen, die zuvor nicht erfasst werden konnten (aufgrund der begrenzten Hardware-Leistung und der begrenzten Kapazität, mit den unstrukturierten Daten zu arbeiten). Mehr Prädiktoren bedeuten mehr Chancen auf signifikante Prädiktoren, dh ein besseres Modell, eine bessere Vorhersage und eine bessere Entscheidung für das Unternehmen.
Mehr Beobachtungen machen das Modell im Laufe der Zeit nicht nur robuster, sondern helfen dem Modell auch, alle möglichen Muster zu lernen / zu erkennen, die in der Realität dargestellt / erzeugt werden können.
quelle
Das Knifflige an Big Data im Vergleich zu seinem Antonyme (vermutlich Small Data?) Ist, dass es sich um ein Kontinuum handelt. Die Big-Data-Leute sind auf die eine Seite des Spektrums gegangen, die Small-Data-Leute auf die andere, aber es gibt keine klare Linie im Sand, auf die sich alle einigen können.
Ich würde Verhaltensunterschiede zwischen den beiden betrachten. In Situationen mit kleinen Daten haben Sie einen "kleinen" Datensatz, und Sie möchten, dass Sie so viele Informationen wie möglich aus jedem Datenpunkt herausholen, den Sie können. Erhalten Sie mehr Daten, können Sie mehr Ergebnisse erzielen. Es kann jedoch teuer werden, mehr Daten zu erhalten. Die gesammelten Daten sind häufig auf mathematische Modelle beschränkt, z. B. auf die Durchführung einer partiellen Fakultät von Tests, um nach interessanten Verhaltensweisen zu suchen.
In Big-Data-Situationen verfügen Sie über ein "großes" Dataset, Ihr Dataset ist jedoch in der Regel nicht so eingeschränkt. Normalerweise können Sie Ihre Kunden nicht davon überzeugen, ein lateinamerikanisches Möbelstück zu kaufen, nur um die Analyse zu vereinfachen. Stattdessen neigen Sie dazu, unzählige schlecht strukturierte Daten zu haben. Um diese Probleme zu lösen, besteht das Ziel in der Regel nicht darin, "die besten Daten auszuwählen und alles aus ihnen herauszuholen", wie man es vielleicht naiv versucht, wenn man an kleine Daten gewöhnt ist. Das Ziel ist in der Regel eher "Wenn Sie aus jedem einzelnen Datenpunkt nur ein kleines Stück herausholen können, ist die Summe riesig und tiefgreifend."
Dazwischen liegen die mittelgroßen Datensätze mit passender Struktur. Dies sind die "wirklich schwierigen Probleme". Daher gliedern wir uns derzeit in zwei Lager: eines mit kleinen Daten, die das letzte Stück herausholen, und das andere mit großen Daten, die versuchen, jeden Datenpunkt für sich wirken zu lassen richtig. Ich erwarte, dass im weiteren Verlauf mehr Prozesse mit kleinen Datenmengen versuchen, sich an größere Datenmengen anzupassen, und mehr Prozesse mit großen Datenmengen, um strukturiertere Daten zu nutzen.
quelle
Ich würde sagen, es gibt drei Komponenten, die für die Definition von Big Data wesentlich sind: die Richtung der Analyse, die Größe der Daten in Bezug auf die Grundgesamtheit und die Größe der Daten in Bezug auf Rechenprobleme.
Die Frage selbst besagt, dass Hypothesen entwickelt werden, nachdem Daten vorliegen. Ich verwende "gesammelt" nicht, weil ich denke, das Wort "gesammelt" impliziert einen Zweck und Daten existieren oft zu keinem bekannten Zweck. Das Sammeln erfolgt häufig in Big Data, indem vorhandene Daten im Dienst einer Frage zusammengeführt werden.
Ein zweiter wichtiger Teil ist, dass es nicht nur irgendwelche Daten gibt, für die eine Post-Hoc-Analyse, wie man es als explorative Analyse mit kleineren Datensätzen bezeichnen würde, geeignet ist. Es muss eine ausreichende Größe haben, von der angenommen wird, dass die daraus gesammelten Schätzungen den Bevölkerungsschätzungen nahe genug sind, dass viele kleinere Stichprobenprobleme ignoriert werden können. Aus diesem Grund bin ich ein wenig besorgt, dass es derzeit einen Vorstoß in Richtung mehrfacher Vergleichskorrekturen gibt. Wenn Sie die gesamte Bevölkerung hatten oder eine Annäherung, die Sie für berechtigt halten, ist, sollten solche Korrekturen streitig sein. Mir ist zwar klar, dass manchmal Probleme auftreten, die die "großen Datenmengen" tatsächlich in eine kleine Stichprobe verwandeln (z. B. große logistische Regressionen), aber es kommt darauf an, zu verstehen, was eine große Stichprobe für eine bestimmte Frage ist. Viele der mehreren Vergleichsfragen sollten stattdessen in Fragen zur Effektgröße umgewandelt werden. Und natürlich ist die ganze Idee, dass Sie Tests mit Alpha = 0,05 verwenden, wie es viele immer noch mit Big Data tun, einfach absurd.
Und schließlich qualifizieren sich kleine Bevölkerungsgruppen nicht. In einigen Fällen gibt es eine kleine Population, und man kann alle erforderlichen Daten sammeln, um sie sehr einfach zu untersuchen und die Erfüllung der ersten beiden Kriterien zu ermöglichen. Die Daten müssen so groß sein, dass sie zu einem Rechenproblem werden. Insofern müssen wir in gewisser Weise zugeben, dass "Big Data" ein vorübergehendes Schlagwort und möglicherweise ein Phänomen sein kann, das ständig auf der Suche nach einer strengen Definition ist. Einige der Dinge, die "Big Data" jetzt groß werden lassen, werden in wenigen Jahren verschwinden, und Definitionen wie die von Hadley, die auf der Computerkapazität basieren, werden kurios erscheinen. Auf einer anderen Ebene sind Rechenprobleme Fragen, die sich nicht mit der Computerkapazität oder möglicherweise mit der Computerkapazität befassen und die niemals gelöst werden können. Ich denke, dass in diesem Sinne die Probleme der Definition "
Man könnte bemerken, dass ich keine Beispiele oder festen Definitionen für ein hartes Rechenproblem für diese Domäne angegeben habe (es gibt eine Menge Beispiele im Allgemeinen in comp sci und einige zutreffende, auf die ich nicht näher eingehen werde). Ich will keine machen, weil ich denke, dass das etwas offen bleiben muss. Im Laufe der Zeit kommen die gesammelten Werke vieler Menschen zusammen, um solche Dinge leichter zu machen, zu diesem Zeitpunkt häufiger durch Softwareentwicklung als durch Hardware. Vielleicht muss das Feld vollständiger reifen, um diese letzte Anforderung fester zu machen, aber die Kanten sind immer unscharf.
quelle
Wikipedia bietet eine recht klare Definition
andere einfache Definition, die ich kenne, ist
Leider erinnere ich mich nicht daran, worauf es ankam. Alles andere ergibt sich aus diesen Definitionen - man muss irgendwie mit großen Datenmengen umgehen.
quelle
Ich möchte hinzufügen, dass Big Data ein Verweis darauf ist, entweder an großen Datenmengen (Millionen und / oder Milliarden von Zeilen) zu arbeiten oder Informationen / Muster zu breiten Datenressourcen zu finden, die Sie jetzt überall sammeln können.
quelle