Oder eher "wird es sein"? Big Data macht Statistiken und relevantes Wissen umso wichtiger, scheint aber die Stichprobentheorie zu unterschätzen.
Ich habe diesen Hype um 'Big Data' gesehen und frage mich, warum ich alles analysieren möchte . Gab es nicht einen Grund, warum "Sampling Theory" entworfen / implementiert / erfunden / entdeckt wurde? Ich verstehe es nicht, die gesamte "Population" des Datensatzes zu analysieren. Nur weil du es kannst, heißt das nicht, dass du es solltest (Dummheit ist ein Privileg, aber du solltest es nicht missbrauchen :)
Meine Frage lautet also: Ist es statistisch relevant, den gesamten Datensatz zu analysieren? Das Beste, was Sie tun können, ist, Fehler zu minimieren, wenn Sie eine Stichprobe machen. Aber lohnen sich die Kosten für die Minimierung dieses Fehlers wirklich? Lohnt sich der "Wert von Informationen" wirklich für die Mühe, die Zeitkosten usw., die bei der Analyse von Big Data auf massiv parallelen Computern anfallen?
Selbst wenn man die gesamte Bevölkerung analysiert, wäre das Ergebnis bestenfalls eine Vermutung mit einer höheren Wahrscheinlichkeit, richtig zu liegen. Wahrscheinlich ein bisschen höher als die Stichprobe (oder wäre es viel mehr?). Wären die Erkenntnisse aus der Analyse der Bevölkerung und der Analyse der Stichprobe sehr unterschiedlich?
Oder sollten wir es als "Zeiten haben sich geändert" akzeptieren? Sampling als Aktivität könnte bei ausreichender Rechenleistung an Bedeutung verlieren :)
Hinweis: Ich versuche nicht, eine Debatte zu beginnen, sondern suche nach einer Antwort, um zu verstehen, warum Big Data das tut, was es tut (dh alles analysiert), und die Theorie der Stichprobe zu ignorieren (oder nicht?).
Antworten:
Mit einem Wort, ja . Ich glaube, es gibt immer noch eindeutige Situationen, in denen Stichproben innerhalb und außerhalb der "Big Data" -Welt angemessen sind, aber die Art von Big Data wird unseren Ansatz für Stichproben zweifellos ändern, und wir werden mehr Datensätze verwenden, die nahezu vollständige Darstellungen des Basiswerts sind Population.
Zur Probenahme: Abhängig von den Umständen ist fast immer klar, ob eine Probenahme angebracht ist. Probenahme ist keine von Natur aus vorteilhafte Aktivität. Es ist genau das, was wir tun, weil wir Kompromisse bei den Kosten für die Implementierung der Datenerfassung eingehen müssen. Wir versuchen, Populationen zu charakterisieren und müssen die geeignete Methode zum Sammeln und Analysieren von Daten über die Bevölkerung auswählen. Stichprobenerfassung ist sinnvoll, wenn die Grenzkosten einer Methode zur Datenerfassung oder Datenverarbeitung hoch sind. Der Versuch, 100% der Bevölkerung zu erreichen, ist in diesem Fall keine gute Ressourcennutzung, da Sie häufig besser daran sind, Dinge wie Non-Response-Bias anzugehen, als den Zufallsstichprobenfehler geringfügig zu verbessern.
Wie unterscheidet sich Big Data? "Big Data" befasst sich mit vielen der Fragen, die wir seit langem hatten. Neu ist jedoch, dass die Datenerfassung über einen vorhandenen, computergestützten Prozess erfolgt. Die Grenzkosten für die Datenerfassung betragen daher im Wesentlichen null. Dies reduziert unseren Bedarf an Stichproben erheblich.
Wann verwenden wir noch Stichproben? Wenn Ihre "Big Data" -Population die richtige Population für das Problem ist, werden Sie nur in wenigen Fällen Stichproben verwenden: die Notwendigkeit, separate Versuchsgruppen zu erstellen, oder wenn das Datenvolumen für die Erfassung und Verarbeitung zu groß ist (viele) von uns können heutzutage Millionen von Datenzeilen mühelos verarbeiten, sodass die Grenze hier immer weiter herausragt. Wenn es so aussieht, als würde ich Ihre Frage ablehnen, ist dies wahrscheinlich darauf zurückzuführen, dass ich selten Situationen erlebt habe, in denen das Datenvolumen in der Erfassungs- oder Verarbeitungsphase ein Problem darstellte, obwohl ich weiß, dass dies viele sind
Die Situation, die mir schwierig erscheint, ist, wenn Ihre "Big Data" -Population nicht perfekt Ihre Zielpopulation darstellt, so dass die Kompromisse mehr Äpfel für Orangen sind. Nehmen wir an, Sie sind ein regionaler Transportplaner, und Google hat angeboten, Ihnen Zugriff auf seine Android-GPS-Navigationsprotokolle zu gewähren, um Ihnen zu helfen. Während der Datensatz zweifellos interessant zu verwenden wäre, wäre die Bevölkerung wahrscheinlich systematisch voreingenommen gegenüber einkommensschwachen Personen, Nutzern des öffentlichen Nahverkehrs und älteren Menschen. In einer solchen Situation könnten herkömmliche Reisetagebücher, die an eine zufällige Haushaltsstichprobe gesendet werden, die überlegene Methode zur Datenerfassung sein, auch wenn sie teurer und kleiner sind. Dies ist jedoch nicht nur eine Frage des "Samplings im Vergleich zu Big Data".
quelle
Es werden zwar verdammt viele Big Data-Daten von mobilen Geräten produziert, aber es sind nur wenige verwendbare Daten enthalten. Wenn Sie die städtischen Reisemuster mithilfe von foursquare vorhersagen möchten, können Sie bei den geschätzten Flüssen um eine Größenordnung abweichen. Schlimmer noch, Sie werden nicht wissen, ob Sie diese Ströme überschätzen oder unterschätzen. Sie können sich ein wahnsinnig genaues Bild von den städtischen Reisemustern manischer foursquare-Benutzer machen, aber es sei denn, jeder muss (1) ein funktionierendes Smartphone besitzen, (2) die foursquare-App ständig ausführen und (3) sich bei registrieren An jedem Ort, an dem sie sich länger als 10 Minuten aufhalten (z. B. eine elektronische Volkszählung durchführen lassen, damit sich Libertäre über Google und Facebook beschweren und alles über Sie wissen), enthalten Ihre Daten unbekannte Vorurteile und Ihre elektronischen Deweys besiegen weiterhin das wahre Wort Truman (anklickbar):
(Quelle: whatisasurvey.info )
Wenn überhaupt, würde ich davon ausgehen, dass sich dieses Stück Geschichte wiederholen wird, und einige große "Bier + Windeln" -Prognosen, die aus Big Data erstellt wurden, würden von Forschern, die strengere Stichprobenverfahren anwenden, auf den Kopf gestellt. Es ist überraschend, dass wahrscheinlichkeitsbasierte Umfragen trotz sinkender Rücklaufquoten immer noch präzise sind.
quelle
Wann immer man Techniken der statistischen Inferenz anwendet, ist es wichtig, klar zu machen, über welche Population man Schlussfolgerungen ziehen möchte. Auch wenn die gesammelten Daten sehr umfangreich sind, beziehen sie sich möglicherweise nur auf einen kleinen Teil der Bevölkerung und sind möglicherweise nicht sehr repräsentativ für das Ganze.
Angenommen, ein in einer bestimmten Branche tätiges Unternehmen hat über seine Kunden in einem bestimmten Land Big Data gesammelt. Wenn das Unternehmen diese Daten verwenden möchte, um Rückschlüsse auf seine bestehenden Kunden in diesem Land zu ziehen, ist die Stichprobenerhebung möglicherweise nicht sehr relevant. Wenn jedoch Rückschlüsse auf eine größere Population gezogen werden sollen - potenzielle sowie bestehende Kunden oder Kunden in einem anderen Land -, ist es wichtig zu prüfen, inwieweit die Kunden, über die Daten erhoben wurden, repräsentativ sind - möglicherweise in Bezug auf Einkommen, Alter , Geschlecht, Bildung usw. - der größeren Bevölkerung.
Die zeitliche Dimension muss ebenfalls berücksichtigt werden. Wenn das Ziel darin besteht, statistische Inferenz zur Unterstützung von Vorhersagen zu verwenden, muss die Bevölkerung so verstanden werden, dass sie sich in die Zukunft erstreckt. In diesem Fall muss erneut geprüft werden, ob der Datensatz, wie groß er auch sein mag, unter Umständen erstellt wurde, die repräsentativ für die zukünftigen sind.
quelle
Nach dem, was ich von der großen Daten- / ML-Begeisterung gesehen habe, ist es genauso wichtig wie immer, über Stichproben und die Population nachzudenken, aus der Ihre Stichprobe stammt - aber noch weniger.
Ich "auditiere" die Stanford ML-Klasse, und bis jetzt haben wir Regression und neuronale Netze mit keiner Erwähnung von Bevölkerungsinferenz behandelt. Da diese Klasse von 6 Personen besucht wurde, gibt es mittlerweile eine Menge Leute, die wissen, wie man Daten sehr gut anpasst, ohne die Idee einer Stichprobe zu kennen.
quelle
Ja, die Probenahme ist relevant und bleibt relevant. Fazit ist, dass die Genauigkeit einer statistischen Schätzung im Allgemeinen von der Stichprobengröße abhängt und nicht von der Grundgesamtheit, auf die wir verallgemeinern möchten. Ein Mittelwert oder ein durchschnittlicher Anteil, der aus einer Stichprobe von 1.000 Befragten berechnet wurde, ergibt somit eine Schätzung einer bestimmten Genauigkeit (in Bezug auf die gesamte Population, aus der wir die Stichprobe gezogen haben), unabhängig von der Bevölkerungsgröße (oder „wie groß“ die „ big data ”sind).
Dennoch: Es gibt spezifische Themen und Herausforderungen, die relevant sind und erwähnt werden sollten:
Sie können unsere 'Big Data Revolution' hier ansehen.
quelle
Viele Big-Data-Methoden basieren auf Stichproben.
Die Frage sollte eher lauten:
Viele der "Big Data" -Stücke sind noch ziemlich frisch und manchmal naiv. K-means zum Beispiel kann trivial parallelisiert werden und funktioniert somit für "Big Data" (ich werde nicht über die Ergebnisse sprechen, sie sind nicht sehr aussagekräftig und wahrscheinlich nicht sehr unterschiedlich zu den Ergebnissen einer Stichprobe!). Soweit ich weiß, ist dies das, was die Implementierung von k-means in Mahout bewirkt.
Die Forschung geht jedoch über die naive Parallelisierung hinaus (die möglicherweise noch eine große Anzahl von Iterationen erfordert) und versucht, K-Mittel in einer festgelegten Anzahl von Iterationen auszuführen. Beispiel dafür:
Ene, A. und Im, S. und Moseley, B.
Konferenzbeiträge der 17. internationalen ACM SIGKDD-Konferenz zu Knowledge Discovery und Data Mining, 2011
Und raten Sie mal, ihr Ansatz basiert stark auf Stichproben .
Nächstes Beispiel: Entscheidungswälder . Das heißt im Wesentlichen: Erstellen Sie für mehrere Stichproben aus dem Datensatz jeweils einen Entscheidungsbaum. Kann wieder trivial parallelisiert werden: Legen Sie jede Probe auf eine separate Maschine. Und wieder ist es ein stichprobenbasierter Ansatz.
Stichproben sind daher einer der Hauptbestandteile für Big-Data-Ansätze!
Und daran ist nichts auszusetzen.
quelle
Die Kreuzvalidierung ist ein spezielles Beispiel für die Teilstichprobe, die für ML / Big Data von großer Bedeutung ist. Im Allgemeinen ist Big Data immer noch eine Stichprobe einer Population, wie andere hier bereits erwähnt haben.
Ich denke jedoch, dass OP sich speziell auf Stichproben bezieht, da es sich auf kontrollierte Experimente im Vergleich zu Beobachtungsdaten bezieht. Normalerweise wird Big Data als letzteres angesehen, aber für mich gibt es zumindest Ausnahmen. Ich würde randomisierte Studien, A / B-Tests und Banditen mit mehreren Waffen in E-Commerce- und Social-Network-Umgebungen als Beispiele für "Stichproben in Big-Data-Umgebungen" betrachten.
quelle
In den Bereichen, in denen Big Data immer beliebter wird: Suche, Werbung, Empfehlungssysteme wie Amazon und Netflix, besteht ein sehr großer Anreiz, den gesamten Datensatz zu erkunden.
Ziel dieser Systeme ist es, Empfehlungen / Vorschläge auf jedes einzelne Mitglied der Bevölkerung abzustimmen. Auch die Anzahl der untersuchten Attribute ist enorm. Das durchschnittliche Webanalysesystem kann die Klickrate, das "thermische Verfolgen" der "heißen Bereiche" auf einer Seite, soziale Interaktionen usw. messen und diese mit einem großen Satz vorbestimmter Ziele abwägen.
Noch wichtiger ist, dass die meisten Orte, an denen Big Data mittlerweile allgegenwärtig ist, "Online" -Datenströme sind, dh, Daten werden ständig hinzugefügt / aktualisiert. Die Entwicklung eines Stichprobenplans, der alle diese Merkmale ohne inhärente Verzerrung abdeckt und dennoch vielversprechende Ergebnisse liefert (bessere Gewinnspannen), ist eine Herausforderung.
Die Stichprobenerhebung bleibt für Umfragen, medizinische Studien, A / B-Tests und die Qualitätssicherung weiterhin von hoher Relevanz.
Kurz gesagt, Stichproben sind sehr nützlich, wenn die zu untersuchende Population sehr groß ist und Sie an den makroskopischen Eigenschaften der Population interessiert sind. Eine 100% -ige Überprüfung (Big Data) ist erforderlich, um die mikroskopischen Eigenschaften des Systems zu nutzen
Hoffe das hilft :)
quelle