"Big Data" ist in den Medien allgegenwärtig. Alle sagen, dass "Big Data" die große Sache für 2012 ist, z. B. die KDNuggets-Umfrage zu aktuellen Themen für 2012 . Ich habe hier jedoch tiefe Bedenken. Mit Big Data scheint jeder glücklich zu sein, nur etwas herauszubekommen. Aber verstoßen wir nicht gegen alle klassischen statistischen Prinzipien wie Hypothesentests und repräsentative Stichproben?
Solange wir nur Vorhersagen über denselben Datensatz treffen, sollte dies in Ordnung sein. Wenn ich also Twitter-Daten verwende, um das Nutzerverhalten von Twitter vorherzusagen, ist das wahrscheinlich in Ordnung. Durch die Verwendung von Twitter-Daten zur Vorhersage von z. B. Wahlen wird jedoch völlig vernachlässigt, dass die Twitter-Benutzer keine repräsentative Stichprobe für die gesamte Bevölkerung darstellen. Außerdem werden die meisten Methoden tatsächlich nicht in der Lage sein, zwischen einer echten "Basis" -Stimmung und einer Kampagne zu unterscheiden. Und Twitter steckt voller Kampagnen. Bei der Analyse von Twitter werden also schnell nur Kampagnen und Bots gemessen. (Siehe zum Beispiel "Yahoo prognostiziert Amerikas politische Gewinner"Das ist voller Umfragen und "Stimmungsanalysen sind viel besser". Sie sagten voraus, "Romney hat eine Wahrscheinlichkeit von über 90 Prozent, die Nominierung zu gewinnen und die Grundschule in South Carolina zu gewinnen" (er hatte 28%, während Gingrich 40% in dieser Grundschule hatte).
Wissen Sie, dass andere so große Datenmengen versagen ? Ich erinnere mich ungefähr, dass ein Wissenschaftler vorausgesagt hatte, dass Sie nicht mehr als 150 Freundschaften unterhalten könnten. Eigentlich hatte er bei friendster nur ein Limit entdeckt ...
Was Twitter-Daten oder eigentlich alle "Big Data" betrifft, die aus dem Internet gesammelt wurden, glaube ich, dass Menschen oft sogar zusätzliche Verzerrungen durch die Art und Weise, wie sie ihre Daten sammeln, hervorrufen. Nur wenige werden Twitter haben. Sie werden eine bestimmte Untergruppe haben, die sie entdeckt haben, und dies ist nur eine weitere Verzerrung in ihrem Datensatz.
Das Aufteilen der Daten in einen Testsatz oder das Durchführen einer Kreuzvalidierung hilft wahrscheinlich nicht viel. Der andere Satz hat die gleiche Vorspannung. Und für Big Data muss ich meine Informationen so stark "komprimieren", dass ich eher unwahrscheinlich überanpassungsfähig bin.
Ich habe kürzlich diesen Witz mit dem Big Data-Wissenschaftler gehört, der herausgefunden hat, dass es ungefähr 6 Geschlechter auf der Welt gibt ... und ich kann mir das nur so vorstellen ... "Männlich, Weiblich, Ork, Pelzartig, Ja und Nein".
Welche Methoden müssen wir also einsetzen, um die statistische Validität der Analyse wiederherzustellen, insbesondere wenn wir versuchen, etwas außerhalb des Big-Data-Datensatzes vorherzusagen?
quelle
Es gibt eine Reihe von Techniken in der Versuchsplanung und -analyse, die Ihnen dabei helfen können, Ihre Vorurteile zu verringern, aber auch dies läuft immer auf dasselbe hinaus: Man muss wissen, was man tut. Die Big-Data-Analyse hat das gleiche Problem wie jede andere Datenanalyse. es mangelt an Hypothesen.
Ein klares Beispiel ist die multiple Regression mit schrittweiser Variablenauswahl. Sehr schön, sagen, aber mit 100 Variablen gemessen statistische Gesetze vorschreiben , dass einige von ihnen wird eine signifikante Beziehung zeigen , wenn sie von der Suche , ob die jeweiligen Koeffizienten unterscheidet sich signifikant von Null bewertet. Je mehr Variablen sich in Ihrem Datensatz befinden, desto größer ist die Chance, zwei zu finden, die eine (bedeutungslose) Beziehung aufweisen. Und je größer Ihr Datenbestand ist, desto größer ist die Chance für bedeutungslose Modelle, z. B. aufgrund eines kleinen Störeffekts. Wenn Sie viele Modelle (und mit nur 10 Variablen, die eine ganze Reihe von Modellen sein können) testen, werden Sie mit hoher Wahrscheinlichkeit mindestens ein signifikantes Modell finden. Bedeutet es etwas? Nein.
Was soll man dann tun? Benutze dein Gehirn:
Diese Dinge sind alle offensichtlich und bekannt. Heck, bereits 1984 haben Rosenbaum und Rubin gezeigt , wie man Propensity-Scores verwendet, um Verzerrungen in Beobachtungsstudien zu reduzieren, und das sind die meisten großen Datensätze: Beobachtungsdaten. In neueren Arbeiten von Feng et al. Wird auch die Verwendung der Mahalanobis-Distanz befürwortet. Und tatsächlich schrieb einer meiner statistischen Helden, Cochran, bereits 1973 eine Rezension über dieses Problem! Oder was ist mit Rubin, der bereits 1979 multivariate Matched Sampling- und Regressionskorrekturen eingeführt hat? Alte Veröffentlichungen werden ernsthaft unterschätzt und viel zu oft ignoriert, sicherlich in einem Bereich wie der Statistik.
Alle diese Techniken haben Vor- und Nachteile, und man muss verstehen, dass das Reduzieren von Verzerrungen nicht dasselbe ist wie das Beseitigen von Verzerrungen. Aber wenn Sie wissen:
Big Data ist keine Entschuldigung für falsche Ergebnisse.
Bearbeitet nach der (korrekten) Bemerkung von @DW, die darauf hinwies, dass ich den Begriff "Überanpassung" in einem falschen Kontext verwendet habe.
quelle