Ich denke darüber aus einer sehr einfachen Perspektive mit minimalen Anforderungen nach. Was sind die wichtigsten Theorien, die ein (nicht akademischer) Statistiker in der Branche regelmäßig kennen, verstehen und anwenden sollte?
Ein großer Gedanke ist das Gesetz der großen Zahlen . Was ist für die Anwendung der statistischen Theorie auf die Datenanalyse am wichtigsten?
Ehrlich gesagt, glaube ich nicht, dass das Gesetz der großen Zahlen in der Industrie eine große Rolle spielt. Es ist hilfreich, die asymptotischen Begründungen der gängigen Verfahren zu verstehen, z. B. Schätzungen und Tests der maximalen Wahrscheinlichkeit (einschließlich der allwichtigen GLMs und insbesondere der logistischen Regression), das Bootstrap, aber dies sind eher Verteilungsprobleme als die Wahrscheinlichkeit, dass Probleme mit einer schlechten Stichprobe auftreten .
Abgesehen von den bereits erwähnten Themen (GLM, Inferenz, Bootstrap) ist das häufigste statistische Modell die lineare Regression. Daher ist ein gründliches Verständnis des linearen Modells ein Muss. Sie werden vielleicht nie ANOVA in Ihrer Branche betreiben, aber wenn Sie es nicht verstehen, sollten Sie nicht als Statistiker bezeichnet werden.
Es gibt verschiedene Branchen. In Pharma können Sie nicht ohne randomisierte Studien und logistische Regression Ihren Lebensunterhalt verdienen. In der Umfragestatistik können Sie keinen Lebensunterhalt ohne Horvitz-Thompson-Schätzer und ohne Anpassungen durch Nichtbeantwortung verdienen. In der Statistik der Informatik können Sie nicht ohne statistisches Lernen und Data Mining Ihren Lebensunterhalt verdienen. In öffentlichen Think Tanks (und zunehmend auch in Bildungsstatistiken) kann man nicht ohne Schätzer für Kausalität und Behandlungseffekte (die zunehmend randomisierte Studien umfassen) leben. In der Marketingforschung müssen Sie über eine Mischung aus wirtschaftswissenschaftlichem Hintergrund und psychometrischer Messtheorie verfügen (und in einem typischen Angebot einer Statistikabteilung können Sie keines davon lernen). Die Industriestatistik arbeitet mit ihren eigenen Six-Sigma-Paradigmen, die aber nur entfernt mit der Mainstream-Statistik verbunden sind. Eine stärkere Bindung findet sich in der Gestaltung des Versuchsmaterials. Wall-Street-Material wäre Finanzökonometrie bis hin zur stochastischen Analysis. Dies sind SEHR unterschiedliche Fähigkeiten, und der Begriff "Industrie" ist noch schlechter definiert als "Wissenschaft". Ich glaube nicht, dass jemand behaupten kann, mehr als zwei oder drei der oben genannten Dinge gleichzeitig zu wissen.
Die wichtigsten Fähigkeiten, die in der Branche allgemein benötigt werden (was auch immer das für Sie bedeuten mag), sind Zeitmanagement, Projektmanagement und Kommunikation mit weniger statistisch versierten Kunden. Wenn Sie sich auf ein Industriepraktikum vorbereiten möchten, nehmen Sie an einer Business School an Kursen zu diesen Themen teil.
UPDATE: Der ursprüngliche Beitrag wurde im Februar 2012 geschrieben; In diesen Tagen (März 2014) sollten Sie sich wahrscheinlich eher als "Datenwissenschaftler" als als "Statistiker" bezeichnen, um einen heißen Job in der Industrie zu finden ... und besser Hadoop lernen, um dieser Selbstverkündigung zu folgen.
Gute Antwort. Vielen Dank, dass Sie einige der großen Unterschiede zwischen Statistikern in der Industrie hervorgehoben haben. Dies hilft mir, meine Frage zu motivieren, da ich glaube, dass viele Menschen eine andere Vorstellung davon haben, was ein Statistiker ist / tut. Ich denke, ich habe versucht herauszufinden, wo sich all diese Aspekte von einem Grundverständnis her überschneiden. Außerdem schätze ich Ihren letzten Absatz über Geschäftsthemen und wie wichtig diese sind. Tolle Punkte, aber ich würde immer noch gerne sehen, ob jemand dem Gespräch etwas hinzufügen kann, bevor er es annimmt.
bnjmn
Ich bin verwundert über diese "eigentümlichen Six Sigma-Paradigmen", "remote verbunden mit Mainstream-Statistik", mit denen Industrial Statistics operiert. Es scheint mir völlig orthodox zu sein, wenn man die terminologischen Unterschiede zwischen all diesen Teilbereichen beiseite lässt.
Scortchi - Wiedereinsetzung von Monica
4
@Scortchi, ehrlich gesagt konnte ich diese terminologischen Unterschiede nicht überwinden. Ich weiß auch, dass normale Approximationen in den Schwänzen fast unbrauchbar sind, also die 6-Sigma-Wahrscheinlichkeit10- 9kann um den Faktor 100 oder 1000
abweichen
Fair genug: Ich hätte gesagt, dass die Analyse von Messsystemen (Inter-Rater-Vereinbarung, Eichreproduzierbarkeits- und Wiederholbarkeitsstudien), statistische Prozesskontrolle, Zuverlässigkeitsanalyse (aka Überlebensanalyse) und experimentelles Design ((fraktioniert) faktorielle Designs, Antwort-Oberflächen-Methodik ) waren charakteristisch für die Industriestatistik.
Scortchi
12
Ich denke, ein gutes Verständnis der Probleme im Zusammenhang mit dem Bias-Varianz-Kompromiss . Die meisten Statistiker werden irgendwann einen Datensatz analysieren, der so klein ist, dass die Varianz eines Schätzers oder die Parameter des Modells so hoch sind, dass eine Verzerrung eine untergeordnete Rolle spielt.
da es den Praktizierenden erlaubt, sich anzunähern p-Werte in vielen Situationen, in denen es darauf ankommtp-Werte ist unlösbar. In diesem Sinne wäre es für jeden erfolgreichen Praktiker von Vorteil, im Allgemeinen mit dem Thema vertraut zu sein
Ich würde nicht sagen, dass dies dem Gesetz der großen Zahlen oder dem zentralen Grenzwertsatz sehr ähnlich ist, aber da Rückschlüsse auf die Kausalität oft von zentraler Bedeutung sind, sollte man wissen, wie Judea Pearl strukturierte Graphen verwendet, um die Kausalität zu modellieren mit. Es bietet einen Weg zu verstehen, warum sich experimentelle und Beobachtungsstudien in Bezug auf die von ihnen geleisteten kausalen Schlussfolgerungen unterscheiden, und Möglichkeiten, mit Beobachtungsdaten umzugehen. Für einen guten Überblick ist sein Buch hier .
Es gibt auch Rubins Counterfactuals-Framework; Es gibt auch strukturelle Gleichungsmodellierung und ökonometrische instrumentelle Variablentechniken ... einige davon sind in Mostly Harmless Econometrics beschrieben , einem der besten Statistikbücher, die von Nicht-Statistikern geschrieben wurden.
StasK
7
Ein solides Verständnis des zu behandelnden inhaltlichen Problems ist ebenso wichtig wie ein bestimmter statistischer Ansatz. Ein guter Wissenschaftler in der Branche kommt mit größerer Wahrscheinlichkeit als ein Statistiker ohne dieses Wissen zu einer vernünftigen Lösung für sein Problem. Ein Statistiker mit fundiertem Wissen kann helfen.
Die Delta-Methode, wie man die Varianz von bizarren Statistiken berechnet und deren asymptotische relative Effizienz findet, Änderungen von Variablen empfiehlt und Effizienzsteigerungen erklärt, indem man "das Richtige abschätzt". In Verbindung damit Jensens Ungleichung für das Verständnis von GLMs und seltsamen Arten von Voreingenommenheit, die bei Transformationen wie oben auftreten. Und nun, da Bias und Varianz erwähnt werden, das Konzept des Bias-Varianz-Kompromisses und der MSE als objektives Maß für die Vorhersagegenauigkeit.
Aus meiner Sicht ist statistische Inferenz für einen Praktiker am wichtigsten. Inferenz besteht aus zwei Teilen: 1) Schätzung und 2) Hypothesentest. Hypothesentests sind wichtig. Da in der Schätzung meist ein eindeutiges Verfahren, Maximum-Likelihood-Schätzung, befolgt wird und es das meiste statistische Paket gibt (also keine Verwechslung).
Häufige Fragen von Praktikern beziehen sich auf signifikante Tests von Unterschieden oder Ursachenanalysen. Wichtige Hypothesentests finden Sie in diesem Link .
Zur Interpretation der Kausalität sind Kenntnisse über lineare Modelle, GLM oder im Allgemeinen statistische Modelle erforderlich. Ich gehe davon aus, dass die Zukunft der Datenanalyse die Bayes'sche Inferenz umfasst.
Zufällige Folgerung ist ein Muss. Und wie man das grundlegende Problem angeht, kann man nicht in die Vergangenheit reisen und niemandem eine Behandlung geben. Lesen Sie Artikel über Rubin, den Begründer des modernen Statistikstudenten.) .... Was zu lernen ist, um dieses Problem anzugehen, richtige Randomisierung und wie das Gesetz der großen Zahlen besagt, dass die Dinge richtig randomisiert sind, Hypothesentests, mögliche Ergebnisse (gilt gegen die Annahme der Hetroskastik) und ist großartig bei Fehlzeiten), Matching (großartig bei Fehlzeiten, aber potenzielle Ergebnisse sind besser, weil es allgemeiner ist. Ich meine, warum sollte man eine Menge komplizierter Dinge lernen, wenn man nur eine komplizierte Sache lernen kann?), Bootstrap, natürlich Bayes'sche Statistik (Bayes'sche Regression) , naive Bayes'sche Regression, Bayes'sche Faktoren) und nicht papmetrische Alternativen.
Befolgen Sie in der Praxis normalerweise einfach die folgenden allgemeinen Schritte:
In Bezug auf einen vorherigen Kommentar sollten Sie generell zuerst mit einer ANOVA beginnen (zufällige Effekte oder feste Effekte und kontinuierliche Typen in Klassen umwandeln) und dann eine Regression verwenden (die beim Transformieren und Ändern manchmal so gut ist wie eine ANOVA, sie jedoch nie übertrifft). Um zu sehen, welche spezifischen Behandlungen von Bedeutung sind (wenn Sie einen Mehrfachtest durchführen und Korrekturen wie Holm-Methid anwenden), verwenden Sie eine Regression.
In den Fällen, in denen Sie Dinge vorhersagen müssen, verwenden Sie die Bayas-Regression.
Fehlzeiten von mehr als 5% nutzen mögliche Ergebnisse
Ein weiterer Zweig der Datenanalyse ist das betreute maschinelle Lernen, das erwähnt werden muss
Ich denke, ein gutes Verständnis der Probleme im Zusammenhang mit dem Bias-Varianz-Kompromiss . Die meisten Statistiker werden irgendwann einen Datensatz analysieren, der so klein ist, dass die Varianz eines Schätzers oder die Parameter des Modells so hoch sind, dass eine Verzerrung eine untergeordnete Rolle spielt.
quelle
Um das Super-Offensichtliche hervorzuheben:
Zentraler Grenzwertsatz
da es den Praktizierenden erlaubt, sich anzunähernp -Werte in vielen Situationen, in denen es darauf ankommtp -Werte ist unlösbar. In diesem Sinne wäre es für jeden erfolgreichen Praktiker von Vorteil, im Allgemeinen mit dem Thema vertraut zu sein
Bootstrapping
quelle
Ich würde nicht sagen, dass dies dem Gesetz der großen Zahlen oder dem zentralen Grenzwertsatz sehr ähnlich ist, aber da Rückschlüsse auf die Kausalität oft von zentraler Bedeutung sind, sollte man wissen, wie Judea Pearl strukturierte Graphen verwendet, um die Kausalität zu modellieren mit. Es bietet einen Weg zu verstehen, warum sich experimentelle und Beobachtungsstudien in Bezug auf die von ihnen geleisteten kausalen Schlussfolgerungen unterscheiden, und Möglichkeiten, mit Beobachtungsdaten umzugehen. Für einen guten Überblick ist sein Buch hier .
quelle
Ein solides Verständnis des zu behandelnden inhaltlichen Problems ist ebenso wichtig wie ein bestimmter statistischer Ansatz. Ein guter Wissenschaftler in der Branche kommt mit größerer Wahrscheinlichkeit als ein Statistiker ohne dieses Wissen zu einer vernünftigen Lösung für sein Problem. Ein Statistiker mit fundiertem Wissen kann helfen.
quelle
Die Delta-Methode, wie man die Varianz von bizarren Statistiken berechnet und deren asymptotische relative Effizienz findet, Änderungen von Variablen empfiehlt und Effizienzsteigerungen erklärt, indem man "das Richtige abschätzt". In Verbindung damit Jensens Ungleichung für das Verständnis von GLMs und seltsamen Arten von Voreingenommenheit, die bei Transformationen wie oben auftreten. Und nun, da Bias und Varianz erwähnt werden, das Konzept des Bias-Varianz-Kompromisses und der MSE als objektives Maß für die Vorhersagegenauigkeit.
quelle
Aus meiner Sicht ist statistische Inferenz für einen Praktiker am wichtigsten. Inferenz besteht aus zwei Teilen: 1) Schätzung und 2) Hypothesentest. Hypothesentests sind wichtig. Da in der Schätzung meist ein eindeutiges Verfahren, Maximum-Likelihood-Schätzung, befolgt wird und es das meiste statistische Paket gibt (also keine Verwechslung).
Häufige Fragen von Praktikern beziehen sich auf signifikante Tests von Unterschieden oder Ursachenanalysen. Wichtige Hypothesentests finden Sie in diesem Link .
Zur Interpretation der Kausalität sind Kenntnisse über lineare Modelle, GLM oder im Allgemeinen statistische Modelle erforderlich. Ich gehe davon aus, dass die Zukunft der Datenanalyse die Bayes'sche Inferenz umfasst.
quelle
Zufällige Folgerung ist ein Muss. Und wie man das grundlegende Problem angeht, kann man nicht in die Vergangenheit reisen und niemandem eine Behandlung geben. Lesen Sie Artikel über Rubin, den Begründer des modernen Statistikstudenten.) .... Was zu lernen ist, um dieses Problem anzugehen, richtige Randomisierung und wie das Gesetz der großen Zahlen besagt, dass die Dinge richtig randomisiert sind, Hypothesentests, mögliche Ergebnisse (gilt gegen die Annahme der Hetroskastik) und ist großartig bei Fehlzeiten), Matching (großartig bei Fehlzeiten, aber potenzielle Ergebnisse sind besser, weil es allgemeiner ist. Ich meine, warum sollte man eine Menge komplizierter Dinge lernen, wenn man nur eine komplizierte Sache lernen kann?), Bootstrap, natürlich Bayes'sche Statistik (Bayes'sche Regression) , naive Bayes'sche Regression, Bayes'sche Faktoren) und nicht papmetrische Alternativen.
Befolgen Sie in der Praxis normalerweise einfach die folgenden allgemeinen Schritte:
In Bezug auf einen vorherigen Kommentar sollten Sie generell zuerst mit einer ANOVA beginnen (zufällige Effekte oder feste Effekte und kontinuierliche Typen in Klassen umwandeln) und dann eine Regression verwenden (die beim Transformieren und Ändern manchmal so gut ist wie eine ANOVA, sie jedoch nie übertrifft). Um zu sehen, welche spezifischen Behandlungen von Bedeutung sind (wenn Sie einen Mehrfachtest durchführen und Korrekturen wie Holm-Methid anwenden), verwenden Sie eine Regression.
In den Fällen, in denen Sie Dinge vorhersagen müssen, verwenden Sie die Bayas-Regression.
Fehlzeiten von mehr als 5% nutzen mögliche Ergebnisse
Ein weiterer Zweig der Datenanalyse ist das betreute maschinelle Lernen, das erwähnt werden muss
quelle