Statistische Intuition / Datensinn

20

Ich studiere im zweiten Studienjahr Mathematik und habe mit einem meiner Professoren viel über den Unterschied zwischen mathematischen und statistischen Fähigkeiten gesprochen. Einer der Hauptunterschiede, den er ansprach, war "Datensinn", den er als Kombination von technischen Fähigkeiten erklärte, während er innerhalb einer Reihe von, wie ich informell nenne, "gesunden Menschenverstand" -Restraints operierte, dh die Realität des Problems nicht aus den Augen verlor viel Theorie. Dies ist ein Beispiel für das, worüber ich gesprochen habe, das auf Gowers 'Blog erschien:

In mehreren Teilen des Vereinigten Königreichs sammelte die Polizei Statistiken darüber, wo Verkehrsunfälle stattfanden, identifizierte Unfallschwerpunkte, stellte dort Radarkameras auf und sammelte weitere Statistiken. Es gab eine deutliche Tendenz, dass die Anzahl der Unfälle an diesen schwarzen Flecken sank, nachdem die Radarkameras installiert worden waren. Zeigt dies schlüssig, dass Radarkameras die Verkehrssicherheit verbessern?

Die gleiche Person, die im Verhandlungsspiel für die randomisierte Strategie argumentierte, kannte die Antwort auf diese Frage im Grunde schon. Er sagte nein, denn wenn Sie die Extremfälle herausgreifen, würden Sie erwarten, dass sie weniger extrem sind, wenn Sie das Experiment erneut durchführen. Ich habe mich entschlossen, diese Frage schnell zu beantworten, da nicht viel mehr zu sagen war. Aber ich erzählte den Leuten von einem Plan, den ich gehabt hatte und der darin bestand, ein falsches Telepathieexperiment durchzuführen. Ich würde sie veranlassen, die Ergebnisse von 20 Münzwürfen zu erraten, die ich ihnen telepathisch zu übermitteln versuchen würde. Ich wählte dann die drei besten und die drei schlechtesten Künstler aus und warf die Münzen erneut. Diesmal bat ich die besten, mir dabei zu helfen, die Antworten auf die schlechtesten zu strahlen. Die Leute konnten leicht erkennen, dass die Leistungen sich verbessern würden und dass es nichts mit Telepathie zu tun haben würde.

Was ich frage, ist, wie ich mehr über diesen "Datensinn" erfahren kann , durch Veröffentlichungen zu diesem Thema, falls vorhanden, oder durch das, was andere Benutzer bei der Entwicklung dieser Fähigkeit als hilfreich empfunden haben. Es tut mir leid, wenn diese Frage geklärt werden muss. wenn ja, bitte posten Sie Ihre Fragen! Vielen Dank.

Moderat
quelle
Der Umgang mit Statistiken ist ein guter Anfang.
MånsT
Der Drunkard's Walk ordnet Statistiken auch in ein zugängliches, vernünftiges Framework ein.
Marcus Morrisey

Antworten:

10

Ich würde zuerst sagen, dass wir die Mathematik nicht beleuchten sollten. Es ist ein wichtiges Werkzeug in der Entwicklung der statistischen Theorie und statistische Methoden sind theoretisch gerechtfertigt. Die Theorie sagt Ihnen auch, was falsch ist und welche Techniken besser sein könnten (z. B. effizienter). Daher denke ich, dass mathematische Kenntnisse und Denken wichtig (fast notwendig) sind, um ein guter Statistiker zu sein. Es reicht aber definitiv nicht aus. Ich finde die Bücher, auf die in Kommentaren verwiesen wird, gut. Lass mich ein paar andere geben.

Sinn machen für Daten: Ein praktischer Leitfaden für explorative Datenanalyse und Data Mining

Sinn machen für Daten II: Ein praktischer Leitfaden für Datenvisualisierung, erweiterte Data Mining-Methoden und Anwendungen

Statistisches Denken: Verbesserung der Geschäftsleistung

Die Rolle der Statistik in Wirtschaft und Industrie

Eine Karriere in der Statistik: Jenseits der Zahlen

Die Bücher von Hahn und Snee sind besonders wertvoll und interessant, weil sie berühmte Industriestatistiker mit mathematischen Fähigkeiten und praktischer Erfahrung sind.

Michael R. Chernick
quelle
7
Danke für die Links und den Kommentar. Ich denke, dass Antworten im Allgemeinen durch die Verwendung des [manuscript title](uri) Link-Markdowns verbessert werden können . Nach einem langen Tag finde ich, dass Antworten mit langen Hyperlinks unbewusst verwirrend sein können und einen Leser leider gegen eine ansonsten gute Antwort aufbringen könnten.
Jthetzel
@jthetzel Ich kann sehen, warum es besser ist, einen Namen zu haben, der die URL in einem Link ersetzt. Wenn ich Zeit habe, werde ich lernen, es zu tun. Ich weiß, dass es einfach ist. Aber ich habe drei oder vier Links gegeben. Es dauert fast keine Zeit, auf den Link zu klicken und zu sehen, was es ist. Deshalb verstehe ich nicht wirklich, warum so viele Community-Mitglieder eine große Sache darüber machen.
Michael R. Chernick
6

In dem Beispiel, das Sie erwähnen, ist das Kernproblem die kausale Folgerung. Ein guter Ausgangspunkt für eine kausale Folgerung ist diese dreifache Rezension von Andrew Gelman und die darin besprochenen Bücher. Zusätzlich zum Erlernen der kausalen Folgerung sollten Sie den Wert der explorativen Datenanalyse, -beschreibung und -vorhersage kennenlernen.

Ich habe unglaublich viel gelernt, indem ich gehört habe, wie Sozialwissenschaftler in veröffentlichten Arbeiten, Blogs , Seminaren und in persönlichen Gesprächen die Forschung des anderen kritisieren - es gibt viele Möglichkeiten zu lernen. Folgen Sie dieser Site und Andrew Gelmans Blog.

Wenn Sie Daten erfassen möchten, müssen Sie natürlich üben, mit realen Daten zu arbeiten. Es gibt allgemeine Datenerfassungsfähigkeiten, aber es gibt auch Datenerfassungsfähigkeiten, die für einen bestimmten Problembereich spezifisch sind, oder, noch spezieller, Datenerfassungsfähigkeiten, die für einen bestimmten Datensatz spezifisch sind.

Michael Bishop
quelle
5

Eine nette, kostenlose Ressource ist das Chance News Wiki . Es gibt viele Beispiele aus realen Beispielen sowie Diskussionen über gute und schlechte Aspekte bei der Interpretation von Daten und Statistiken. Oft gibt es auch Diskussionsfragen (ein Teil der Motivation des Anblicks besteht darin, Lehrern von Statistiken Beispiele aus der Praxis zu geben, die sie mit den Schülern diskutieren können).

Greg Snow
quelle
5

+1 für eine tolle Frage! (Und +1 an alle bisherigen Antwortenden.)

Ich denke, es gibt so etwas wie Datensinn, aber ich glaube nicht, dass etwas Mystisches daran ist. Die Analogie, die ich verwenden würde, ist zum Fahren. Wenn Sie die Straße hinunterfahren, wissen Sie nur , was mit den anderen Autos los ist. Sie wissen zum Beispiel, dass der Typ vor Ihnen auf der Seite nach dem Straßenschild sucht, an dem er abbiegen soll, obwohl er seinen Blinker nicht benutzt. Sie erkennen den langsamen, übervorsichtigen Fahrer automatisch und antizipieren, wie er in verschiedenen Situationen reagiert. Sie können den Teenager erkennen, der nur so schnell fahren möchte, wie er kann. Sie haben ein erkennungsbasiertes Gespür dafür, was alle Autos tun. Dies ist genau das Gleiche wie der Datensinn. Es kommt aus Erfahrung, vielevon Erfahrung. Wenn Sie genug über die Theorie wissen, müssen Sie nur anfangen, mit echten Datensätzen zu spielen. Vielleicht möchten Sie eine Site wie DASL erkunden . Eine Bedingung ist jedoch, dass Sie nicht nur Erfahrung mit dem Laden eines Datasets, dem Ausführen eines Tests und dem Abrufen eines p-Werts sammeln sollten. Sie müssen die Daten untersuchen, sie wahrscheinlich auf unterschiedliche Weise darstellen, einige Modelle anpassen und darüber nachdenken, was los ist. (Beachten Sie, dass EDA hier ein roter Faden war.)

Eine möglicherweise nicht offensichtliche Tatsache über diesen Prozess ist, dass die Datenerfassung auf einen bestimmten Themenbereich lokalisiert werden kann. Sie könnten zum Beispiel viel Erfahrung mit experimentellen Daten und ANOVAs sammeln, aber nicht unbedingt ein gutes Gefühl dafür haben, was passiert, wenn Sie sich Zeitreihendaten oder Überlebensdaten ansehen.

Lassen Sie mich noch eine Strategie hinzufügen, die mir enorm geholfen hat: Ich denke, es lohnt sich, ein wenig (statistisches) Programmieren zu lernen. Sie müssen nicht schrecklich gut darin sein (ich bin dafür bekannt, "komisch ineffizienten" Code zu schreiben). Sobald Sie jedoch einen grundlegenden Prozedurcode schreiben können (etwa in R), können Sie simulieren . Es fällt mir schwer zu betonen, wie hilfreich es ist, selbst sehr einfache Simulationen durchführen zu können. Eine Sache, für die Sie dies verwenden können, ist, dass Sie im Verlauf Ihres Studiums etwas über ein Grundstück lesen, das Sie erkunden können. Wenn Sie beispielsweise (abstrakt) wissen, dass es schwierig ist, empirisch zu bestimmen, ob ein Logit- oder ein Probit-Modell für einen Datensatz besser ist, können Sie einfache Simulationen davon codierenund spielen Sie mit ihnen, um die Idee besser zu verstehen. Auf diese Weise erhalten Sie auch Erfahrungen, die jedoch etwas anders sind, und Sie können Ihr Datensinngefühl verbessern.

gung - Wiedereinsetzung von Monica
quelle
+1 Um den Wert des Lernens aus Simulationen hervorzuheben.
whuber