Ich arbeite im Bereich Data Mining und habe nur sehr wenig formale Ausbildung in Statistik absolviert. In letzter Zeit habe ich viele Arbeiten gelesen, die sich auf Bayes'sche Paradigmen für Lernen und Bergbau konzentrieren, was ich sehr interessant finde.
Meine Frage ist (in mehreren Teilen), ob es angesichts eines Problems einen allgemeinen Rahmen gibt, anhand dessen es möglich ist, ein statistisches Modell zu erstellen. Was tun Sie als Erstes, wenn Sie einen Datensatz erhalten, von dem Sie den zugrunde liegenden Prozess modellieren möchten? Gibt es gute Bücher / Tutorials, die diesen Prozess erklären, oder ist es eine Frage der Erfahrung? Steht bei der Erstellung Ihres Modells die Schlussfolgerung im Vordergrund oder möchten Sie zunächst die Daten beschreiben, bevor Sie sich Gedanken darüber machen, wie Sie sie für die Berechnung verwenden sollen?
Jeder Einblick wäre sehr dankbar! Vielen Dank.
quelle
Antworten:
In der Statistik beginnen Sie wie in Data Mining mit Daten und einem Ziel. In der Statistik liegt ein großer Schwerpunkt auf Inferenz, dh der Beantwortung von Fragen auf Bevölkerungsebene anhand einer Stichprobe. Beim Data Mining liegt der Schwerpunkt normalerweise auf der Vorhersage: Sie erstellen aus Ihrer Stichprobe ein Modell (Trainingsdaten), um die Testdaten vorherzusagen.
Der Prozess in der Statistik ist dann:
Untersuchen Sie die Daten mithilfe von Zusammenfassungen und Grafiken. Je nachdem, wie datengesteuert der Statistiker ist, sind einige aufgeschlossener und betrachten die Daten aus allen Blickwinkeln, während andere (insbesondere Sozialwissenschaftler) die Daten durch die Linse des betrachten Frage von Interesse (z. B. insbesondere die interessierenden Variablen und nicht andere)
Wählen Sie eine geeignete statistische Modellfamilie (z. B. lineare Regression für ein kontinuierliches Y, logistische Regression für ein binäres Y oder Poisson für Zähldaten) und führen Sie die Modellauswahl durch
Schätzen Sie das endgültige Modell
Testen Sie die Modellannahmen, um sicherzustellen, dass sie angemessen erfüllt werden (anders als beim Testen auf Vorhersagegenauigkeit beim Data Mining).
Verwenden Sie das Modell für die Inferenz - dies ist der Hauptschritt, der sich vom Data Mining unterscheidet. Das Wort "p-Wert" kommt hier an ...
Werfen Sie einen Blick auf ein Lehrbuch mit grundlegenden Statistiken und finden Sie ein Kapitel über explorative Datenanalyse, gefolgt von einigen Verteilungen (die bei der Auswahl vernünftiger Näherungsmodelle helfen), dann Inferenzmodellen (Konfidenzintervalle und Hypothesentests) und Regressionsmodellen.
Ich habe Ihnen den klassischen statistischen Prozess beschrieben. Ich habe jedoch viele Probleme damit. Der Fokus auf Inferenz hat die Felder vollständig dominiert, während die Vorhersage (die äußerst wichtig und nützlich ist) nahezu vernachlässigt wurde. Wenn Sie sich außerdem ansehen, wie Sozialwissenschaftler Statistiken für Schlussfolgerungen verwenden, werden Sie feststellen, dass sie diese ganz anders verwenden! Mehr dazu erfahren Sie hier
quelle
In Bezug auf Bücher ist "The Elements of Statistical Learning" von Hastie, Tibshirani und Friedman sehr gut.
Das vollständige Buch ist auf der Website der Autoren verfügbar . Vielleicht möchten Sie einen Blick darauf werfen, ob es überhaupt für Ihre Bedürfnisse geeignet ist.
quelle
Für (Online-) Referenzen würde ich empfehlen, Andrew Moores Tutorial-Folien zu Statistical Data Mining zu lesen .
Es gibt viele Lehrbücher zum Thema Data Mining und maschinelles Lernen. Ein guter Ausgangspunkt sind vielleicht Principles of Data Mining von Hand et al. und Introduction to Machine Learning von Alpaydin.
quelle
Das beste einführende Bayes'sche Buch, das ich gefunden habe, ist Data Analysis - A Bayesian Tutorial . Es ist sehr praktisch.
quelle