Ich werde versuchen, Ihre Fragen zu beantworten, aber bevor ich darauf hinweisen möchte, dass die Verwendung des Begriffs "großer Datensatz" irreführend ist, da "groß" ein relatives Konzept ist. Sie müssen weitere Details angeben. Wenn Sie mit Gebotsdaten arbeiten , wirkt sich diese Tatsache höchstwahrscheinlich auf die Auswahl der bevorzugten Tools , Ansätze und Algorithmen für Ihre Datenanalyse aus . Ich hoffe, dass meine folgenden Gedanken zur Datenanalyse Ihre Unterfragen ansprechen. Bitte beachten Sie, dass die Nummerierung meiner Punkte nicht mit der Nummerierung Ihrer Unterfragen übereinstimmt. Ich glaube jedoch, dass es den allgemeinen Datenanalyse-Workflow besser widerspiegelt , zumindest wie ich ihn verstehe.
1) Erstens denke ich, dass Sie zumindest eine Art konzeptionelles Modell im Auge haben müssen (oder besser auf dem Papier). Dieses Modell sollte Sie bei Ihrer explorativen Datenanalyse (EDA) unterstützen . Das Vorhandensein einer abhängigen Variablen (DV) im Modell bedeutet, dass Sie sich in Ihrer Phase des maschinellen Lernens (ML) später in der Analyse mit der sogenannten überwachten ML befassen, im Gegensatz zur unbeaufsichtigten ML, wenn keine identifizierte DV vorliegt.
2) Zweitens ist EDA ein entscheidender Teil. Meiner Meinung nach sollte EDA mehrere Iterationen zur Erstellung deskriptiver Statistiken und zur Datenvisualisierung enthalten , wenn Sie Ihr Verständnis für die Daten verfeinern. Diese Phase gibt Ihnen nicht nur wertvolle Einblicke in Ihre Datensätze, sondern auch Ihre nächste wichtige Phase - die Datenbereinigung und -transformation . Nur Ihre Rohdaten in ein statistisches Softwarepaket zu werfen, bringt nicht viel - für eine gültige statistische Analyse sollten die Daten sauber, korrekt und konsistent sein . Dies ist oft der zeit- und mühsamste, aber absolut notwendige Teil. Weitere Informationen zu diesem Thema finden Sie in den folgenden Artikeln:http://vita.had.co.nz/papers/tidy-data.pdf (von Hadley Wickham) und http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (von Edwin de Jonge und Mark van der Loo).
3) Nun, da Sie hoffentlich mit EDA sowie Datenbereinigung und -transformation fertig sind, können Sie einige weitere statistisch relevante Phasen beginnen. Eine dieser Phasen ist die explorative Faktoranalyse (EFA) , mit der Sie die zugrunde liegende Struktur Ihrer Daten extrahieren können. Bei Datensätzen mit einer großen Anzahl von Variablen ist der positive Nebeneffekt von EFA die Verringerung der Dimensionalität . In diesem Sinne ähnelt EFA der Hauptkomponentenanalyse (PCA).Bei anderen Ansätzen zur Reduzierung der Dimensionalität halte ich EFA für wichtiger, da es Ihnen ermöglicht, Ihr konzeptionelles Modell der Phänomene, die Ihre Daten "beschreiben", zu verfeinern und so Ihre Datensätze zu verstehen. Zusätzlich zu EFA können / sollten Sie natürlich eine Regressionsanalyse durchführen sowie Techniken des maschinellen Lernens anwenden , basierend auf Ihren Erkenntnissen in früheren Phasen.
Zum Schluss noch ein Hinweis zu Software-Tools . Meiner Meinung nach ist der aktuelle Stand der statistischen Softwarepakete so weit fortgeschritten, dass praktisch alle großen Softwarepakete in Bezug auf die Funktionen vergleichbare Angebote haben. Wenn Sie in einer Organisation zu studieren oder zu arbeiten , die bestimmte Richtlinien und Einstellungen in der Bezeichnung von Software - Tools haben, dann sind Sie gezwungen von ihnen. Wenn dies jedoch nicht der Fall ist, würde ich Open-Source- Statistiksoftware von Herzen empfehlen , basierend auf Ihrem Komfort mit der spezifischen Programmiersprache , der Lernkurve und Ihren Karriereperspektiven . Meine derzeitige Plattform der Wahl ist R Project, das ausgereifte, leistungsstarke, flexible, umfangreiche und offene Statistiksoftware sowie ein erstaunliches Ökosystem aus Paketen, Experten und Enthusiasten bietet. Andere gute Optionen sind Python , Julia und spezielle Open-Source-Software für die Verarbeitung von Big Data wie Hadoop , Spark , NoSQL- Datenbanken und WEKA . Weitere Beispiele für Open Source-Software für Data Mining , einschließlich allgemeiner und spezifischer Statistik- und ML-Software, finden Sie in diesem Abschnitt einer Wikipedia-Seite: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .
UPDATE: Ich habe vergessen, Rattle ( http://rattle.togaware.com ) zu erwähnen , eine sehr beliebte Open-Source-R-orientierte GUI-Software für Data Mining.
SPSS ist ein großartiges Tool, aber Sie können viel mit Ressourcen erreichen, die Sie bereits auf Ihrem Computer haben, wie Excel, oder die kostenlos sind, wie das R-Projekt. Obwohl diese Tools leistungsstark sind und Ihnen beim Erkennen von Mustern helfen können, müssen Sie Ihre Daten genau kennen, bevor Sie Analysen ausführen (ich würde empfehlen, beschreibende Statistiken zu Ihren Daten auszuführen und die Daten mit Diagrammen zu untersuchen, um sicherzustellen, dass alles vorhanden ist sieht normal aus). Mit anderen Worten, das von Ihnen verwendete Tool bietet keine "Silberkugel", da die Ausgabe nur so wertvoll ist wie die Eingabe (Sie kennen das Sprichwort ... "Müll rein, Müll raus"). Vieles von dem, was ich sage, wurde bereits in der Antwort von Aleksandr erwähnt - genau richtig.
R kann für diejenigen von uns eine Herausforderung sein, die sich mit Codierung nicht auskennen, aber die mit R und seinen Paketen verbundenen freien Ressourcen sind reichlich vorhanden. Wenn Sie das Erlernen des Programms üben, werden Sie schnell an Bodenhaftung gewinnen. Auch hier müssen Sie mit Ihren Daten und den Analysen vertraut sein, die Sie ohnehin ausführen möchten, und diese Tatsache bleibt unabhängig von den von Ihnen verwendeten statistischen Tools bestehen.
Ich würde mich zunächst sehr gut mit meinen Daten vertraut machen (befolgen Sie zunächst die Schritte in der Antwort von Aleksandr). Sie könnten John Foremans Buch Data Smart in die Hand nehmen. Es ist ein praktisches Buch, da John Datensätze bereitstellt und Sie seinen Beispielen (mithilfe von Excel) folgen, um verschiedene Methoden zum Navigieren und Erkunden von Daten zu erlernen. Für Anfänger ist es eine großartige Ressource.
quelle
Aleksandr hat eine sehr gründliche Erklärung gegeben, aber kurz sind dies die folgenden Schritte:
Daten extrahieren
Daten reinigen
Merkmalsextraktion
Gebäudemodelle
Ergebnisse ableiten
Ergebnisse veröffentlichen
Wiederholen Sie die Schritte 3,4,5 in einer Schleife, bis Sie die richtige Genauigkeit erhalten.
quelle
R hat PNC-Dialog-GUIs wie SPSS. Sie drucken R-Code, damit Sie lernen und ihre Bemühungen kombinieren können. Ich würde BlueSky für seine Dialoge für alles und Rasseln empfehlen. Diese Software eignet sich zwar hervorragend für EDA, Statistik und Visualisierung, maschinelles Lernen ist jedoch nicht gut.
quelle