Richtlinien für die Entdeckung neuen Wissens in Daten

9

Ich plane etwas, um mich selbst oder jemand anderen zu verdeutlichen. Normalerweise startet eine Frage diesen Prozess, und oft hofft die fragende Person auf eine bestimmte Antwort.

Wie kann ich weniger voreingenommen interessante Dinge über die Daten erfahren?

Im Moment folge ich ungefähr dieser Methode:

  1. Zusammengefasste Statistiken.
  2. Streifendiagramm.
  3. Streudiagramm.
  4. Vielleicht mit einer interessanten Teilmenge von Daten wiederholen.

Aber das scheint nicht methodisch oder wissenschaftlich genug zu sein.

Gibt es Richtlinien oder Verfahren, die Dinge über die Daten enthüllen, die ich nicht fragen würde? Woher weiß ich, wann ich eine angemessene Analyse durchgeführt habe?

Selden
quelle

Antworten:

6

Es gibt ein ganzes Gebiet der exploratorischen Datenanalyse (EDA) und ein ausgezeichnetes Buch zu diesem Thema namens Exploratory Data Analysis von John W. Tukey.

Ich mag es, dass Sie Diagramme verwenden - es gibt viele andere Diagramme, die abhängig von Ihren Daten nützlich sein können - wie viele Variablen? Welche Art sind die Variablen (kategorisch? Numerisch? Kontinuierlich? Anzahl? Ordinal?)

Ein Diagramm, das häufig für Daten mit mehreren Variablen nützlich ist, ist eine Streudiagrammmatrix.

Sie können nach verschiedenen Arten von Ausreißern suchen, die oft interessante Punkte sind.

Aber ich denke nicht, dass dieser ganze Prozess wirklich methodisch und wissenschaftlich gemacht werden kann - Erforschung ist das, was kommt, bevor die methodischen und wissenschaftlichen Ansätze eingebracht werden können. Hier denke ich, dass der Schlüsselaspekt Verspieltheit ist.

Peter Flom - Monica wieder einsetzen
quelle
(+1) Können Sie einen Link zu dem genannten Buch bereitstellen?
steffen
EDA aus dem Engineering and Statistics Handbook itl.nist.gov/div898/handbook/eda/eda.htm .
Selden
@ Peter Flom 13-Variablen werden durch Vergleichen von zwei Ausgabesätzen erzeugt, die von einem Programm erzeugt werden, das mit zwei Eingabesätzen ausgeführt wird. Das Programm wird regelmäßig ausgeführt. Variablen sind Ordnungszahl, Kategorie, Kategorie, Kategorie, Kategorie, Anzahl, Anzahl, Anzahl, Anzahl, numerisch, numerisch, Anzahl und Anzahl. Die Namen sind ID, MaschineA, EingabeA, MaschineB, EingabeB, neu, gleich, fehlend, neuP, fehlendP, LängeA, LängeB, PunktzahlA, PunktzahlB. Die Entscheidung, nur die aktuellste Ausgabe zu vergleichen, ist aber auch meine gute / schlechte Idee.
Selden
Das Buch heißt eigentlich Exploratory Data Analysis (nicht EDA) und stammt von John W. Tukey (mein Gedächtnis hat mich reingelegt, weil das Cover meiner Ausgabe mit EDA gekennzeichnet ist). Link: amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 /…
Peter Flom - Monica wieder einsetzen
@selden Nun, ID ist wahrscheinlich keine nützliche Variable. Zwischen zwei kategorialen Variablen können Sie Mosaikdiagramme anzeigen. zwischen einem kategorialen und einem numerischen, parallelen Boxplot kann gut sein.
Peter Flom - Reinstate Monica
1

Wenn Sie chronologische Daten zu Zeitreihendaten haben, gibt es "Bekannte" und die "Unbekannten" warten darauf, entdeckt zu werden. Wenn Sie beispielsweise eine Folge von Datenpunkten für 10 Zeiträume haben, z. B. 1,9,1,9,1,5,1,9,1,9, können Sie anhand dieses Beispiels vernünftigerweise 1,9,1,9 erwarten , ... in der Zukunft entstehen. Die Datenanalyse zeigt, dass es in Periode 6 einen "ungewöhnlichen" Messwert gibt, obwohl er innerhalb der + -3 Sigma-Grenzen liegt, was darauf hindeutet, dass die DGF nicht gehalten hat. Durch die Demaskierung des Inlier / Outlier können wir Dinge über die Daten preisgeben. Wir stellen auch fest, dass der Mittelwert nicht der erwartete Wert ist. Diese Idee erstreckt sich leicht auf die Erkennung von mittleren Verschiebungen und / oder lokalen Zeittrends, die vor der Analyse der Daten möglicherweise unbekannt waren (Hypothesengenerierung). Nun ist es durchaus möglich, dass die nächsten 10 Messwerte ebenfalls 1,9,1,9 sind, 1,5,1,9,1,9, was darauf hindeutet, dass die "5" nicht unbedingt ungünstig ist. Wenn wir einen Fehlerprozess anhand eines geeigneten Modells beobachten, das nachweislich eine nicht konstante Varianz aufweist, können wir einen der folgenden Naturzustände erkennen: 1) Die Parameter haben sich möglicherweise zu einem bestimmten Zeitpunkt geändert. 2. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. 9 deutet darauf hin, dass die "5" nicht unbedingt ungünstig ist. Wenn wir einen Fehlerprozess anhand eines geeigneten Modells beobachten, das nachweislich eine nicht konstante Varianz aufweist, können wir einen der folgenden Naturzustände erkennen: 1) Die Parameter haben sich möglicherweise zu einem bestimmten Zeitpunkt geändert. 2. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. 9 deutet darauf hin, dass die "5" nicht unbedingt ungünstig ist. Wenn wir einen Fehlerprozess anhand eines geeigneten Modells beobachten, das nachweislich eine nicht konstante Varianz aufweist, können wir einen der folgenden Naturzustände erkennen: 1) Die Parameter haben sich möglicherweise zu einem bestimmten Zeitpunkt geändert. 2. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. ist nicht unbedingt ungünstig. Wenn wir einen Fehlerprozess anhand eines geeigneten Modells beobachten, das nachweislich eine nicht konstante Varianz aufweist, können wir einen der folgenden Naturzustände erkennen: 1) Die Parameter haben sich möglicherweise zu einem bestimmten Zeitpunkt geändert. 2. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. ist nicht unbedingt ungünstig. Wenn wir einen Fehlerprozess anhand eines geeigneten Modells beobachten, das nachweislich eine nicht konstante Varianz aufweist, können wir einen der folgenden Naturzustände erkennen: 1) Die Parameter haben sich möglicherweise zu einem bestimmten Zeitpunkt geändert. 2. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. Wenn wir einen Fehlerprozess anhand eines geeigneten Modells beobachten, das nachweislich eine nicht konstante Varianz aufweist, können wir einen der folgenden Naturzustände erkennen: 1) Die Parameter haben sich möglicherweise zu einem bestimmten Zeitpunkt geändert. 2. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. Wenn wir einen Fehlerprozess anhand eines geeigneten Modells beobachten, das nachweislich eine nicht konstante Varianz aufweist, können wir einen der folgenden Naturzustände erkennen: 1) Die Parameter haben sich möglicherweise zu einem bestimmten Zeitpunkt geändert. 2. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. zeitgleiche und verzögerte Struktur) um jeden Feiertag, die ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. zeitgleiche und verzögerte Struktur) um jeden Feiertag, die ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen.

IrishStat
quelle
0

Die Datenerfassung kann in zwei Kategorien unterteilt werden. Wenn Sie daran interessiert sind, die Auswirkung eines Datensatzes / von Variablen auf eine bestimmte Variable zu messen, wird dies als überwachtes Lernen betrachtet. Für tiefes und exploratives Lernen ohne Ziel werden Sie unbeaufsichtigt lernen.

Die grafische Darstellung und statistische Analyse der Daten (Verstehen verstehen und Intuition erlangen) sind die ersten Schritte.

Moka
quelle