Richtlinien für die Entdeckung neuen Wissens in Daten

Es gibt ein ganzes Gebiet der exploratorischen Datenanalyse (EDA) und ein ausgezeichnetes Buch zu diesem Thema namens Exploratory Data Analysis von John W. Tukey.

Ich mag es, dass Sie Diagramme verwenden - es gibt viele andere Diagramme, die abhängig von Ihren Daten nützlich sein können - wie viele Variablen? Welche Art sind die Variablen (kategorisch? Numerisch? Kontinuierlich? Anzahl? Ordinal?)

Ein Diagramm, das häufig für Daten mit mehreren Variablen nützlich ist, ist eine Streudiagrammmatrix.

Sie können nach verschiedenen Arten von Ausreißern suchen, die oft interessante Punkte sind.

Aber ich denke nicht, dass dieser ganze Prozess wirklich methodisch und wissenschaftlich gemacht werden kann - Erforschung ist das, was kommt, bevor die methodischen und wissenschaftlichen Ansätze eingebracht werden können. Hier denke ich, dass der Schlüsselaspekt Verspieltheit ist.

Peter Flom - Monica wieder einsetzen
quelle

(+1) Können Sie einen Link zu dem genannten Buch bereitstellen?

steffen

EDA aus dem Engineering and Statistics Handbook itl.nist.gov/div898/handbook/eda/eda.htm .

Selden

@ Peter Flom 13-Variablen werden durch Vergleichen von zwei Ausgabesätzen erzeugt, die von einem Programm erzeugt werden, das mit zwei Eingabesätzen ausgeführt wird. Das Programm wird regelmäßig ausgeführt. Variablen sind Ordnungszahl, Kategorie, Kategorie, Kategorie, Kategorie, Anzahl, Anzahl, Anzahl, Anzahl, numerisch, numerisch, Anzahl und Anzahl. Die Namen sind ID, MaschineA, EingabeA, MaschineB, EingabeB, neu, gleich, fehlend, neuP, fehlendP, LängeA, LängeB, PunktzahlA, PunktzahlB. Die Entscheidung, nur die aktuellste Ausgabe zu vergleichen, ist aber auch meine gute / schlechte Idee.

Selden

Das Buch heißt eigentlich Exploratory Data Analysis (nicht EDA) und stammt von John W. Tukey (mein Gedächtnis hat mich reingelegt, weil das Cover meiner Ausgabe mit EDA gekennzeichnet ist). Link: amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 /…

Peter Flom - Monica wieder einsetzen

@selden Nun, ID ist wahrscheinlich keine nützliche Variable. Zwischen zwei kategorialen Variablen können Sie Mosaikdiagramme anzeigen. zwischen einem kategorialen und einem numerischen, parallelen Boxplot kann gut sein.

Peter Flom - Reinstate Monica

Wenn Sie chronologische Daten zu Zeitreihendaten haben, gibt es "Bekannte" und die "Unbekannten" warten darauf, entdeckt zu werden. Wenn Sie beispielsweise eine Folge von Datenpunkten für 10 Zeiträume haben, z. B. 1,9,1,9,1,5,1,9,1,9, können Sie anhand dieses Beispiels vernünftigerweise 1,9,1,9 erwarten , ... in der Zukunft entstehen. Die Datenanalyse zeigt, dass es in Periode 6 einen "ungewöhnlichen" Messwert gibt, obwohl er innerhalb der + -3 Sigma-Grenzen liegt, was darauf hindeutet, dass die DGF nicht gehalten hat. Durch die Demaskierung des Inlier / Outlier können wir Dinge über die Daten preisgeben. Wir stellen auch fest, dass der Mittelwert nicht der erwartete Wert ist. Diese Idee erstreckt sich leicht auf die Erkennung von mittleren Verschiebungen und / oder lokalen Zeittrends, die vor der Analyse der Daten möglicherweise unbekannt waren (Hypothesengenerierung). Nun ist es durchaus möglich, dass die nächsten 10 Messwerte ebenfalls 1,9,1,9 sind, 1,5,1,9,1,9, was darauf hindeutet, dass die "5" nicht unbedingt ungünstig ist. Wenn wir einen Fehlerprozess anhand eines geeigneten Modells beobachten, das nachweislich eine nicht konstante Varianz aufweist, können wir einen der folgenden Naturzustände erkennen: 1) Die Parameter haben sich möglicherweise zu einem bestimmten Zeitpunkt geändert. 2. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. 9 deutet darauf hin, dass die "5" nicht unbedingt ungünstig ist. Wenn wir einen Fehlerprozess anhand eines geeigneten Modells beobachten, das nachweislich eine nicht konstante Varianz aufweist, können wir einen der folgenden Naturzustände erkennen: 1) Die Parameter haben sich möglicherweise zu einem bestimmten Zeitpunkt geändert. 2. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. 9 deutet darauf hin, dass die "5" nicht unbedingt ungünstig ist. Wenn wir einen Fehlerprozess anhand eines geeigneten Modells beobachten, das nachweislich eine nicht konstante Varianz aufweist, können wir einen der folgenden Naturzustände erkennen: 1) Die Parameter haben sich möglicherweise zu einem bestimmten Zeitpunkt geändert. 2. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. ist nicht unbedingt ungünstig. Wenn wir einen Fehlerprozess anhand eines geeigneten Modells beobachten, das nachweislich eine nicht konstante Varianz aufweist, können wir einen der folgenden Naturzustände erkennen: 1) Die Parameter haben sich möglicherweise zu einem bestimmten Zeitpunkt geändert. 2. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. ist nicht unbedingt ungünstig. Wenn wir einen Fehlerprozess anhand eines geeigneten Modells beobachten, das nachweislich eine nicht konstante Varianz aufweist, können wir einen der folgenden Naturzustände erkennen: 1) Die Parameter haben sich möglicherweise zu einem bestimmten Zeitpunkt geändert. 2. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. Wenn wir einen Fehlerprozess anhand eines geeigneten Modells beobachten, das nachweislich eine nicht konstante Varianz aufweist, können wir einen der folgenden Naturzustände erkennen: 1) Die Parameter haben sich möglicherweise zu einem bestimmten Zeitpunkt geändert. 2. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. Wenn wir einen Fehlerprozess anhand eines geeigneten Modells beobachten, das nachweislich eine nicht konstante Varianz aufweist, können wir einen der folgenden Naturzustände erkennen: 1) Die Parameter haben sich möglicherweise zu einem bestimmten Zeitpunkt geändert. 2. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. Möglicherweise ist eine gewichtete Analyse (GLS) erforderlich. 3. Möglicherweise müssen die Daten über eine Leistungstransformation transformiert werden. 4. Möglicherweise muss die Varianz der Fehler tatsächlich modelliert werden. Wenn Sie tägliche Daten haben, kann eine gute Analyse ergeben, dass um jeden Feiertag ein Antwortfenster (Lead-, Contemporary- und Lag-Struktur) vorhanden ist, das ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. zeitgleiche und verzögerte Struktur) um jeden Feiertag, die ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen. zeitgleiche und verzögerte Struktur) um jeden Feiertag, die ein konsistentes / vorhersehbares Verhalten widerspiegelt. Möglicherweise können Sie auch feststellen, dass bestimmte Tage im Monat einen signifikanten Effekt haben oder dass Freitage vor einem Montag Feiertag außergewöhnliche Aktivitäten aufweisen.

IrishStat
quelle

Richtlinien für die Entdeckung neuen Wissens in Daten

Antworten: