Gute Bücher über Datenvorverarbeitung und Techniken zur Erkennung von Ausreißern

11

Kennt jemand, wie der Titel schon sagt, ein gutes, aktuelles Buch, das die Datenvorverarbeitung im Allgemeinen und insbesondere Ausreißererkennungstechniken behandelt?

Das Buch muss sich nicht ausschließlich darauf konzentrieren, aber es sollte sich ausführlich mit den oben genannten Themen befassen - ich würde mich nicht über etwas freuen, das ein Ausgangspunkt ist, und eine Liste von Artikeln zitieren, in denen Erklärungen der verschiedenen Techniken erscheinen müssen das Buch selbst.

Techniken zum Umgang mit fehlenden Daten vorzuziehen, aber nicht notwendig ...

em70
quelle
Können Sie uns sagen, welche Art von Daten (wissenschaftliches Gebiet oder Messtechnik) Sie betrachten?
cbeleites unglücklich mit SX
Von Webbenutzern gesammelte Daten (können nicht spezifischer sein). Eingeschlossen sind Zeitstempel (obwohl die Daten zumindest intuitiv nicht streng zeitbezogen sind), kategoriale Attribute und fortlaufende Attribute. Ausreißer können aus unzähligen Gründen verursacht werden, inkl. Webroboter, böswillige Benutzer und viele weitere Quellen. Die Daten sind auch ziemlich groß (GBs im CSV-Format, mehrere Millionen Einträge)
em70
Für mich ist es spezifisch genug: Sie müssen sich nicht mit der Vorverarbeitung für chemische oder spektroskopische Datensätze
langweilen

Antworten:

3

Obwohl speziell für Stata, habe ich Scott Longs Buch " Der Workflow der Datenanalyse mit Stata" gefunden , das im Bereich der Datenverwaltung und -vorbereitung von unschätzbarem Wert ist. Der Autor gibt viele hilfreiche Ratschläge zu bewährten Methoden im Datenmanagement, z. B. Bereinigen und Archivieren von Daten, Überprüfen auf Ausreißer und Umgang mit fehlenden Daten.

Ciarán
quelle
2
Ich liebe dieses Buch auch, aber ich bin ein eingefleischter Stata-Benutzer, was das Datenmanagement betrifft. Während ich nicht einverstanden bin, haben andere auf dieser Liste argumentiert, dass es zu stata-spezifisch ist, um nützlich zu sein, also Vorbehalt Emptor / Lektor.
Dimitriy V. Masterov
Sehr stata-ish von dem, was ich sammle, und ich bin weder mit stata vertraut, noch würde es für genau dieses Projekt helfen, wenn ich wäre (Daten sind zu groß, mit verschiedenen Technologien)
em70
Das Buch ist in der Tat sehr eigenwillig. Die speziellen Daten- (und insbesondere Metadaten-) Verarbeitungstechniken sind stata-spezifisch, aber die allgemeinen Ideen sind zwischen Plattformen übertragbar. Ich bin überrascht, dass es bei einem Verhältnis von etwa 20 Stata-Büchern zu 100 R-Büchern auf dem Markt keine vergleichbaren Bücher zur Organisation des Workflows in R gibt - ist letzteres unmöglich? Die größte Speichermenge, an die ich mich lebhaft erinnere, als ich Stata zugewiesen habe, war 48 GB auf einem 64-GB-Computer - ob die Größe wichtig ist. Wenn Sie Objekte mit einer völlig anderen Struktur bearbeiten müssen, möchten Sie dies in R und nicht in Stata tun.
StasK
0

Für SAS gibt es Ron Codys Datenbereinigungstechniken mit SAS-Software . Auf SAS-L steht ein Sprichwort: "Mit einem Buch von Ron Cody kann man nichts falsch machen."

Peter Flom - Monica wieder einsetzen
quelle
Ich fürchte, SAS ist in meiner Umgebung weder das Werkzeug der Wahl, noch bin ich damit vertraut. Außerdem suche ich eher nach einem Ansatz als nach einem Kochbuch. Nehmen wir an, ich bin auf der Suche nach etwas, das mehr auf der mathematischen und modellierenden Seite der Dinge liegt.
Em70
0

Wenn Sie die Grundlagen (Identifizieren von Ausreißern, fehlende Werte, Gewichtung, Codierung) je nach Thema haben, finden Sie in der einfachen akademischen Literatur viel mehr. Zum Beispiel gibt es in der Umfrageforschung (ein Thema, bei dem viele Dinge schief gehen können und das zu vielen Ursachen von Voreingenommenheit neigt) viele gute Artikel.

Bei der Vorbereitung auf eine regelmäßige Querschnittsregression sind die Dinge möglicherweise weniger komplex. Das Problem kann beispielsweise sein, dass Sie zu viele Ausreißer entfernen und so Ihr Modell künstlich gut anpassen.

Ich empfehle Ihnen daher neben dem Erlernen guter Techniken auch, den gesunden Menschenverstand im Auge zu behalten. Stellen Sie sicher, dass Sie die Techniken richtig und nicht blind anwenden. Wie für die Software-Diskussion in den anderen Antworten. Ich denke, SPSS ist nicht schlecht für die Datenaufbereitung (ich habe auch gute Dinge über SAS gehört), abhängig von Ihrer Datensatzgröße. Die Dropdown-Menüs sind sehr intuitiv.

Als direkte Antwort auf Ihre Frage kann akademische Literatur je nach Thema und Analyse eine sehr gute Quelle für Ihre Datenaufbereitung sein oder auch nicht.

C. Pieters
quelle