Als «data-cleaning» getaggte Fragen

16
Daten in inkonsistentem Format in R bereinigen?

Ich beschäftige mich oft mit unordentlichen Umfragedaten, die eine Menge Aufräumarbeiten erfordern, bevor Statistiken erstellt werden können. Früher habe ich das "manuell" in Excel gemacht, manchmal mit Excel-Formeln und manchmal nacheinander. Ich begann, immer mehr dieser Aufgaben zu erledigen,...

13
Stand der Technik bei der Deduplizierung

Was sind die neuesten Methoden bei der Deduplizierung von Datensätzen? Die Deduplizierung wird manchmal auch als Datensatzverknüpfung, Entitätsauflösung, Identitätsauflösung, Zusammenführen / Löschen bezeichnet. Ich kenne zum Beispiel CBLOCK [1]. Ich würde mich freuen, wenn die Antworten auch...

12
Wie lassen sich Daten am besten umformen / umstrukturieren?

Ich bin wissenschaftlicher Mitarbeiter für ein Labor (ehrenamtlich). Ich und eine kleine Gruppe wurden mit der Datenanalyse für einen Datensatz aus einer großen Studie beauftragt. Leider wurden die Daten mit einer Art Online-App gesammelt und nicht so programmiert, dass die Daten in der am besten...

10
Automatische Datenbereinigung

Ein häufiges Problem ist, dass ML eine schlechte Datenqualität aufweist: Fehler in Merkmalswerten, falsch klassifizierte Instanzen usw. usw. Eine Möglichkeit, dieses Problem zu beheben, besteht darin, die Daten manuell durchzugehen und zu überprüfen. Gibt es jedoch andere Techniken? (Ich wette, es...