Was sind die Hauptunterschiede zwischen Daten mit geringer Dichte und fehlenden Daten? Und wie beeinflusst es das maschinelle Lernen? Genauer gesagt, welche Auswirkung haben spärliche Daten und fehlende Daten auf Klassifizierungsalgorithmen und Regressionsalgorithmen (Vorhersage von Zahlen). Ich spreche von einer Situation, in der der Prozentsatz fehlender Daten erheblich ist und wir die Zeilen mit den fehlenden Daten nicht löschen können.
machine-learning
dataset
missing-data
sparse
müde und gelangweilt dev
quelle
quelle
Antworten:
Zum besseren Verständnis beschreibe ich dies anhand eines Beispiels. Angenommen, Sie erfassen Daten von einem Gerät mit 12 Sensoren. Und Sie haben 10 Tage lang Daten gesammelt.
Die von Ihnen gesammelten Daten lauten wie folgt:
Dies wird als spärliche Daten bezeichnet, da die meisten Sensorausgaben Null sind. Das bedeutet, dass diese Sensoren ordnungsgemäß funktionieren, der tatsächliche Messwert jedoch Null ist. Obwohl diese Matrix hochdimensionale Daten (12 Achsen) enthält, kann gesagt werden, dass sie weniger Informationen enthält.
Angenommen, 2 Sensoren Ihres Geräts funktionieren nicht richtig.
Dann werden Ihre Daten wie folgt aussehen:
In diesem Fall können Sie feststellen, dass Sie keine Daten von Sensor1 und Sensor6 verwenden können. Entweder müssen Sie die Daten manuell eingeben, ohne die Ergebnisse zu beeinflussen, oder Sie müssen das Experiment wiederholen.
quelle