Unterschied zwischen fehlenden Daten und spärlichen Daten in Algorithmen für maschinelles Lernen

20

Was sind die Hauptunterschiede zwischen Daten mit geringer Dichte und fehlenden Daten? Und wie beeinflusst es das maschinelle Lernen? Genauer gesagt, welche Auswirkung haben spärliche Daten und fehlende Daten auf Klassifizierungsalgorithmen und Regressionsalgorithmen (Vorhersage von Zahlen). Ich spreche von einer Situation, in der der Prozentsatz fehlender Daten erheblich ist und wir die Zeilen mit den fehlenden Daten nicht löschen können.

müde und gelangweilt dev
quelle
4
Bei spärlichen Daten sind viele Werte Null, aber Sie wissen, dass sie Null sind. Fehlende Daten bedeuten, dass Sie einige oder viele der Werte nicht kennen .
Anna SdTC
Vielen Dank. Das dachte ich auch, wollte es aber bestätigen. Wie bereits erwähnt, möchte ich auch wissen, wie Datasets dieser Art im Allgemeinen bei Problemen mit maschinellem Lernen behandelt werden.
müde und gelangweilte Entwickler
1
Ich denke, dass Ihre Frage etwas vage ist. "Maschinelles Lernen" umfasst eine breite Palette von Methoden und Werkzeugen. Die Antwort hängt also davon ab, was Sie haben oder was Sie tun möchten. Hier diskutieren sie einige Methoden für den Umgang mit fehlenden Daten: stats.stackexchange.com/questions/103500/…
Anna SdTC
Vielen Dank. Mir ist eine breite Palette von Tools und Arten von ml-Algorithmen bekannt. Wollte aber wissen, ob es generelle Ansätze gibt.
müde und gelangweilt dev

Antworten:

16

Zum besseren Verständnis beschreibe ich dies anhand eines Beispiels. Angenommen, Sie erfassen Daten von einem Gerät mit 12 Sensoren. Und Sie haben 10 Tage lang Daten gesammelt.

Die von Ihnen gesammelten Daten lauten wie folgt: Bildbeschreibung hier eingeben

Dies wird als spärliche Daten bezeichnet, da die meisten Sensorausgaben Null sind. Das bedeutet, dass diese Sensoren ordnungsgemäß funktionieren, der tatsächliche Messwert jedoch Null ist. Obwohl diese Matrix hochdimensionale Daten (12 Achsen) enthält, kann gesagt werden, dass sie weniger Informationen enthält.

Angenommen, 2 Sensoren Ihres Geräts funktionieren nicht richtig.
Dann werden Ihre Daten wie folgt aussehen:Bildbeschreibung hier eingeben

In diesem Fall können Sie feststellen, dass Sie keine Daten von Sensor1 und Sensor6 verwenden können. Entweder müssen Sie die Daten manuell eingeben, ohne die Ergebnisse zu beeinflussen, oder Sie müssen das Experiment wiederholen.

Lahiru Karunaratne
quelle