Erkennung menschlicher Aktivitäten unter Verwendung eines Smartphone-Datensatzproblems

Ich bin neu in dieser Community und hoffe, dass meine Frage hier gut passt. Im Rahmen meines Bachelor-Studiengangs Datenanalyse habe ich mich für das Projekt zur Erkennung menschlicher Aktivitäten mithilfe von Smartphone-Datensätzen entschieden. Für mich bezieht sich dieses Thema auf maschinelles Lernen und die Unterstützung von Vektormaschinen. Ich bin mit diesen Technologien noch nicht gut vertraut, daher brauche ich Hilfe.

Ich habe beschlossen , dieses Projekt Idee zu folgen http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (erstes Projekt auf der Oberseite) Das Projektziel ist festzustellen , welche Tätigkeit eine Person Eingreifen (z. B. WALKING, WALKING_UPSTAIRS, WALKING_DOWNSTAIRS, SITZEN, STEHEN, LAGEN) anhand von Daten, die von einem Smartphone (Samsung Galaxy S II) in der Taille des Probanden aufgezeichnet wurden. Unter Verwendung des eingebetteten Beschleunigungsmessers und des Gyroskops umfassen die Daten eine 3-axiale lineare Beschleunigung und eine 3-axiale Winkelgeschwindigkeit mit einer konstanten Rate von 50 Hz.

Der gesamte Datensatz befindet sich in einem Ordner mit einigen Beschreibungen und Funktionsbezeichnungen. Die Daten werden in Test- und Zugdateien unterteilt, in denen Daten in diesem Format dargestellt werden:

  2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001  7.1720847e-001  6.3550240e-001  7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001  2.4621698e-001  5.2120364e-001 -4.8779311e-001  4.8228047e-001 -4.5462113e-002  2.1195505e-001 -1.3489443e-001  1.3085848e-001 -1.4176313e-002 -1.0597085e-001  7.3544013e-002 -1.7151642e-001  4.0062978e-002  7.6988933e-002 -4.9054573e-001 -7.0900265e-001

Und das ist nur eine sehr kleine Auswahl dessen, was die Datei enthält.

Ich weiß nicht genau, was diese Daten darstellen und wie sie interpretiert werden können. Welche Tools benötige ich auch zur Analyse, Klassifizierung und Clusterbildung der Daten? Gibt es eine Möglichkeit, diese Daten mit enthaltenen Labels in Excel zu integrieren und beispielsweise R oder Python zu verwenden, um Beispieldaten zu extrahieren und daran zu arbeiten?

Alle Hinweise / Tipps wäre sehr dankbar.

bigdata machine-learning databases clustering data-mining Jakubee
quelle

Antworten:

Die Datensatzdefinitionen finden Sie auf der folgenden Seite:

Attributinformationen unten

Oder Sie können im ZIP-Ordner die Datei activity_labels sehen, in der sich Ihre Spaltenüberschriften befinden. Lesen Sie die README-Datei sorgfältig durch. Sie enthält einige gute Informationen. .csvMit dem read.csvBefehl können Sie ganz einfach eine Datei in R einfügen .

Wenn Sie beispielsweise Ihre Datei benennen, können Sie samsungdataR öffnen und diesen Befehl ausführen:

data <- read.csv("directory/where/file/is/located/samsungdata.csv", header = TRUE)

Oder wenn Sie sich bereits im Arbeitsverzeichnis in R befinden, können Sie einfach Folgendes ausführen

data <- read.csv("samsungdata.csv", header = TRUE)

Wo der Name datageändert werden kann, wie auch immer Sie Ihren Datensatz aufrufen möchten.

MCP_infiltrator
quelle

Aha. Ich habe die README-Datei studiert, kann aber immer noch nicht herausfinden, wie die Daten selbst gelesen werden können. Zum Beispiel repräsentiert die Datei train / X_train.txt'file einen Trainingssatz (die Beispieldaten, die ich in der Post gezeigt habe, stammen aus dieser Datei).

Jakubee

Es scheint mir, dass der Datensatz ziemlich breit ist, es gibt 561 Variablen pro Zeile, die in der Datei features.txt aufgelistet sind. Ich glaube, darauf beziehen Sie sich.

MCP_infiltrator

Jede der Variablen aus der 'Features'-Datei entspricht also jeder Spalte in der' x-test.txt'-Datei, oder irre ich mich?

Jakubee

So nehme ich es. Was ich aus der README-Datei entnehmen konnte, ist das, was die Datei enthält.

MCP_infiltrator

@ Jakubee Ja. Es gibt 561 Zeilen / Variablennamen in derfeatures.txt Datei enthält und 561 Spalten in der X_train.txtDatei, eine für jede Variable.

Marco13

Es sieht so aus, als würde dieser (oder ein sehr ähnlicher Datensatz) für Coursera-Kurse verwendet. Das Bereinigen dieses Datensatzes ist eine Aufgabe zum Abrufen und Bereinigen von Daten , wird jedoch auch für Fallstudien zur explorativen Datenanalyse verwendet . Das Video aus dieser Fallstudie ist in Videos für Woche 4 des EDA-Kurses verfügbar. Es könnte Ihnen helfen, mit diesen Daten zu beginnen.

Damian Melniczuk
quelle