Ist es nur die Aggregation von Datenpunkten? Oder ist es die Darstellung von Datenpunkten für verschiedene Elemente in einem Tabellenformat, das mit Werten der verschiedenen Variablen angeordnet ist? Wie unterscheidet es sich von Rohdaten?
dataset
terminology
definition
Ankit
quelle
quelle
Antworten:
Nach meiner Erfahrung ist "Datensatz" (oder "Datensatz") ein informeller Begriff, der sich auf eine Sammlung von Daten bezieht. Im Allgemeinen enthält ein Datensatz mehr als eine Variable und betrifft ein einzelnes Thema. Es handelt sich wahrscheinlich um eine einzelne Stichprobe.
Ein Fehler, den Autoren von Cross Validated-Fragen häufig machen, ist die Verwendung von "Datensatz" als Synonym für "Variable" oder "Vektor".
quelle
Ich denke, dass Wikipedia einen anständigen Job bei der Definition macht:
Wie Sie sehen können, ist der Begriff etwas vage.
quelle
Ich denke, Sie müssen möglicherweise einen Datenpunkt definieren , bevor Sie einen Datensatz definieren können : Warum ist ein Grundelement und muss nicht definiert werden, aber nicht umgekehrt?
Mindestens zwei Definitionen sind für mich sinnvoll:
Eine oder mehrere Beobachtungen (Fälle, Datensätze, Zeilen) für eine oder mehrere Variablen (Felder, Spalten).
Was auch immer als Daten in einer Datei gespeichert ist, die von einem Programm Ihrer Wahl gelesen werden kann.
Tabellarisches Layout ist üblich, aber ich denke nicht, dass es Teil einer Definition ist. Wie die Daten gespeichert werden, kann natürlich praktisch wichtig sein.
PS Das Wort "Format" ist so überladen, dass es für mich am besten vermieden wird, wenn es nicht eindeutig angegeben wird. Ich habe gesehen, wie es benutzt wurde
Allgemeines oder spezifisches Text- oder Binärdateiformat
Datenstruktur, zB tabellarisch oder andere
Datenspeicherung oder Variablentypen, z. B. Bit, Ganzzahl, Real, Zeichen
Anzeigeformat zur Steuerung der Präsentation, z. B. Angaben zur Anzahl der Dezimalstellen; Dezimal-, Hexadezimal- oder Binäranzeige.
quelle
Hier gibt es bereits einige gute Antworten, und ich glaube nicht, dass ich tiefer als Nick Cox oder Franck Dernoncourt in die Frage eindringen kann, ob sich "Datensatz" auf die konzeptionelle Sammlung verwandter Daten oder auf die besondere Anordnung dieser Daten bezieht, z eine Tabelle / Matrix oder eine computerlesbare Datei. In Francks Auszug werden Randfälle wie kontinuierlich gesammelte Daten oder über mehrere Tabellen verteilte Daten erwähnt, die berücksichtigt werden sollten, wenn Sie davon ausgehen, dass es eine einfache Definition geben würde. (Nicht jede Statistiksoftware kann damit umgehen, aber es ist sehr leicht vorstellbar, dass Daten in einer relationalen Datenbank mit mehreren Tabellen gespeichert werden. Ist die gesamte Datenbank ein einziger "Datensatz"?)
Eine Sache, die ich hinzufügen möchte, ist, dass Datensätze im mathematischen Sinne im Allgemeinen keine Sätze sind! Sensu stricto enthält eine Menge entweder ein Objekt oder nicht, kann aber nicht mehr als eine Kopie dieses Objekts enthalten. Wenn ich acht Mal einen Würfel würfle und 1, 4, 3, 5, 5, 4, 6, 4 erziele, ist der Satz der gewürfelten Punkte nur {1, 3, 4, 5, 6}. Beachten Sie, dass die Elemente in beliebiger Reihenfolge vorliegen können. Ich habe sie gerade in aufsteigendem Wert geschrieben, aber die Menge {5, 4, 1, 6, 3} ist beispielsweise mathematisch gleich. Dies ist jedoch nicht das, was wir normalerweise mit einem Datensatz meinen!
Mit einem Multiset (oder einer Tasche ) können Einträge wiederholt werden, z. B. {1, 4, 3, 5, 5, 4, 6, 4}. Beachten Sie jedoch, dass dies immer noch keinen Ordnungssinn enthält und daher gleich {1, ist. 3, 4, 4, 4, 5, 5, 6}. Vielleicht kann das "Set" in "Dataset" am besten als "Multiset" gelesen werden. Wenn Sie möchten, dass die Ordnung erhalten bleibt, können Sie stattdessen einen Vektor verwenden: (1, 4, 3, 5, 5, 4, 6, 4) ist nicht dasselbe wie (1, 3, 4, 4, 4, 4). 5, 5, 6). Die Reihenfolge gibt uns einen Index, der als eine Art Kennung dienen kann - er sagt uns zum Beispiel: "Welche vier sind welche?" - und die häufig dazu dienen, Beobachtungen in ihrer natürlichen zeitlichen oder geografischen Reihenfolge aufzuzeichnen. Wenn man Formeln wie siehtx1x2x¯=1n∑ni=1xi Diese Art von Indexierungsschema wird angenommen. Was würde oder im Kontext einer Menge oder eines Multisets bedeuten, da wir ein "erstes" oder "zweites" Element aufgrund fehlender Reihenfolge nicht unterscheiden können?x1 x2
Vektoren dienen jedoch nur zum Aufzeichnen einer Variablen - für mehrere ist es möglicherweise bequemer, eine Matrix zum Tabellieren mit beibehaltener Reihenfolge zu verwenden. In komplexeren Situationen, z. B. beim Messen einer Eigenschaft eines dreidimensionalen Voxelgitters über die Zeit, können Sie sogar die Daten in einem Tensor anordnen (siehe z . B. diese Frage ).
Beachten Sie jedoch, dass konzeptionell ein Multiset in den meisten einfachen Situationen ausreichen kann, auch wenn es für praktische Zwecke unpraktisch ist. Wenn ich gleichzeitig mit dem Würfeln eine Münze werfen und die beiden Ergebnisse zusammen aufzeichnen wollte, könnte ich ein Multiset wie {(1, H), (3, T), (4, H), (4, H) verwenden ), (4, T), (5, H), (5, T), (6, T)} anstelle einer Matrix. Eine gewöhnliche Menge wird nicht ausreichen, da sie zum Beispiel die Multiplizität von (4, H) nicht zählen würde.
quelle