Hier sind zum Beispiel die Definitionen, die ich aus Standardlehrbüchern bekomme
Variable - charakteristisch für Population oder Stichprobe. Ex. Preis einer Aktie oder Sorte bei einem Test
Daten - tatsächlich beobachtete Werte
Also für einen zweispaltigen Bericht [Name | Einkommen] Die Spaltennamen wären die Variablen und die tatsächlich beobachteten Werte {dave | 100K}, {jim | 200K} wären die Daten
Wenn ich also sage, dass die Spalte [Name] nominelle Daten und [Einkommen] Verhältnisdaten sind, würde ich sie dann nicht genauer als Variablentyp beschreiben, anstatt als Datentyp, wie es die meisten Lehrbücher tun? Ich verstehe, dass dies Semantik sein könnte, und das ist in Ordnung, das ist alles, was es auch gibt. Aber ich befürchte, dass mir hier etwas fehlt.
quelle
Antworten:
Stevens 'Skalentypologie ist nicht unbedingt ein inhärentes Merkmal der Variablen oder sogar der Daten selbst, sondern der Art und Weise, wie wir mit den Informationen umgehen - was wir damit meinen .
Unter bestimmten Umständen kann genau derselbe Wert als Verhältnis, Intervall, Ordnungszahl oder Nominalwert betrachtet werden, je nachdem, was wir damit machen. Es kommt darauf an, welche Bedeutung wir den Werten geben, die sich von einer Analyse zur nächsten ändern können. Stevens 'Typologie hat einen gewissen Wert, aber es reicht nicht aus, wenn sie zu streng ist.
Diese Frage nach der Bedeutung der Skalierung als Bedeutung geht zumindest auf Lord (1953) zurück, der ein Beispiel lieferte, bei dem es sowohl nominelle als auch Intervallinterpretationen derselben Zahlengruppe gab.
Dieser Punkt wurde noch deutlicher von Velleman und Wilkinson (1993) hervorgehoben, die ein Beispiel für Personen anbieten, die beim Eintritt zu einem Empfang fortlaufend nummerierte Tickets erhalten, wobei ein Preis für eines der Tickets vergeben wird. Abhängig von der Verwendung der Nummern auf den Tickets haben sie Interpretationen auf allen vier Skalen.
Also zum Beispiel "Habe ich gewonnen?" Ist eine Frage, die die Zahl als nominal behandelt, während "Bin ich zu früh angekommen, um das Gewinnerticket zu erhalten?" ist eine Frage, die es als ordinal behandelt; Auf der anderen Seite (und ich glaube nicht, dass dies in der Zeitung steht) würde die Verwendung von 5 zufälligen Ticketnummern, um die Anzahl der Personen im Raum zu schätzen, sie als Verhältnis behandeln (z. B. wenn 4 zufällig gezogene Zahlen vorhanden wären) Trostpreise, Sie hätten insgesamt 5 Zufallszahlen, anhand derer Sie die Gesamtteilnahme abschätzen können.
Sie argumentieren, dass "eine gute Datenanalyse keine Datentypen voraussetzt", "Stevens 'Kategorien beschreiben keine festen Datenattribute", "Stevens' Kategorien reichen nicht aus, um Datenskalen zu beschreiben" und "Statistikverfahren können nicht nach Stevens 'Kriterien klassifiziert werden" (in der Tat) Jede Aussage ist auch ein Abschnittstitel.
Kritik wurde auch an mehreren Stellen von Tukey geäußert (z. B. in Kapitel 5 von Mosteller und Tukeys 1977 erschienenem Buch Datenanalyse und Regression ); Mosteller und Tukey boten eine Typologie an - Namen , Noten (geordnete Bezeichnungen), Ränge (ab 1, die entweder die größten oder die kleinsten darstellen können), gezählte Brüche (begrenzt durch Null und Eins, einschließlich Prozentsätze), Zählungen (nicht negativ) ganze Zahlen), Beträge (nicht negative reelle Zahlen), Salden (unbegrenzte, positive oder negative Werte).
In meiner eigenen Arbeit habe ich Situationen gesehen, in denen schwerwiegende Probleme bei der Analyse dadurch verursacht wurden, dass Menschen den großen Unterschied zwischen Variablen in Bezug auf Ebenen (manchmal als "Aktienvariablen" bezeichnet) und Flows nicht einschätzen konnten - ein einfaches Beispiel für diese Typen ist der Unterschied in den Arten der Analyse, die für die tatsächlich in einem Speichertank in jeder Folge von Perioden tatsächlich vorhandenen Wassermengen und die in diesen fließende Wassermenge geeignet sind. Dies wären (in einigen dieser Fälle) beide Unterkategorien des Mosteller- und Tukey- Betriebstyps (und in denselben Fällen beide Verhältnisvariablen in Stevens 'Schema), was darauf hinweist, dass typologische Probleme sehr subtil sein können, aber kann geeignete Analysen weiterhin kritisch beeinflussen.
PFVelleman und L. Wilkinson (1993),
"Nominal-, Ordinal-, Intervall- und Verhältnis-Typologien sind irreführend",
The American Statistician , vol. 47 Nr. 1, S. 65-72
(Eine Arbeitsversion scheint auf der Webseite des 2. Autors hier verfügbar zu sein. )
Lord, F. (1953),
"Zur statistischen Behandlung von Fußballzahlen",
American Psychologist , 8 , S. 750-751
(Das Jahr dieses Papiers wird in den Verweisen auf die Version des Velleman- und Wilkinson-Papiers, auf die ich verlinkt habe, falsch angegeben, aber im Hauptteil des Papiers korrekt erwähnt.)
quelle
Der Typ der Daten ist verwandt, aber nicht identisch mit dem Typ der Variablen. In den meisten Fällen sind sie gleich, müssen es aber nicht sein.
Zum Beispiel, wenn Sie N Proben aus einer Normalverteilung sammeln. Sie würden denken, es sind numerische Daten (Verhältnis oder Skala). Ich kann aber auch sagen, dass es sich um eine kategoriale Variable mit N verschiedenen Kategorien handelt, mit einer Häufigkeit von 1 für jede Kategorie. Es sieht dumm aus, ist aber auch eine gültige Variable.
quelle