Sollten Datentypen (nominal / ordinal / Intervall / Verhältnis) wirklich als Variablentypen betrachtet werden?

10

Hier sind zum Beispiel die Definitionen, die ich aus Standardlehrbüchern bekomme

Variable - charakteristisch für Population oder Stichprobe. Ex. Preis einer Aktie oder Sorte bei einem Test

Daten - tatsächlich beobachtete Werte

Also für einen zweispaltigen Bericht [Name | Einkommen] Die Spaltennamen wären die Variablen und die tatsächlich beobachteten Werte {dave | 100K}, {jim | 200K} wären die Daten

Wenn ich also sage, dass die Spalte [Name] nominelle Daten und [Einkommen] Verhältnisdaten sind, würde ich sie dann nicht genauer als Variablentyp beschreiben, anstatt als Datentyp, wie es die meisten Lehrbücher tun? Ich verstehe, dass dies Semantik sein könnte, und das ist in Ordnung, das ist alles, was es auch gibt. Aber ich befürchte, dass mir hier etwas fehlt.

Benutzer 42
quelle
Kommt mir nicht als bedeutungsvoller Unterschied vor; Ich persönlich würde jede Formulierung für akzeptabel halten. Die Definition von "Variable" scheint jedoch ein wenig anders zu sein.
Nick Stauner
2
@Nick Ich glaube, wenn wir das umgangssprachliche "Merkmal" in die mathematische "reelle Funktion" übersetzen, erhalten wir einen Teil der Definition einer Zufallsvariablen. (Der fehlende Teil ist natürlich die Messbarkeit in Bezug auf ein Sigma-Feld in der Bevölkerung.) Normalerweise würden wir jedoch "Charakteristik einer Stichprobe" in den Fachbegriff Statistik übersetzen : Vielleicht ist es das, was Sie als a bezeichnen "wenig weg." Mit diesen Übersetzungen haben Variablen überhaupt keine "Typen" im Sinne von Stevens (wir können nur diskrete von kontinuierlichen Verteilungen unterscheiden ) - aber einige Daten können.
whuber

Antworten:

16

Stevens 'Skalentypologie ist nicht unbedingt ein inhärentes Merkmal der Variablen oder sogar der Daten selbst, sondern der Art und Weise, wie wir mit den Informationen umgehen - was wir damit meinen .

Unter bestimmten Umständen kann genau derselbe Wert als Verhältnis, Intervall, Ordnungszahl oder Nominalwert betrachtet werden, je nachdem, was wir damit machen. Es kommt darauf an, welche Bedeutung wir den Werten geben, die sich von einer Analyse zur nächsten ändern können. Stevens 'Typologie hat einen gewissen Wert, aber es reicht nicht aus, wenn sie zu streng ist.

Diese Frage nach der Bedeutung der Skalierung als Bedeutung geht zumindest auf Lord (1953) zurück, der ein Beispiel lieferte, bei dem es sowohl nominelle als auch Intervallinterpretationen derselben Zahlengruppe gab.

Dieser Punkt wurde noch deutlicher von Velleman und Wilkinson (1993) hervorgehoben, die ein Beispiel für Personen anbieten, die beim Eintritt zu einem Empfang fortlaufend nummerierte Tickets erhalten, wobei ein Preis für eines der Tickets vergeben wird. Abhängig von der Verwendung der Nummern auf den Tickets haben sie Interpretationen auf allen vier Skalen.

Also zum Beispiel "Habe ich gewonnen?" Ist eine Frage, die die Zahl als nominal behandelt, während "Bin ich zu früh angekommen, um das Gewinnerticket zu erhalten?" ist eine Frage, die es als ordinal behandelt; Auf der anderen Seite (und ich glaube nicht, dass dies in der Zeitung steht) würde die Verwendung von 5 zufälligen Ticketnummern, um die Anzahl der Personen im Raum zu schätzen, sie als Verhältnis behandeln (z. B. wenn 4 zufällig gezogene Zahlen vorhanden wären) Trostpreise, Sie hätten insgesamt 5 Zufallszahlen, anhand derer Sie die Gesamtteilnahme abschätzen können.

Sie argumentieren, dass "eine gute Datenanalyse keine Datentypen voraussetzt", "Stevens 'Kategorien beschreiben keine festen Datenattribute", "Stevens' Kategorien reichen nicht aus, um Datenskalen zu beschreiben" und "Statistikverfahren können nicht nach Stevens 'Kriterien klassifiziert werden" (in der Tat) Jede Aussage ist auch ein Abschnittstitel.

Kritik wurde auch an mehreren Stellen von Tukey geäußert (z. B. in Kapitel 5 von Mosteller und Tukeys 1977 erschienenem Buch Datenanalyse und Regression ); Mosteller und Tukey boten eine Typologie an - Namen , Noten (geordnete Bezeichnungen), Ränge (ab 1, die entweder die größten oder die kleinsten darstellen können), gezählte Brüche (begrenzt durch Null und Eins, einschließlich Prozentsätze), Zählungen (nicht negativ) ganze Zahlen), Beträge (nicht negative reelle Zahlen), Salden (unbegrenzte, positive oder negative Werte).

In meiner eigenen Arbeit habe ich Situationen gesehen, in denen schwerwiegende Probleme bei der Analyse dadurch verursacht wurden, dass Menschen den großen Unterschied zwischen Variablen in Bezug auf Ebenen (manchmal als "Aktienvariablen" bezeichnet) und Flows nicht einschätzen konnten - ein einfaches Beispiel für diese Typen ist der Unterschied in den Arten der Analyse, die für die tatsächlich in einem Speichertank in jeder Folge von Perioden tatsächlich vorhandenen Wassermengen und die in diesen fließende Wassermenge geeignet sind. Dies wären (in einigen dieser Fälle) beide Unterkategorien des Mosteller- und Tukey- Betriebstyps (und in denselben Fällen beide Verhältnisvariablen in Stevens 'Schema), was darauf hinweist, dass typologische Probleme sehr subtil sein können, aber kann geeignete Analysen weiterhin kritisch beeinflussen.

PFVelleman und L. Wilkinson (1993),
"Nominal-, Ordinal-, Intervall- und Verhältnis-Typologien sind irreführend",
The American Statistician , vol. 47 Nr. 1, S. 65-72

(Eine Arbeitsversion scheint auf der Webseite des 2. Autors hier verfügbar zu sein. )

Lord, F. (1953),
"Zur statistischen Behandlung von Fußballzahlen",
American Psychologist , 8 , S. 750-751

(Das Jahr dieses Papiers wird in den Verweisen auf die Version des Velleman- und Wilkinson-Papiers, auf die ich verlinkt habe, falsch angegeben, aber im Hauptteil des Papiers korrekt erwähnt.)

Glen_b - Monica neu starten
quelle
Vielen Dank. Sehr gründliche Antwort. Ich habe in diese Richtung gedacht, aber wenn ich dieses Zeug viele Male recherchiere, sieht es so aus, als ob es konkret ist und ein Konsens erzielt wurde. Deshalb bin ich hier gelandet.
Benutzer 42
Stevens 'Typologie wurde seit ihrer Erstveröffentlichung diskutiert und umstritten. Es ist ein manchmal hilfreicher Rahmen, kein Satz.
Glen_b -State Monica
Gibt es neben Stevens und Mosteller noch einen "neuen Favoriten"? Wenn ich Sie im Beispiel Ebenen / Flows richtig verstehe, haben beide den gleichen Typ, müssen jedoch unterschiedlich behandelt werden? Können Sie diesen Unterschied erklären? Und wie würde zB die Protokolltransformation eines Wertes in diese Typologie passen? Vielen Dank.
Erich Schubert
1. Ich kenne keine jüngsten Versuche, einen zu machen - und ich denke, dass sie nicht unbedingt nützlich sind, da sie dazu neigen, Menschen in weniger geeignete Analysen zu schubsen (siehe Lords Artikel für ein Spielzeugbeispiel, aber die Konsequenzen für Analysen sind sehr real - diese Listen von Analysen nach Typ verursachen kein Ende schrecklicher statistischer Analysen, während sie große Mengen an Statistiken aus der Möglichkeit herausschneiden, in geeigneten Situationen berücksichtigt zu werden. .. ctd
Glen_b -Reinstate Monica
ctd ... 2. Ein Beispiel dafür, wie unterschiedlich Ebenen und Flüsse sind: Beachten Sie, dass bei einem täglichen Blick auf die Ebene die heutige Ebene die vorherige Ebene plus der dazwischenliegende Zu- oder Abfluss (oder die Summe aus beiden) ist , wenn beides möglich ist). Füllstandsmessungen sind also notwendigerweise abhängig, oft sehr stark. Es kann keinen Sinn machen, sie so zu behandeln, als wären sie unabhängig - aber ich sehe, dass die Leute es die ganze Zeit tun. 3. Ich bin mir nicht ganz sicher, was Sie mit dem Protokoll fragen. Können Sie das genauer erläutern? Welche Typologie (beachte, dass ich mehr als eine erwähne)?
Glen_b -Reinstate Monica
1

Der Typ der Daten ist verwandt, aber nicht identisch mit dem Typ der Variablen. In den meisten Fällen sind sie gleich, müssen es aber nicht sein.

Zum Beispiel, wenn Sie N Proben aus einer Normalverteilung sammeln. Sie würden denken, es sind numerische Daten (Verhältnis oder Skala). Ich kann aber auch sagen, dass es sich um eine kategoriale Variable mit N verschiedenen Kategorien handelt, mit einer Häufigkeit von 1 für jede Kategorie. Es sieht dumm aus, ist aber auch eine gültige Variable.

Hallo Welt
quelle
Dies scheint ein wenig im Widerspruch zu Stevens (dem die Formulierung dieser Typologie zugeschrieben wird) zu stehen, der schrieb: "Das eigentliche Problem ist die Bedeutung der Messung." Obwohl Sie sich immer dafür entscheiden können, solche Daten als nominal zu behandeln, sind sie nach Stevens 'Einschätzung nicht nominal. Sein Artikel ist unter gaius.fpce.uc.pt/niips/novoplano/mip1/mip1_201314/scales/… verfügbar .
whuber