Ist die Tageszeit eine kategoriale Variable?

24

Ist "Stunde des Tages", in der der Wert 0, 1, 2, ..., 23 sein kann, eine kategoriale Variable? Ich wäre versucht, nein zu sagen, da beispielsweise 5 näher an 4 oder 6 liegt als an 3 oder 7.

Andererseits gibt es die Diskontinuität zwischen 23 und 0.

Wird es allgemein als kategorisch angesehen oder nicht? Beachten Sie, dass 'Stunde' eine der unabhängigen Variablen ist, nicht die Variable, die ich vorherzusagen versuche.

Paul Reiners
quelle
7
Was versuchst du zu erreichen? Wenn Sie ein Modell anpassen, ist die Stunde eine Kovariate oder die Antwort, z. B.?
gung - Wiedereinsetzung von Monica
2
Sie können eine Dummy-Variable für jede Stunde verwenden, wenn Sie genügend Freiheitsgrade übrig haben (dh als kategorisch behandeln), oder Sie können die ersten Fourier-Terme verwenden, wenn Sie dies nicht tun. Überlegen Sie sich im Allgemeinen, wie Sie eine potenzielle Beziehung zur Antwort am besten abbilden können - eine einzelne Dummy-Variable, die bei geöffneten Läden markiert wird, kann hilfreich sein.
Scortchi
So etwas wie Stunde kann als "kategorisch" oder "numerisch" behandelt werden, je nachdem, was am besten funktioniert. Es gibt im Allgemeinen keine richtige oder falsche Antwort - es kommt darauf an, was am besten funktioniert. Ich würde empfehlen, verschiedene Dinge auszuprobieren und herauszufinden, was in Ihrer Situation am besten funktioniert.
roundsquare

Antworten:

29

Abhängig davon, was Sie modellieren möchten, sind Stunden (und viele andere Attribute wie Jahreszeiten) tatsächlich ordinale zyklische Variablen. Im Falle von Jahreszeiten können Sie sie als mehr oder weniger kategorisch betrachten, und im Falle von Stunden können Sie sie auch als kontinuierlich modellieren.

Die Verwendung von Stunden in Ihrem Modell in einer Form, die die Zyklizität für Sie nicht berücksichtigt, ist jedoch nicht fruchtbar. Versuchen Sie stattdessen, sich eine Art Transformation auszudenken. Mit Stunden könnten Sie einen trigonometrischen Ansatz von verwenden

xhr = sin(2*pi*hr/24)
yhr = cos(2*pi*hr/24)

So würden Sie stattdessen xhrund yhrfür die Modellierung verwenden. Siehe diesen Beitrag zum Beispiel: Verwendung von zirkulären Prädiktoren in der linearen Regression .

Drey
quelle
2
(+1) Könnten Sie den Unterschied zwischen Jahreszeiten und Stunden erläutern?
Scortchi
Hmm, ich denke, Jahreszeiten haben eine ähnliche Bedeutung wie morgens, mittags und abends, wenn über Stunden am Tag gesprochen wird. Imho, wenn nur vage Informationen verfügbar sind und die Auflösung schlecht ist (wie 4 Werte in Jahreszeiten), erscheint es vernünftig, sie als kategorisch zu betrachten und Dummy-Variablen für die Codierung zu verwenden. :-)
Drey
1
Ich denke, der entscheidende Punkt ist, dass es mit dem Trigger nur vier Jahreszeiten gibt. Ansatz im Vergleich zu einer kategorialen Darstellung sparen Sie nur 1 Freiheitsgrad - mit Stunden des Tages sparen Sie 21 Freiheitsgrade. (Und wenn Sie nicht brauchen , um sie zu schonen, dann xhr = sin(4*pi*hr/24), yhr = cos(4*pi*hr/24), & so weiter kann hinzugefügt werden, bis zu dem Punkt , wo genügend Beobachtungen Sie können auch behandeln Stunden des Tages als kategorisch.)
Scortchi - wieder einzusetzen Monica
Oder schauen Sie sich zyklische Splines an .
kjetil b halvorsen
1

Die Stunde des Tages wird nicht am besten als kategoriale Variable dargestellt, da eine natürliche Reihenfolge der Werte vorliegt. Haarfarbe ist zum Beispiel kategorisch, weil die Reihenfolge der Kategorien keine Bedeutung hat - {rot, braun, blond} ist genauso gültig wie {blond, braun, rot}. Hour of the Day hingegen hat eine natürliche Reihenfolge: 9:00 Uhr ist näher an 10:00 Uhr oder 08:00 Uhr als an 18:00 Uhr. Es wird am besten als eine diskrete Ordnungsvariable angesehen. Es hat die zusätzliche Eigenschaft, zyklisch zu sein, da 12 Uhr auf 23 Uhr folgt und vor 1 Uhr morgens steht.

Kern Wang
quelle
Gibt es nicht eine natürliche Reihenfolge der Werte bestimmter kategorialer Variablen?
Dsaxton
Ja, aber in diesem Fall werden sie besser als ordinal beschrieben. Ordnungsvariablen sind kategoriale Variablen, die eine natürliche Reihenfolge haben.
Nuclear Wang
1
Wie würden Sie eine diskrete, ordinale, zyklische Variable als Prädiktor in einem Regressionsmodell darstellen?
Scortchi
0

Theoretisch hängt es davon ab, wie Sie die Variable formatieren, dh sie kann "kontinuierlich" (mit einem einzelnen Koeffizienten modelliert) oder kategorisch (ein Koeffizient pro "Stunde" des Tages) sein. Sie können auch beide Funktionen mischen, z. B. stückweise.

Praktisch, da 0 und 23 im Wesentlichen dieselbe "Stunde" des Tages sind, würde ich in Betracht ziehen, die Tagesperioden in größere, homogenere und glaubwürdigere Gruppen einzuteilen. Zum Beispiel in Schritten von 8 Stunden - 8-16 Uhr, 16-12 Uhr und 12-8 Uhr.

Frank H.
quelle
4
0 und 23 sind verschiedene Stunden. 0 und 24 wären die gleiche Stunde.
Paul Reiners
Übrigens gehe ich nach Gungs Kommentar davon aus, dass die Stunde des Tages eine unabhängige Variable ist, nicht die modellierte abhängige Variable. Mein Punkt ist, dass 0 und 23 in Wirklichkeit nicht so unterschiedlich sind. Würden Sie sagen, dass es einen statistischen Unterschied zwischen Ihrem modellierten Ereignis um 23:59 Uhr und 0:01 Uhr gibt?
Frank H.
1
Ich bin nicht sicher, welches Problem das Wegwerfen von Informationen lösen soll. Siehe Was ist der Vorteil des Zerlegens einer kontinuierlichen Prädiktorvariablen? .
Scortchi
@Scortchi - Wie der Beitrag sagt, gehen Sie von einer kontinuierlichen Beziehung aus, bei der das Binning Informationen "wegwirft". Ist dies jedoch nicht der Fall, ist die Binning-Methode die geeignetere Transformation. Und dies setzt voraus, dass Sie zunächst über genügend Daten verfügen, die das OP nicht erwähnt hat.
Frank H.
Die Beziehung zwischen einem Prädiktor und der Antwort zu beschränken ist an sich keine schlechte Sache - da Sie als erster in diesem Beitrag darauf eingehen, wie viele Beobachtungen verfügbar sind, ist eine wichtige Überlegung -, aber die, die dadurch auferlegt wird Die Darstellung der Tageszeit - flach von acht bis fünfzehn Uhr, mit einem Sprung oder Abfall am sechzehnten usw. - scheint ein seltsamer Vorschlag für einen allgemein geeigneten Ansatz zu sein.
Scortchi - Wiedereinsetzung von Monica