Ist "Stunde des Tages", in der der Wert 0, 1, 2, ..., 23 sein kann, eine kategoriale Variable? Ich wäre versucht, nein zu sagen, da beispielsweise 5 näher an 4 oder 6 liegt als an 3 oder 7.
Andererseits gibt es die Diskontinuität zwischen 23 und 0.
Wird es allgemein als kategorisch angesehen oder nicht? Beachten Sie, dass 'Stunde' eine der unabhängigen Variablen ist, nicht die Variable, die ich vorherzusagen versuche.
categorical-data
circular-statistics
Paul Reiners
quelle
quelle
Antworten:
Abhängig davon, was Sie modellieren möchten, sind Stunden (und viele andere Attribute wie Jahreszeiten) tatsächlich ordinale zyklische Variablen. Im Falle von Jahreszeiten können Sie sie als mehr oder weniger kategorisch betrachten, und im Falle von Stunden können Sie sie auch als kontinuierlich modellieren.
Die Verwendung von Stunden in Ihrem Modell in einer Form, die die Zyklizität für Sie nicht berücksichtigt, ist jedoch nicht fruchtbar. Versuchen Sie stattdessen, sich eine Art Transformation auszudenken. Mit Stunden könnten Sie einen trigonometrischen Ansatz von verwenden
So würden Sie stattdessen
xhr
undyhr
für die Modellierung verwenden. Siehe diesen Beitrag zum Beispiel: Verwendung von zirkulären Prädiktoren in der linearen Regression .quelle
xhr = sin(4*pi*hr/24)
,yhr = cos(4*pi*hr/24)
, & so weiter kann hinzugefügt werden, bis zu dem Punkt , wo genügend Beobachtungen Sie können auch behandeln Stunden des Tages als kategorisch.)Die Stunde des Tages wird nicht am besten als kategoriale Variable dargestellt, da eine natürliche Reihenfolge der Werte vorliegt. Haarfarbe ist zum Beispiel kategorisch, weil die Reihenfolge der Kategorien keine Bedeutung hat - {rot, braun, blond} ist genauso gültig wie {blond, braun, rot}. Hour of the Day hingegen hat eine natürliche Reihenfolge: 9:00 Uhr ist näher an 10:00 Uhr oder 08:00 Uhr als an 18:00 Uhr. Es wird am besten als eine diskrete Ordnungsvariable angesehen. Es hat die zusätzliche Eigenschaft, zyklisch zu sein, da 12 Uhr auf 23 Uhr folgt und vor 1 Uhr morgens steht.
quelle
Theoretisch hängt es davon ab, wie Sie die Variable formatieren, dh sie kann "kontinuierlich" (mit einem einzelnen Koeffizienten modelliert) oder kategorisch (ein Koeffizient pro "Stunde" des Tages) sein. Sie können auch beide Funktionen mischen, z. B. stückweise.
Praktisch, da 0 und 23 im Wesentlichen dieselbe "Stunde" des Tages sind, würde ich in Betracht ziehen, die Tagesperioden in größere, homogenere und glaubwürdigere Gruppen einzuteilen. Zum Beispiel in Schritten von 8 Stunden - 8-16 Uhr, 16-12 Uhr und 12-8 Uhr.
quelle