Gibt es einen Hypothesentest, ob eine normalverteilte abhängige Variable einer direktional verteilten Variablen zugeordnet ist?
Wenn beispielsweise die Tageszeit die erklärende Variable ist (und Dinge wie Wochentag, Monat des Jahres usw. irrelevant sind), kann auf diese Weise die Tatsache berücksichtigt werden, dass 23 Uhr 22 Stunden vor 1 Uhr morgens und 2 Uhr morgens ist Stunden hinter 1 Uhr morgens in einem Assoziationstest? Kann ich testen, ob die kontinuierliche Tageszeit die abhängige Variable erklärt, ohne davon auszugehen, dass eine Minute nach 23:59 Uhr keine Mitternacht um 12:00 Uhr folgt?
Gilt dieser Test auch für diskrete Richtungsvariablen ( modular ?)? Oder erfordert das einen separaten Test? Zum Beispiel, wie zu testen ist, ob die abhängige Variable durch den Monat des Jahres erklärt wird (vorausgesetzt, Tag und Jahreszeit sowie ein bestimmtes Jahr oder Jahrzehnt sind irrelevant). Bei der Behandlung des Monats des Jahres wird die Bestellung kategorisch ignoriert. Wenn Sie jedoch den Monat des Jahres als Standard-Ordnungsvariable behandeln (z. B. Jan = 1 ... Dec = 12), wird ignoriert, dass der Januar zwei Monate nach November liegt.
Antworten:
Im Allgemeinen halte ich es wissenschaftlich und statistisch für fruchtbarer, zunächst eine umfassendere und andere Frage zu stellen: Wie weit kann eine Antwort von einem zirkulären Prädiktor vorhergesagt werden? Ich sage hier eher kreisförmig als gerichtet , teilweise weil letzteres sphärische und noch fabelhaftere Räume enthält, die nicht alle in einer einzigen Antwort abgedeckt werden können; und teilweise, weil Ihre Beispiele, Tageszeit und Jahreszeit , beide kreisförmig sind. Ein weiteres wichtiges Beispiel ist die Kompassrichtung (relevant für Winde, Tier- oder Menschenbewegungen, Ausrichtungen usw.), die bei vielen Kreisproblemen auftritt: Für einige Wissenschaftler ist dies tatsächlich ein offensichtlicherer Ausgangspunkt.
Wann immer Sie damit durchkommen können, ist die Verwendung von Sinus- und Cosinusfunktionen der Zeit in einer Art Regressionsmodell eine einfache und leicht zu implementierende Modellierungsmethode. Es ist die erste Anlaufstelle für viele biologische und / oder umweltbezogene Beispiele. (Die beiden Arten sind oft miteinander verbunden, da biotische Phänomene, die Saisonalität zeigen, normalerweise direkt oder indirekt auf das Klima oder das Wetter reagieren.)
Stellen Sie sich der Vollständigkeit halber Zeitmessungen über 24 Stunden oder 12 Monate vor, so dass z
Jeder beschreibt einen Zyklus über den gesamten Tag oder das ganze Jahr. Ein formaler Test ohne Beziehung zwischen einer gemessenen oder gezählten Antwort und einer Kreiszeit wäre dann ein Standardtest, ob die Koeffizienten von Sinus und Cosinus in einem verallgemeinerten linearen Modell mit Sinus und Cosinus als Prädiktoren, einer geeigneten Verbindung und Familie gemeinsam Null sind entsprechend der Art der Antwort ausgewählt werden.
Die Frage der marginalen Verteilung der Antwort (normal oder anders) ist bei diesem Ansatz zweitrangig und / oder muss von der Familie gewählt werden.
Der Vorteil von Sinus und Cosinus besteht natürlich darin, dass sie periodisch sind und automatisch umlaufen, sodass die Werte am Anfang und am Ende eines jeden Tages oder Jahres notwendigerweise ein und dasselbe sind. Es gibt kein Problem mit Randbedingungen, da es keine Randbedingungen gibt.
Dieser Ansatz wurde als zirkuläre, periodische, trigonometrische und Fourier-Regression bezeichnet. Eine Einführung in das Tutorial finden Sie hier
In der Praxis,
Solche Tests zeigen normalerweise überwiegend signifikante Ergebnisse auf herkömmlichem Niveau, wenn wir Saisonalität erwarten. Die interessantere Frage ist dann die genaue geschätzte saisonale Kurve und ob wir ein komplizierteres Modell mit anderen sinusförmigen Begriffen benötigen.
Nichts schließt auch andere Prädiktoren aus. In diesem Fall benötigen wir einfach umfassendere Modelle mit anderen Prädiktoren, z. B. Sinus und Cosinus für die Saisonalität und andere Prädiktoren für alles andere.
Abhängig von den Daten, dem Problem sowie dem Geschmack und der Erfahrung des Forschers kann es irgendwann natürlicher werden, den Zeitreihenaspekt des Problems hervorzuheben und ein Modell mit expliziter Zeitabhängigkeit zu erstellen. In der Tat würden einige statistisch denkende Menschen bestreiten, dass es einen anderen Weg gibt, sich dem anzunähern.
Was leicht als Trend bezeichnet werden kann (aber nicht immer so leicht zu identifizieren ist), fällt entweder unter # 2 oder # 3 oder sogar unter beides.
Einstellungen und Ansätze von Epidemiologen und medizinischen Statistikern, die sich mit Schwankungen der Morbidität, Mortalität, Krankenhauseinweisungen, Klinikbesuchen und dergleichen befassen, liegen tendenziell zwischen diesen beiden Extremen.
Meiner Ansicht nach ist es normalerweise willkürlich, künstlich und bestenfalls umständlich, Tage oder Jahre in zwei Hälften zu teilen, um sie zu vergleichen. Es wird auch die Art der glatten Struktur ignoriert, die typischerweise in den Daten vorhanden ist.
BEARBEITEN Der bisherige Bericht befasst sich nicht mit dem Unterschied zwischen diskreter und kontinuierlicher Zeit, aber ich halte ihn aus meiner Erfahrung in der Praxis nicht für eine große Sache.
Die genaue Auswahl hängt jedoch davon ab, wie die Daten ankommen und wie sich die Muster ändern.
Wenn die Daten vierteljährlich und menschlich wären, würde ich tendenziell Indikatorvariablen verwenden (z. B. sind die Quartale 3 und 4 oft unterschiedlich). Wenn monatlich und menschlich, ist die Wahl nicht klar, aber Sie müssten hart arbeiten, um Sinus und Cosinus an die meisten Ökonomen zu verkaufen. Wenn monatlich oder feiner und biologisch oder umweltbedingt, definitiv Sinus und Cosinus.
EDIT 2 Weitere Details zur trigonometrischen Regression
quelle
Hier ist eine verteilungsfreie Option, da Sie anscheinend sowieso danach suchen. Es ist nicht speziell auf dem Gebiet der Zirkularstatistik, von dem ich ziemlich wenig weiß, aber es ist hier und in vielen anderen Situationen anwendbar.
Führen Sie nun einen Test mit dem Hilbert Schmidt Independence Criterion (HSIC) durch, wie im folgenden Artikel beschrieben:
Das ist:
Der Matlab-Code für die Ausführung mit RBF-Kerneln ist hier beim Erstautor erhältlich .
Dieser Ansatz ist gut, weil er allgemein gehalten ist und eine gute Leistung erbringt. Die Hauptnachteile sind:
quelle
Sie könnten einen t- Test zwischen dem Mittelwert aus entgegengesetzten "Hälften" des Zeitraums durchführen, indem Sie beispielsweise den Mittelwert von 12 bis 12 Uhr mit dem Mittelwert von 12 bis 12 Uhr vergleichen. Vergleichen Sie dann den Mittelwert von 18 bis 6 Uhr mit dem Mittelwert von 6 bis 18 Uhr.
Wenn Sie über genügend Daten verfügen, können Sie den Zeitraum in kleinere (z. B. stündliche) Segmente aufteilen und einen t- Test zwischen jedem Segmentpaar durchführen, während Sie mehrere Vergleiche korrigieren.
Alternativ können Sie für eine "kontinuierlichere" Analyse (dh ohne willkürliche Segmentierung) lineare Regressionen gegen die Sinus- und Cosinusfunktionen Ihrer Richtungsvariablen (mit der richtigen Periode) ausführen, wodurch Ihre Daten automatisch "zirkularisiert" werden:
In jedem Fall denke ich, dass Sie einige Annahmen bezüglich des Zeitraums treffen und dann entsprechend testen müssen.
quelle