Vergleich von Zeitreihensätzen

10

Ich habe drei Sätze von Zeitreihendaten, die ich vergleichen möchte. Sie wurden in 3 verschiedenen Zeiträumen von etwa 12 Tagen eingenommen. Dies sind die durchschnittlichen, maximalen und minimalen Mitarbeiterzahlen, die während der Abschlusswochen in einer Universitätsbibliothek erfasst wurden. Ich musste Mittelwert, Maximum und Min machen, weil die stündlichen Kopfzahlen nicht kontinuierlich waren (siehe Regelmäßige Datenlücken in einer Zeitreihe ).

Jetzt sieht der Datensatz so aus. Es gibt einen Datenpunkt (Durchschnitt, Maximum oder Min.) Pro Abend für 12 Abende. Es gibt 3 Semester, für die die Daten nur in den betroffenen 12-Tage-Zeiträumen erhoben wurden. So haben beispielsweise Frühjahr 2010, Herbst 2010 und Mai 2011 jeweils einen Satz von 12 Punkten. Hier ist ein Beispieldiagramm:

Geben Sie hier die Bildbeschreibung ein

Ich habe die Semester überlagert, weil ich sehen möchte, wie sich die Muster von Semester zu Semester ändern. Wie mir im verlinkten Thread gesagt wurde , ist es jedoch keine gute Idee, die Semester von Kopf bis Fuß zu schlagen, da dazwischen keine Daten liegen.

Die Frage ist dann: Mit welcher mathematischen Technik kann ich das Anwesenheitsmuster für jedes Semester vergleichen? Gibt es etwas Besonderes an Zeitreihen, das ich tun muss, oder kann ich einfach die prozentualen Unterschiede nehmen? Mein Ziel ist es zu sagen, dass die Bibliotheksnutzung in diesen Tagen steigt oder fällt; Ich bin mir einfach nicht sicher, welche Technik (en) ich verwenden soll, um es zu zeigen.

induvidyul
quelle

Antworten:

8

ANOVA mit festen Effekten (oder sein lineares Regressionsäquivalent) bietet eine leistungsstarke Methodenfamilie zur Analyse dieser Daten. Zur Veranschaulichung ist hier ein Datensatz, der mit den Darstellungen der mittleren HC pro Abend übereinstimmt (eine Darstellung pro Farbe):

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234 

ANOVA von countgegen dayund colorproduziert diese Tabelle:

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206   

Der modelp-Wert von 0,0000 zeigt, dass die Anpassung hoch signifikant ist. Der dayp-Wert von 0,0000 ist ebenfalls von hoher Bedeutung: Sie können tägliche Änderungen erkennen. Der color(Semester-) p-Wert von 0,2001 sollte jedoch nicht als signifikant angesehen werden: Sie können keinen systematischen Unterschied zwischen den drei Semestern feststellen, selbst nachdem Sie die tägliche Variation kontrolliert haben.

Tukeys HSD- Test ("ehrlicher signifikanter Unterschied") identifiziert die folgenden signifikanten Änderungen (unter anderem) der täglichen Mittelwerte (unabhängig vom Semester) auf dem Niveau von 0,05:

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

Dies bestätigt, was das Auge in den Grafiken sehen kann.

Da die Diagramme ziemlich viel herumspringen, gibt es keine Möglichkeit, alltägliche Korrelationen (serielle Korrelation) zu erkennen, was den gesamten Zeitpunkt der Zeitreihenanalyse darstellt. Mit anderen Worten, beschäftigen Sie sich nicht mit Zeitreihentechniken: Es gibt hier nicht genügend Daten, um einen besseren Einblick zu erhalten.

Man sollte sich immer fragen, wie sehr man den Ergebnissen einer statistischen Analyse glauben kann. Verschiedene Diagnosen für Heteroskedastizität (wie der Breusch-Pagan-Test ) zeigen nichts Unangenehmes. Die Residuen sehen nicht sehr normal aus - sie gruppieren sich in einige Gruppen - daher müssen alle p-Werte mit einem Salzkorn gemessen werden. Trotzdem scheinen sie eine vernünftige Anleitung zu bieten und dabei zu helfen, den Sinn der Daten zu quantifizieren, die wir durch Betrachten der Grafiken erhalten können.

Sie können eine parallele Analyse der täglichen Minima oder der täglichen Maxima durchführen. Stellen Sie sicher, dass Sie mit einem ähnlichen Diagramm als Richtlinie beginnen und die statistische Ausgabe überprüfen.

whuber
quelle
+1, zur Demonstration einfacher, aber leistungsstarker Techniken. Ich bin allerdings sehr neugierig, wie Sie es geschafft haben, die Werte aus dem Diagramm zu extrahieren. Eine Software oder eine Strafe für schlecht benommene Schüler? :)
mpiktas
1
@mp Ich habe Punkte über einem Screenshot der Grafik digitalisiert, ihre Koordinaten mit der GIS-Software extrahiert, die Koordinaten mit einer Tabelle transformiert und sie dann in ein Statistikpaket importiert. Es dauert nur wenige Minuten. Diese Methode kann nützlich sein, wenn Sie nur Daten in Form eines Diagramms oder einer Karte haben.
whuber
@whuber Das ist cool! Ich war mir dessen nicht bewusst.
Suncoolsu
@whuber Ich frage mich, wie sich 3 Sätze mit 12 autokorrelierten Messwerten im Vergleich zu 36 unabhängigen Beobachtungen auswirken. Ich würde denken, dass wir wirklich keine 35 Freiheitsgrade zum Paketieren haben. Die Wahrscheinlichkeiten, über die Sie nachdenken, basieren auf dem Verhältnis einer nicht zentralen Chi-Quadrat-Variablen zu einer zentralen Chi-Quadrat-Variablen. Fehlt mir hier etwas? Gute Arbeit, um die Zahlen aus dem Plot zu extrahieren. Gibt es ein bestimmtes Programm, auf das Sie verweisen können, um uns in dieser Hinsicht zu helfen?
IrishStat
1
xyVar(x)=Var(y)=σ2σxy=0Var(xy)=2σ2ρxyVar(xy)=2(1ρ)σ2ρ>0
0

Sarah, nimm deine 36 Zahlen (12 Werte pro Zyklus; 3 Zyklen) und erstelle ein Regressionsmodell mit 11 Indikatoren, die den möglichen Effekt der Semesterwoche widerspiegeln, und identifiziere dann alle erforderlichen Interventionsreihen (Impulse, Ebenenverschiebungen), die zum Rendern der erforderlich sind Mittelwert der Residuen soll überall 0,0 sein oder sich zumindest statistisch nicht signifikant von 0,0 unterscheiden. Wenn Sie beispielsweise in Periode 13 eine Pegelverschiebung feststellen, kann dies auf einen statistisch signifikanten Unterschied zwischen dem Mittelwert des ersten Semesters (dh den ersten 12 Werten) und dem Mittelwert der letzten beiden Semester (letzten 24 Werte) hinweisen. Möglicherweise können Sie Rückschlüsse ziehen oder die Hypothese testen, dass keine Woche des Semestereffekts vorliegt. Ein gutes Zeitreihenpaket könnte Ihnen in dieser Hinsicht hilfreich sein. Andernfalls müssen Sie möglicherweise jemanden finden, der Ihnen in diesem analytischen Bereich hilft.

IrishStat
quelle
1
Dies klingt nach einer Beschreibung der Zwei-Wege-ANOVA (Tage nach Zyklen), gefolgt von geplanten Tests von 11 Tagenpaaren. Einfache alte Statistiksoftware wird wahrscheinlich flexibler und leistungsfähiger zu verwenden sein als spezielle Zeitreihensoftware. es wird sicherlich einfacher sein. Übrigens sind die Indizes Tage (in den Prüfungszeitraum), nicht die Woche des Semesters.
whuber
Kann ich die ANOVA auch verwenden, um Maxima und Minima pro Tag zu vergleichen? Oder gilt das nur für die Mittel?
Induvidyul
@ Sarah Es könnte auf die Minima und Maxima anwendbar sein. Diese Statistiken sind jedoch in der Regel viel variabler als die Mittelwerte, sodass es weniger wahrscheinlich ist, dass Sie Änderungen im Laufe der Zeit oder zwischen den Semestern feststellen können. Ihre Grafik macht deutlich, dass sich die Mittelwerte erheblich unterscheiden. Wenn Sie können, machen Sie die ANOVA in drei Richtungen, indem Sie die Stunde des Tages einbeziehen und die ursprünglichen Stundenzählungen anstelle ihrer täglichen Mittelwerte verwenden.
whuber
@whuber: Mir wurde gesagt, dass das Aneinanderreihen der stündlichen Daten nicht verwendbar ist, da sie nur für 12 bis 6 Uhr morgens aufgezeichnet wurden. Siehe meine vorherige Frage Regelmäßige Datenlücken in einer Zeitreihe .
Induvidyul
@Sarah Ich spreche von etwas anderem: Modellieren Sie die Abhängigkeit anhand von drei Faktoren: Periode (3 von ihnen), Tag in die Periode (12 von ihnen) und Stunde des Tages (6 von ihnen). Sie könnten sogar Korrelationen zwischen den Stunden berücksichtigen, aber das ist für Ihre Zwecke möglicherweise nicht erforderlich. Unabhängig davon befürworte ich nicht, jede Periode als unterbrochene Reihe von 12 * 24 Zählungen anzusehen: Es fehlen zu viele Daten.
whuber