Wie kann ich zeigen, ob zwei Zeitreihen voneinander „verschieden“ sind oder nicht?

7

Ich habe einen kleinen Datensatz, der zeigt, dass die Anzahl junger Patienten in einem Krankheitsregister im Laufe der Zeit zunimmt. Ich vermute, dass dies nur darauf zurückzuführen ist, dass die Registrierung im Laufe der Zeit erfolgreicher geworden ist und jetzt einen größeren Anteil der Fälle erfasst.

Ich möchte daher die Anzahl der jungen Patienten im Register jedes Jahr, z. B. in einem Liniendiagramm, zusammen mit der Gesamtzahl der Patienten (dh aller Altersgruppen), die jedes Jahr in das Register aufgenommen werden, darstellen und nachweisen, ob dies der Fall ist oder nicht

Ich habe dies grob in Excel gemacht und die Trends sind nicht identisch. Ich möchte daher zeigen, ob die Trends statistisch / grafisch miteinander übereinstimmen oder nicht. Kann jemand einen guten Weg vorschlagen, dies entweder mit Stata oder Excel zu tun?

Datenprobe

Monte Christo
quelle
Fragen Sie sich wirklich: "Wie kann ich feststellen, ob sich ein Anteil im Laufe der Zeit ändert?"
Silverfish
Haben Sie sich mit dem dynamischen Time Warping- Algorithmus befasst?
Bruno Wu

Antworten:

8

Da die Varianz in einer Zählung oder Proportion tendenziell proportional zur Zählung oder Proportion selbst ist, schlagen Theorie (und viel Erfahrung) vor, die Quadratwurzeln der Daten zu analysieren.

Überzeugen Sie sich selbst, indem Sie die Proportionen und Gesamtzahlen auf Quadratwurzelachsen zeichnen.

Zahl

Damit jede Spalte eine visuelle Wirkung hat, die direkt proportional zur Anzahl ist, die sie darstellt, sind die Spaltenbreiten (sowie ihre Höhen) auch proportional zu den Quadratwurzeln der Anzahl: Dadurch werden die Bereiche der Spalten direkt proportional zur Anzahl. Die Spalten sind nur leicht gezeichnet, da sie für diese Visualisierung der Proportionen von zweitrangigem Interesse sind , wie der Titel besagt.

Die scheinbar zufällige Variation von Punkten (die die Proportionen darstellen) um ihre Glätte (dargestellt als blaue Linie) sowie die ungefähre Symmetrie dieser Variation um die Glätte herum bestätigen die Angemessenheit der Quadratwurzelskala. Sie legen auch nahe, dass eine differenziertere Analyse der zeitlichen Korrelation nicht erforderlich ist: Sie können sicher sein, dass die Trends, die Sie in diesem Diagramm sehen, real sind. Sie zeigen ein subtileres Bild als in der Frage vorgeschlagen: Die Proportionen nehmen zu, aber nur in den ersten sieben Jahren.

Das Erstellen eines solchen kombinierten Diagramms kann in Excel oder Stata erfolgen, ist jedoch in beiden Programmen schwierig, pingelig und zeitaufwändig. Dieses Beispiel wurde mit dem ggplot2Paket in R(Version 3.4.0) erstellt.


Zur Veranschaulichung des Prozesses finden Sie hier den vollständigen RCode.

library(ggplot2)
X <- data.frame(Year=2003:2016,
                Young=c(17,23,22,35,46,71,80,68,76,84,74,88,62,60),
                All=c(3007,5200,6000,5900,6740,7070,7120,
                      7324,7620,8051,8437,9130,8930,9000)*10)
scale.dup <- 0.5e6 # Proportional to column heights in the plot
ggplot(X, aes(Year, 100 * scale.dup * Young/All)) +
  geom_col(aes(Year, All, width=2.25*sqrt(All/scale.dup)),
           fill="#ffffe0", alpha=0.75, color="Gray") +
  geom_smooth(size=1.25) +
  geom_point(size=2) +
  ylab("All") +
  scale_y_continuous(sec.axis=dup_axis(~. / scale.dup, "Young / All (%)"), trans="sqrt") +
  ggtitle("Disease Registry Patient Proportions", "2003 - 2016 (square root scales)")
whuber
quelle
Das ist wunderbar - danke. Ich habe nur eine vorübergehende Bekanntschaft mit R. Wären Sie bereit, den Code, mit dem Sie diese Figur erstellt haben, oder eine Anweisung an eine fokussierte Hilferessource weiterzugeben, die mir dabei helfen könnte, etwas Ähnliches zu erreichen?
MonteCristo
Können Sie erläutern, warum Sie Quadratwurzeln verwenden? Ich habe versucht, mit linearen Skalen neu zu erstellen (ich habe gerade die beiden Verweise auf entfernt sqrt), und die Form der gelben Balken und der blauen Linie bleibt gleich, sodass Sie anscheinend die gleiche Schlussfolgerung ziehen würden.
Darren Cook
@Darren, gezählte Daten folgen normalerweise Binomialverteilungen. Zählungen, die kleine Bruchteile einer Gesamtzahl sind, weisen daher Abweichungen auf, die nahe an den Zählungen selbst liegen. Die Quadratwurzel ist in solchen Fällen die varianzstabilisierende Transformation: Das heißt, der Betrag der wahrscheinlichen (vertikalen) Variation im Diagramm ist auf einer Quadratwurzelskala gleich, unabhängig davon, wie die Anzahl variieren kann, während die Beträge variieren auf einer linearen Skala. Das Erreichen einer solchen Homoskedastizität ist hilfreich bei der explorativen Analyse und bei der Auswahl statistischer Verfahren.
whuber
@whuber Danke. Ich verstehe es immer noch nicht wirklich, aber ich werde versuchen, Binomialverteilungen zu googeln und zu sehen, ob Erleuchtung kommt. :-)
Darren Cook