Ich habe zwei Datenreihen, die das mittlere Alter beim Tod im Laufe der Zeit darstellen. Beide Serien zeigen ein erhöhtes Alter beim Tod im Laufe der Zeit, aber eines viel niedriger als das andere. Ich möchte feststellen, ob sich die Zunahme des Todesalters der unteren Stichprobe signifikant von der der oberen Stichprobe unterscheidet.
Hier sind die nach Jahr geordneten Daten (von 1972 bis einschließlich 2009) auf drei Dezimalstellen gerundet:
Cohort A 70.257 70.424 70.650 70.938 71.207 71.263 71.467 71.763 71.982 72.270 72.617 72.798 72.964 73.397 73.518 73.606 73.905 74.343 74.330 74.565 74.558 74.813 74.773 75.178 75.406 75.708 75.900 76.152 76.312 76.558 76.796 77.057 77.125 77.328 77.431 77.656 77.884 77.983
Cohort B 5.139 8.261 6.094 12.353 11.974 11.364 12.639 11.667 14.286 12.794 12.250 14.079 17.917 16.250 17.321 18.182 17.500 20.000 18.824 21.522 21.500 21.167 21.818 22.895 23.214 24.167 26.250 24.375 27.143 24.500 23.676 25.179 24.861 26.875 27.143 27.045 28.500 29.318
Beide Serien sind nicht stationär - wie kann ich die beiden bitte vergleichen? Ich benutze STATA. Jeder Rat wäre dankbar.
time-series
correlation
stata
Matt Hurley
quelle
quelle
Antworten:
Dies ist eine einfache Situation; Lass es uns so halten. Der Schlüssel liegt darin, sich auf das Wesentliche zu konzentrieren:
Erhalten einer nützlichen Beschreibung der Daten.
Bewertung einzelner Abweichungen von dieser Beschreibung.
Bewertung der möglichen Rolle und des Einflusses des Zufalls bei der Interpretation.
Wahrung der intellektuellen Integrität und Transparenz.
Es gibt immer noch viele Möglichkeiten und viele Formen der Analyse werden gültig und effektiv sein. Lassen Sie uns hier einen Ansatz veranschaulichen, der für die Einhaltung dieser Schlüsselprinzipien empfohlen werden kann.
Um die Integrität aufrechtzuerhalten, teilen wir die Daten in zwei Hälften: die Beobachtungen von 1972 bis 1990 und die von 1991 bis 2009 (jeweils 19 Jahre). Wir werden Modelle an die erste Hälfte anpassen und dann sehen, wie gut die Anpassungen bei der Projektion der zweiten Hälfte funktionieren. Dies hat den zusätzlichen Vorteil, dass signifikante Änderungen erkannt werden, die möglicherweise in der zweiten Hälfte aufgetreten sind.
Um eine nützliche Beschreibung zu erhalten, müssen wir (a) einen Weg finden, um die Änderungen zu messen und (b) das einfachste Modell anzupassen, das für diese Änderungen geeignet ist, es bewerten und iterativ komplexere Modelle anpassen, um Abweichungen von den einfachen Modellen zu berücksichtigen.
(a) Sie haben viele Möglichkeiten: Sie können sich die Rohdaten ansehen; Sie können ihre jährlichen Unterschiede betrachten; Sie können dasselbe mit den Logarithmen tun (um relative Änderungen zu bewerten); Sie können verlorene Lebensjahre oder die relative Lebenserwartung (RLE) beurteilen. oder viele andere Dinge. Nach einigem Überlegen entschied ich mich für RLE, definiert als das Verhältnis der Lebenserwartung in Kohorte B zu der (Referenz-) Kohorte A. Glücklicherweise steigt die Lebenserwartung in Kohorte A, wie die Grafiken zeigen, in einem Stall regelmäßig an Mode im Laufe der Zeit, so dass der größte Teil der zufällig aussehenden Variation in der RLE auf Änderungen in Kohorte B zurückzuführen ist.
(b) Das einfachste Modell ist zunächst ein linearer Trend. Mal sehen, wie gut es funktioniert.
Die dunkelblauen Punkte in diesem Diagramm sind die Daten, die für die Anpassung beibehalten werden. Die hellgoldenen Punkte sind die nachfolgenden Daten, die nicht für die Anpassung verwendet werden. Die schwarze Linie ist die Anpassung mit einer Steigung von 0,009 / Jahr. Die gestrichelten Linien sind Vorhersageintervalle für einzelne zukünftige Werte.
Insgesamt sieht die Anpassung gut aus: Die Untersuchung der Residuen (siehe unten) zeigt keine wesentlichen Änderungen ihrer Größe im Zeitverlauf (im Datenzeitraum 1972-1990). (Es gibt Hinweise darauf, dass sie zu Beginn der Lebenserwartung tendenziell größer waren. Wir konnten diese Komplikation bewältigen, indem wir auf einige Einfachheit verzichten, aber die Vorteile für die Einschätzung des Trends sind wahrscheinlich nicht groß.) Es gibt nur den kleinsten Hinweis der seriellen Korrelation (gezeigt durch einige Läufe von positiven und Läufen von negativen Residuen), aber dies ist eindeutig unwichtig. Es gibt keine Ausreißer, die durch Punkte jenseits der Vorhersagebänder angezeigt würden.
Die einzige Überraschung ist, dass die Werte im Jahr 2001 plötzlich auf das untere Vorhersageband fielen und dort blieben: etwas ziemlich Plötzliches und Großes passierte und hielt an.
Hier sind die Residuen, die die Abweichungen von der zuvor erwähnten Beschreibung sind.
Da wir die Residuen mit 0 vergleichen möchten, werden vertikale Linien als visuelle Hilfe auf die Null-Ebene gezogen. Wiederum zeigen die blauen Punkte Daten, die für die Anpassung verwendet wurden. Die hellgoldenen sind die Residuen für Daten, die nahe der unteren Vorhersagegrenze nach 2000 liegen.
Aus dieser Zahl können wir abschätzen, dass der Effekt der Änderung 2000-2001 etwa -0,07 betrug . Dies spiegelt einen plötzlichen Abfall von 0,07 (7%) einer vollen Lebensdauer innerhalb von Kohorte B wider. Nach diesem Rückgang zeigt das horizontale Muster der Residuen, dass sich der vorherige Trend fortgesetzt hat, jedoch auf dem neuen niedrigeren Niveau. Dieser Teil der Analyse sollte als explorativ angesehen werden : Er war nicht speziell geplant, sondern entstand aufgrund eines überraschenden Vergleichs zwischen den Daten (1991-2009) und der Anpassung an die übrigen Daten.
Es scheint keinen Grund zu geben, ein komplizierteres Modell an diese Daten anzupassen, zumindest nicht, um abzuschätzen, ob es im Laufe der Zeit einen echten Trend bei RLE gibt: Es gibt einen. Wir könnten noch weiter gehen und die Daten in Werte vor 2001 und nach 2000 aufteilen, um unsere Schätzungen zu verfeinernder Trends, aber es wäre nicht ganz ehrlich, Hypothesentests durchzuführen. Die p-Werte wären künstlich niedrig, da die Aufspaltungstests nicht im Voraus geplant waren. Aber als Erkundungsübung ist eine solche Einschätzung in Ordnung. Erfahren Sie alles, was Sie können, aus Ihren Daten! Achten Sie nur darauf, sich nicht durch Überanpassung (was fast sicher ist, wenn Sie mehr als ein halbes Dutzend Parameter verwenden oder automatisierte Anpassungstechniken verwenden) oder Daten-Snooping zu täuschen: Achten Sie auf den Unterschied zwischen formeller Bestätigung und informeller (aber wertvolle) Datenexploration.
Fassen wir zusammen:
Durch Auswahl eines geeigneten Maßes für die Lebenserwartung (RLE), Halten der Hälfte der Daten, Anpassen eines einfachen Modells und Testen dieses Modells anhand der verbleibenden Daten haben wir mit großer Sicherheit festgestellt, dass : ein konsistenter Trend vorlag; es war über einen langen Zeitraum nahezu linear; und es gab einen plötzlichen anhaltenden Rückgang der RLE im Jahr 2001.
Unser Modell ist auffallend sparsam : Es benötigt nur zwei Zahlen (Steigung und Achsenabschnitt), um die frühen Daten genau zu beschreiben. Es braucht ein Drittel (das Datum der Pause, 2001), um eine offensichtliche, aber unerwartete Abweichung von dieser Beschreibung zu beschreiben. In Bezug auf diese Beschreibung mit drei Parametern gibt es keine Ausreißer. Das Modell wird nicht wesentlich verbessert, indem die serielle Korrelation (der Schwerpunkt der Zeitreihentechniken im Allgemeinen) charakterisiert, versucht wird, die gezeigten kleinen individuellen Abweichungen (Residuen) zu beschreiben oder kompliziertere Anpassungen einzuführen (z. B. Hinzufügen einer quadratischen Zeitkomponente) oder Modellierung von Änderungen in der Größe der Residuen im Laufe der Zeit).
Der Trend lag bei 0,009 RLE pro Jahr . Dies bedeutet, dass mit jedem Jahr der Lebenserwartung innerhalb von Kohorte B 0,009 (fast 1%) einer vollen erwarteten normalen Lebensdauer hinzugefügt wurden. Im Verlauf der Studie (37 Jahre) würde dies 37 * 0,009 = 0,34 = ein Drittel einer Verbesserung der gesamten Lebensdauer betragen. Der Rückschlag im Jahr 2001 reduzierte diesen Gewinn von 1972 bis 2009 auf etwa 0,28 einer vollen Lebensdauer (obwohl die Gesamtlebenserwartung in diesem Zeitraum um 10% stieg).
Obwohl dieses Modell verbessert werden könnte, würde es wahrscheinlich mehr Parameter benötigen und es ist unwahrscheinlich, dass die Verbesserung groß ist (wie das nahezu zufällige Verhalten der Residuen bestätigt). Insgesamt sollten wir uns also damit zufrieden geben , eine so kompakte, nützliche und einfache Beschreibung der Daten für so wenig analytische Arbeit zu erhalten.
quelle
Ich denke, dass die Antwort von whuber unkompliziert und für eine Person ohne Zeitreihe wie mich einfach zu verstehen ist. Ich stütze meine auf seine. Meine Antwort ist in R nicht Stata, da ich Stata nicht so gut kenne.
Ich frage mich, ob die Frage uns tatsächlich fragt, ob der absolute Anstieg gegenüber dem Vorjahr in beiden Kohorten gleich ist (und nicht relativ). Ich halte dies für wichtig und illustriere es wie folgt. Betrachten Sie das folgende Spielzeugbeispiel:
Hier haben wir 2 Kohorten, von denen jede einen stetigen Anstieg des mittleren Überlebens um 1 Jahr pro Jahr aufweist. Daher erhöhen sich beide Kohorten in diesem Beispiel jedes Jahr um den gleichen absoluten Betrag, aber die RLE gibt Folgendes an:
Was offensichtlich einen Aufwärtstrend hat und der p-Wert, um die Hypothese zu testen, dass der Gradient der Linie 0 2.2e-16 ist. Die angepasste gerade Linie (ignorieren wir, dass diese Linie gekrümmt aussieht) hat einen Gradienten von 0,008. Obwohl beide Kohorten in einem Jahr den gleichen absoluten Anstieg verzeichnen, weist der RLE einen Anstieg auf.
Wenn Sie also RLE verwenden, um nach absoluten Erhöhungen zu suchen, lehnen Sie die Nullhypothese unangemessen ab.
Berechnen Sie anhand der bereitgestellten Daten die absolute Differenz zwischen den Kohorten, die wir erhalten:
Dies impliziert, dass der absolute Unterschied zwischen dem mittleren Überleben allmählich abnimmt (dh die Kohorte mit dem schlechten Überleben nähert sich allmählich der Kohorte mit dem besseren Überleben an).
quelle
Diese beiden Zeitreihen scheinen einen deterministischen Trend zu haben. Dies ist eine Beziehung, die Sie offensichtlich vor der weiteren Analyse entfernen möchten. Persönlich würde ich wie folgt vorgehen:
1) Ich würde eine Regression für jede Zeitreihe gegen eine Konstante und eine Zeit ausführen und den Rest für jede Zeitreihe berechnen.
2) Unter Verwendung der beiden im obigen Schritt berechneten Residuenreihen würde ich eine einfache lineare Regression (ohne konstanten Term) ausführen und die t-Statistik, den p-Wert, betrachten und entscheiden, ob eine weitere Abhängigkeit zwischen diesen besteht oder nicht die zwei Serien.
Diese Analyse geht von denselben Annahmen aus, die Sie in einer linearen Regression treffen.
quelle
In einigen Fällen kennt man ein theoretisches Modell, mit dem Sie Ihre Hypothese testen können. In meiner Welt fehlt dieses "Wissen" oft und man muss auf statistische Techniken zurückgreifen, die als explorative Datenanalyse klassifiziert werden können, die das Folgende zusammenfasst. Bei der Analyse von Zeitreihendaten, die nicht stationär sind, dh autokorrelative Eigenschaften haben, sind einfache Kreuzkorrelationstests oft irreführend, sofern leicht positive Ergebnisse leicht gefunden werden können. Eine der frühesten Analysen hierzu findet sich in Yule, GU, 1926, "Warum erhalten wir manchmal unsinnige Korrelationen zwischen Zeitreihen? Eine Studie über Stichproben und die Art von Zeitreihen", Journal of the Royal Statistical Society 89, 1– 64. Alternativ, wenn eine oder mehrere der Serien selbst durch außergewöhnliche Aktivitäten beeinflusst wurden (siehe whuber " der plötzliche Rückschlag in Kohorte B im Jahr 2001), der signifikante Beziehungen effektiv verbergen kann. Das Erkennen einer Beziehung zwischen Zeitreihen erstreckt sich nun auf die Untersuchung nicht nur zeitgleicher Beziehungen, sondern auch möglicher verzögerter Beziehungen. Wenn eine der Reihen durch Anomalien (einmalige Ereignisse) verursacht wurde, müssen wir unsere Analyse durch Bereinigung um diese einmaligen Verzerrungen stabilisieren. In der Literatur zu Zeitreihen wird aufgezeigt, wie die Beziehung durch Voraufhellung identifiziert werden kann, um die Struktur klarer zu identifizieren. Das Voraufhellen passt die intrakorrelative Struktur an, bevor die interkorrelative Struktur identifiziert wird. Beachten Sie, dass das Schlüsselwort die Struktur identifiziert. Dieser Ansatz führt leicht zu folgendem "nützlichen Modell": Das Erkennen einer Beziehung zwischen Zeitreihen erstreckt sich nun auf die Untersuchung nicht nur zeitgleicher Beziehungen, sondern auch möglicher verzögerter Beziehungen. Wenn eine der Reihen durch Anomalien (einmalige Ereignisse) verursacht wurde, müssen wir unsere Analyse durch Bereinigung um diese einmaligen Verzerrungen stabilisieren. In der Literatur zu Zeitreihen wird aufgezeigt, wie die Beziehung durch Voraufhellung identifiziert werden kann, um die Struktur klarer zu identifizieren. Das Voraufhellen passt die intrakorrelative Struktur an, bevor die interkorrelative Struktur identifiziert wird. Beachten Sie, dass das Schlüsselwort die Struktur identifiziert. Dieser Ansatz führt leicht zu folgendem "nützlichen Modell": Das Erkennen einer Beziehung zwischen Zeitreihen erstreckt sich nun auf die Untersuchung nicht nur zeitgleicher Beziehungen, sondern auch möglicher verzögerter Beziehungen. Wenn eine der Reihen durch Anomalien (einmalige Ereignisse) verursacht wurde, müssen wir unsere Analyse durch Bereinigung um diese einmaligen Verzerrungen stabilisieren. In der Literatur zu Zeitreihen wird aufgezeigt, wie die Beziehung durch Voraufhellung identifiziert werden kann, um die Struktur klarer zu identifizieren. Das Voraufhellen passt die intrakorrelative Struktur an, bevor die interkorrelative Struktur identifiziert wird. Beachten Sie, dass das Schlüsselwort die Struktur identifiziert. Dieser Ansatz führt leicht zu folgendem "nützlichen Modell": Wenn eine der Reihen durch Anomalien (einmalige Ereignisse) verursacht wurde, müssen wir unsere Analyse durch Anpassung an diese einmaligen Verzerrungen stabilisieren. In der Literatur zu Zeitreihen wird aufgezeigt, wie die Beziehung durch Voraufhellung identifiziert werden kann, um die Struktur klarer zu identifizieren. Das Voraufhellen passt die intrakorrelative Struktur an, bevor die interkorrelative Struktur identifiziert wird. Beachten Sie, dass das Schlüsselwort die Struktur identifiziert. Dieser Ansatz führt leicht zu folgendem "nützlichen Modell": Wenn eine der Reihen durch Anomalien (einmalige Ereignisse) verursacht wurde, müssen wir unsere Analyse durch Anpassung an diese einmaligen Verzerrungen stabilisieren. In der Literatur zu Zeitreihen wird aufgezeigt, wie die Beziehung durch Voraufhellung identifiziert werden kann, um die Struktur klarer zu identifizieren. Das Voraufhellen passt die intrakorrelative Struktur an, bevor die interkorrelative Struktur identifiziert wird. Beachten Sie, dass das Schlüsselwort die Struktur identifiziert. Dieser Ansatz führt leicht zu folgendem "nützlichen Modell": Beachten Sie, dass das Schlüsselwort die Struktur identifiziert. Dieser Ansatz führt leicht zu folgendem "nützlichen Modell": Beachten Sie, dass das Schlüsselwort die Struktur identifiziert. Dieser Ansatz führt leicht zu folgendem "nützlichen Modell":
Y (T) = -194,45
+ [X1 (T)] [(+ 1,2396+ 1,6523B ** 1)] COHORTA
Dies deutet auf eine zeitgemäße Beziehung von 1,2936 und einen verzögerten Effekt von 1,6523 hin. Beachten Sie, dass es einige Jahre gab, in denen ungewöhnliche Aktivitäten festgestellt wurden, nämlich (1975, 2001, 1983, 1999, 1976, 1985, 1985, 1984, 1991 und 1989). Die Anpassungen für die Jahre ermöglichen es uns, die Beziehung zwischen diesen beiden Serien klarer zu bewerten.
In Bezug auf die Erstellung einer Prognose
Als XARMAX ausgedrücktes Modell
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ Konstante
Die Konstante auf der rechten Seite ist: -194,45
COHORTA 0 1,239589 X (39) * 78,228616 = 96,971340
COHORTA 1 1,652332 X (38) * 77,983000 = 128,853835
I ~ L00030 0 -2,475963 X (39) * 1,000000 = -2,475963
Vier Koeffizienten sind alles, was erforderlich ist, um eine Prognose und natürlich eine Vorhersage für CohortA im Zeitraum 39 (78.228616) zu erstellen, die aus dem ARIMA-Modell für Cohorta erhalten wurde.
quelle
Diese Antwort enthält einige Grafiken
quelle