Wie vergleiche ich zwei instationäre Zeitreihen, um eine Korrelation zu bestimmen?

10

Ich habe zwei Datenreihen, die das mittlere Alter beim Tod im Laufe der Zeit darstellen. Beide Serien zeigen ein erhöhtes Alter beim Tod im Laufe der Zeit, aber eines viel niedriger als das andere. Ich möchte feststellen, ob sich die Zunahme des Todesalters der unteren Stichprobe signifikant von der der oberen Stichprobe unterscheidet.

Hier sind die nach Jahr geordneten Daten (von 1972 bis einschließlich 2009) auf drei Dezimalstellen gerundet:

Cohort A    70.257  70.424  70.650  70.938  71.207  71.263  71.467  71.763  71.982  72.270  72.617  72.798  72.964  73.397  73.518  73.606  73.905  74.343  74.330  74.565  74.558  74.813  74.773  75.178  75.406  75.708  75.900  76.152  76.312  76.558  76.796  77.057  77.125  77.328  77.431  77.656  77.884  77.983
Cohort B    5.139   8.261   6.094   12.353  11.974  11.364  12.639  11.667  14.286  12.794  12.250  14.079  17.917  16.250  17.321  18.182  17.500  20.000  18.824  21.522  21.500  21.167  21.818  22.895  23.214  24.167  26.250  24.375  27.143  24.500  23.676  25.179  24.861  26.875  27.143  27.045  28.500  29.318

Beide Serien sind nicht stationär - wie kann ich die beiden bitte vergleichen? Ich benutze STATA. Jeder Rat wäre dankbar.

Datenplots

Matt Hurley
quelle
Wenn Sie einen Link zu Ihren Daten bereitstellen, Matt, können wir Ihre Frage so bearbeiten, dass sie diese Daten enthält.
whuber
Vielen Dank für Ihr Interesse an meiner Notlage - Link zu hinzugefügten Daten. Jede Hilfe wäre dankbar.
Matt
@ Matt: Wenn Sie sich Ihre Daten ansehen, sieht es so aus, als wären beide Aufwärtstrends. Interessieren Sie sich also im Wesentlichen für die Hypothese, dass eine Kohorte schneller wächst als die andere?
Andrew
Ja Andrew - die obere Kohorte ist die allgemeine Bevölkerung, während die Kohorte mit dem ärmeren Todesalter eine Gruppe ist, die an derselben Krankheit stirbt. Die Nullhypothese lautet, dass bei enger Korrelation eine Verbesserung des Überlebens möglicherweise auf gemeinsame Faktoren zurückzuführen ist (und nicht auf eine verbesserte Behandlung dieser Erkrankung).
Matt Hurley
1010

Antworten:

13

Dies ist eine einfache Situation; Lass es uns so halten. Der Schlüssel liegt darin, sich auf das Wesentliche zu konzentrieren:

  • Erhalten einer nützlichen Beschreibung der Daten.

  • Bewertung einzelner Abweichungen von dieser Beschreibung.

  • Bewertung der möglichen Rolle und des Einflusses des Zufalls bei der Interpretation.

  • Wahrung der intellektuellen Integrität und Transparenz.

Es gibt immer noch viele Möglichkeiten und viele Formen der Analyse werden gültig und effektiv sein. Lassen Sie uns hier einen Ansatz veranschaulichen, der für die Einhaltung dieser Schlüsselprinzipien empfohlen werden kann.

Um die Integrität aufrechtzuerhalten, teilen wir die Daten in zwei Hälften: die Beobachtungen von 1972 bis 1990 und die von 1991 bis 2009 (jeweils 19 Jahre). Wir werden Modelle an die erste Hälfte anpassen und dann sehen, wie gut die Anpassungen bei der Projektion der zweiten Hälfte funktionieren. Dies hat den zusätzlichen Vorteil, dass signifikante Änderungen erkannt werden, die möglicherweise in der zweiten Hälfte aufgetreten sind.

Um eine nützliche Beschreibung zu erhalten, müssen wir (a) einen Weg finden, um die Änderungen zu messen und (b) das einfachste Modell anzupassen, das für diese Änderungen geeignet ist, es bewerten und iterativ komplexere Modelle anpassen, um Abweichungen von den einfachen Modellen zu berücksichtigen.

(a) Sie haben viele Möglichkeiten: Sie können sich die Rohdaten ansehen; Sie können ihre jährlichen Unterschiede betrachten; Sie können dasselbe mit den Logarithmen tun (um relative Änderungen zu bewerten); Sie können verlorene Lebensjahre oder die relative Lebenserwartung (RLE) beurteilen. oder viele andere Dinge. Nach einigem Überlegen entschied ich mich für RLE, definiert als das Verhältnis der Lebenserwartung in Kohorte B zu der (Referenz-) Kohorte A. Glücklicherweise steigt die Lebenserwartung in Kohorte A, wie die Grafiken zeigen, in einem Stall regelmäßig an Mode im Laufe der Zeit, so dass der größte Teil der zufällig aussehenden Variation in der RLE auf Änderungen in Kohorte B zurückzuführen ist.

(b) Das einfachste Modell ist zunächst ein linearer Trend. Mal sehen, wie gut es funktioniert.

Abbildung 1

Die dunkelblauen Punkte in diesem Diagramm sind die Daten, die für die Anpassung beibehalten werden. Die hellgoldenen Punkte sind die nachfolgenden Daten, die nicht für die Anpassung verwendet werden. Die schwarze Linie ist die Anpassung mit einer Steigung von 0,009 / Jahr. Die gestrichelten Linien sind Vorhersageintervalle für einzelne zukünftige Werte.

Insgesamt sieht die Anpassung gut aus: Die Untersuchung der Residuen (siehe unten) zeigt keine wesentlichen Änderungen ihrer Größe im Zeitverlauf (im Datenzeitraum 1972-1990). (Es gibt Hinweise darauf, dass sie zu Beginn der Lebenserwartung tendenziell größer waren. Wir konnten diese Komplikation bewältigen, indem wir auf einige Einfachheit verzichten, aber die Vorteile für die Einschätzung des Trends sind wahrscheinlich nicht groß.) Es gibt nur den kleinsten Hinweis der seriellen Korrelation (gezeigt durch einige Läufe von positiven und Läufen von negativen Residuen), aber dies ist eindeutig unwichtig. Es gibt keine Ausreißer, die durch Punkte jenseits der Vorhersagebänder angezeigt würden.

Die einzige Überraschung ist, dass die Werte im Jahr 2001 plötzlich auf das untere Vorhersageband fielen und dort blieben: etwas ziemlich Plötzliches und Großes passierte und hielt an.

Hier sind die Residuen, die die Abweichungen von der zuvor erwähnten Beschreibung sind.

Figur 2

Da wir die Residuen mit 0 vergleichen möchten, werden vertikale Linien als visuelle Hilfe auf die Null-Ebene gezogen. Wiederum zeigen die blauen Punkte Daten, die für die Anpassung verwendet wurden. Die hellgoldenen sind die Residuen für Daten, die nahe der unteren Vorhersagegrenze nach 2000 liegen.

Aus dieser Zahl können wir abschätzen, dass der Effekt der Änderung 2000-2001 etwa -0,07 betrug . Dies spiegelt einen plötzlichen Abfall von 0,07 (7%) einer vollen Lebensdauer innerhalb von Kohorte B wider. Nach diesem Rückgang zeigt das horizontale Muster der Residuen, dass sich der vorherige Trend fortgesetzt hat, jedoch auf dem neuen niedrigeren Niveau. Dieser Teil der Analyse sollte als explorativ angesehen werden : Er war nicht speziell geplant, sondern entstand aufgrund eines überraschenden Vergleichs zwischen den Daten (1991-2009) und der Anpassung an die übrigen Daten.

107

Es scheint keinen Grund zu geben, ein komplizierteres Modell an diese Daten anzupassen, zumindest nicht, um abzuschätzen, ob es im Laufe der Zeit einen echten Trend bei RLE gibt: Es gibt einen. Wir könnten noch weiter gehen und die Daten in Werte vor 2001 und nach 2000 aufteilen, um unsere Schätzungen zu verfeinernder Trends, aber es wäre nicht ganz ehrlich, Hypothesentests durchzuführen. Die p-Werte wären künstlich niedrig, da die Aufspaltungstests nicht im Voraus geplant waren. Aber als Erkundungsübung ist eine solche Einschätzung in Ordnung. Erfahren Sie alles, was Sie können, aus Ihren Daten! Achten Sie nur darauf, sich nicht durch Überanpassung (was fast sicher ist, wenn Sie mehr als ein halbes Dutzend Parameter verwenden oder automatisierte Anpassungstechniken verwenden) oder Daten-Snooping zu täuschen: Achten Sie auf den Unterschied zwischen formeller Bestätigung und informeller (aber wertvolle) Datenexploration.

Fassen wir zusammen:

  • Durch Auswahl eines geeigneten Maßes für die Lebenserwartung (RLE), Halten der Hälfte der Daten, Anpassen eines einfachen Modells und Testen dieses Modells anhand der verbleibenden Daten haben wir mit großer Sicherheit festgestellt, dass : ein konsistenter Trend vorlag; es war über einen langen Zeitraum nahezu linear; und es gab einen plötzlichen anhaltenden Rückgang der RLE im Jahr 2001.

  • Unser Modell ist auffallend sparsam : Es benötigt nur zwei Zahlen (Steigung und Achsenabschnitt), um die frühen Daten genau zu beschreiben. Es braucht ein Drittel (das Datum der Pause, 2001), um eine offensichtliche, aber unerwartete Abweichung von dieser Beschreibung zu beschreiben. In Bezug auf diese Beschreibung mit drei Parametern gibt es keine Ausreißer. Das Modell wird nicht wesentlich verbessert, indem die serielle Korrelation (der Schwerpunkt der Zeitreihentechniken im Allgemeinen) charakterisiert, versucht wird, die gezeigten kleinen individuellen Abweichungen (Residuen) zu beschreiben oder kompliziertere Anpassungen einzuführen (z. B. Hinzufügen einer quadratischen Zeitkomponente) oder Modellierung von Änderungen in der Größe der Residuen im Laufe der Zeit).

  • Der Trend lag bei 0,009 RLE pro Jahr . Dies bedeutet, dass mit jedem Jahr der Lebenserwartung innerhalb von Kohorte B 0,009 (fast 1%) einer vollen erwarteten normalen Lebensdauer hinzugefügt wurden. Im Verlauf der Studie (37 Jahre) würde dies 37 * 0,009 = 0,34 = ein Drittel einer Verbesserung der gesamten Lebensdauer betragen. Der Rückschlag im Jahr 2001 reduzierte diesen Gewinn von 1972 bis 2009 auf etwa 0,28 einer vollen Lebensdauer (obwohl die Gesamtlebenserwartung in diesem Zeitraum um 10% stieg).

  • Obwohl dieses Modell verbessert werden könnte, würde es wahrscheinlich mehr Parameter benötigen und es ist unwahrscheinlich, dass die Verbesserung groß ist (wie das nahezu zufällige Verhalten der Residuen bestätigt). Insgesamt sollten wir uns also damit zufrieden geben , eine so kompakte, nützliche und einfache Beschreibung der Daten für so wenig analytische Arbeit zu erhalten.

whuber
quelle
: Wobei die identifizierten einmaligen Impulse in der Prognose keine Rolle spielen:
IrishStat
2

Ich denke, dass die Antwort von whuber unkompliziert und für eine Person ohne Zeitreihe wie mich einfach zu verstehen ist. Ich stütze meine auf seine. Meine Antwort ist in R nicht Stata, da ich Stata nicht so gut kenne.

Ich frage mich, ob die Frage uns tatsächlich fragt, ob der absolute Anstieg gegenüber dem Vorjahr in beiden Kohorten gleich ist (und nicht relativ). Ich halte dies für wichtig und illustriere es wie folgt. Betrachten Sie das folgende Spielzeugbeispiel:

a <- 21:40
b <- 41:60
x <- 1:20
plot(y = a, x = x, ylim = c(0, 60))
points(y = b, x = x, pch = 2)

Geben Sie hier die Bildbeschreibung ein

Hier haben wir 2 Kohorten, von denen jede einen stetigen Anstieg des mittleren Überlebens um 1 Jahr pro Jahr aufweist. Daher erhöhen sich beide Kohorten in diesem Beispiel jedes Jahr um den gleichen absoluten Betrag, aber die RLE gibt Folgendes an:

rle <-  a / b
plot(rle)

Geben Sie hier die Bildbeschreibung ein

Was offensichtlich einen Aufwärtstrend hat und der p-Wert, um die Hypothese zu testen, dass der Gradient der Linie 0 2.2e-16 ist. Die angepasste gerade Linie (ignorieren wir, dass diese Linie gekrümmt aussieht) hat einen Gradienten von 0,008. Obwohl beide Kohorten in einem Jahr den gleichen absoluten Anstieg verzeichnen, weist der RLE einen Anstieg auf.

Wenn Sie also RLE verwenden, um nach absoluten Erhöhungen zu suchen, lehnen Sie die Nullhypothese unangemessen ab.

Berechnen Sie anhand der bereitgestellten Daten die absolute Differenz zwischen den Kohorten, die wir erhalten: Geben Sie hier die Bildbeschreibung ein

Dies impliziert, dass der absolute Unterschied zwischen dem mittleren Überleben allmählich abnimmt (dh die Kohorte mit dem schlechten Überleben nähert sich allmählich der Kohorte mit dem besseren Überleben an).

Andrew
quelle
: Andrew notiert die zwei Residuencluster am Ende Ihres Diagramms. Dies deutet auf einen möglichen Mangel in Ihrer Analyse hin. Leider sind selbst erfahrene Mathematiker, die auch qualifizierte Statistiker sind, manchmal keine Zeitreihenleute. Was ich vorgeschlagen habe, ist das Standardverfahren für die Zeitreihenanalyse.
IrishStat
@ Andrew Schöne Antwort. Ich habe gestimmt, ich glaube an deine Qualifikationen!
Adam
1
: Adam Danke für deine schönen Worte. Sie werden feststellen, dass ich mich nur mit Zeitreihenproblemen / -fragen befasse, bei denen ich über einige Fachkenntnisse verfüge, da ich mich in den letzten 40 Jahren auf diesen Bereich spezialisiert habe.
IrishStat
@IrishStat eine Berührung diskursiv. Schöne Erfahrung, Sie haben Punks wie mich schon vor meiner Geburt eingesetzt.
Adam
: Adam Die ganze Idee ist, anderen Menschen zu helfen. Ich hoffe wirklich, dass dies der Fall war. Ich bin verwirrt von dem Wort "Punks", da ich dieses Gefühl überhaupt nicht habe. Ich versuche nur zu helfen !
IrishStat
1

Diese beiden Zeitreihen scheinen einen deterministischen Trend zu haben. Dies ist eine Beziehung, die Sie offensichtlich vor der weiteren Analyse entfernen möchten. Persönlich würde ich wie folgt vorgehen:

1) Ich würde eine Regression für jede Zeitreihe gegen eine Konstante und eine Zeit ausführen und den Rest für jede Zeitreihe berechnen.

2) Unter Verwendung der beiden im obigen Schritt berechneten Residuenreihen würde ich eine einfache lineare Regression (ohne konstanten Term) ausführen und die t-Statistik, den p-Wert, betrachten und entscheiden, ob eine weitere Abhängigkeit zwischen diesen besteht oder nicht die zwei Serien.

Diese Analyse geht von denselben Annahmen aus, die Sie in einer linearen Regression treffen.

Lalas
quelle
: user3544 Das Ausführen einer Regression gegen eine Zeitkonstante ist eine Form des Detrending, bei der es sich um eine Form des Voraufhellens handelt. Differenzierung ist eine andere Form der Voraufhellung: Beide sind mutmaßlich, da es mehrere Trends oder unterschiedliche Formen von Differenzierungsoperatoren geben kann. Beachten Sie, dass ein Differenzierungsoperator ein besonderer Fall eines ARIMA-Filters ist, der eine Reihe in weißes Rauschen umwandelt. Im Allgemeinen möchte man X filtern, um es zu Rauschen (x) zu machen, und diesen Filter dann auf Y anwenden, um y (nicht unbedingt weißes Rauschen) zu erzeugen, um die Struktur oder die Übertragung zwischen Y und X zu
identifizieren.
: User3544 Ich hätte applaudieren sollen, dass Sie einfache, unkomplizierte einzelne Trends verwendet haben, aber ich denke, dass man manchmal nicht davon ausgehen sollte. Ein einfacher Trend ist oft nutzlos, wenn es Ebenenverschiebungen in der Serie gibt oder es eine Reihe von Trends gibt. Die Testhypothese bezüglich der Konstanz von Parametern muss robust sein und durchgeführt werden, wenn nach dem Zeitpunkt gesucht wird, an dem sich die Parameter möglicherweise geändert haben, anstatt den Punkt mithilfe des Chow-Tests willkürlich visuell auszuwählen. Es ist bekannt, dass ungewöhnliche Werte Abwärts-Bias-Tests auf Autokorrelation durchführen, weshalb man sie erkennen muss.
IrishStat
IrishStat: Ihr Applaus wird gut aufgenommen und gehört .. :) Ich stimme Ihren Kommentaren voll und ganz zu, aber angesichts der Handlungen der beiden Zeitreihen dachte ich "Lass es uns einfach halten" .. :)
Lalas
1
: user3544 Mein Lieblingszitat von Einstein lautet "Mach alles so einfach wie möglich, aber nicht einfacher" oder angepasst. Mach Modelle so einfach wie möglich, aber nicht einfacher, weil manche Leute denken, einfach ist das Ziel, während es die Ursache für unzureichende Analyse sein kann. In diesem Fall hätte Ihr Vorschlag ausgereicht, um die zeitgleiche Korrelation und die Verzögerungskorrelation zwischen den beiden Kohorten zu identifizieren und gleichzeitig die Pegelverschiebung zu beleuchten. Lesen Sie mehr: brainyquote.com/quotes/quotes/a/… .
IrishStat
0

In einigen Fällen kennt man ein theoretisches Modell, mit dem Sie Ihre Hypothese testen können. In meiner Welt fehlt dieses "Wissen" oft und man muss auf statistische Techniken zurückgreifen, die als explorative Datenanalyse klassifiziert werden können, die das Folgende zusammenfasst. Bei der Analyse von Zeitreihendaten, die nicht stationär sind, dh autokorrelative Eigenschaften haben, sind einfache Kreuzkorrelationstests oft irreführend, sofern leicht positive Ergebnisse leicht gefunden werden können. Eine der frühesten Analysen hierzu findet sich in Yule, GU, 1926, "Warum erhalten wir manchmal unsinnige Korrelationen zwischen Zeitreihen? Eine Studie über Stichproben und die Art von Zeitreihen", Journal of the Royal Statistical Society 89, 1– 64. Alternativ, wenn eine oder mehrere der Serien selbst durch außergewöhnliche Aktivitäten beeinflusst wurden (siehe whuber " der plötzliche Rückschlag in Kohorte B im Jahr 2001), der signifikante Beziehungen effektiv verbergen kann. Das Erkennen einer Beziehung zwischen Zeitreihen erstreckt sich nun auf die Untersuchung nicht nur zeitgleicher Beziehungen, sondern auch möglicher verzögerter Beziehungen. Wenn eine der Reihen durch Anomalien (einmalige Ereignisse) verursacht wurde, müssen wir unsere Analyse durch Bereinigung um diese einmaligen Verzerrungen stabilisieren. In der Literatur zu Zeitreihen wird aufgezeigt, wie die Beziehung durch Voraufhellung identifiziert werden kann, um die Struktur klarer zu identifizieren. Das Voraufhellen passt die intrakorrelative Struktur an, bevor die interkorrelative Struktur identifiziert wird. Beachten Sie, dass das Schlüsselwort die Struktur identifiziert. Dieser Ansatz führt leicht zu folgendem "nützlichen Modell": Das Erkennen einer Beziehung zwischen Zeitreihen erstreckt sich nun auf die Untersuchung nicht nur zeitgleicher Beziehungen, sondern auch möglicher verzögerter Beziehungen. Wenn eine der Reihen durch Anomalien (einmalige Ereignisse) verursacht wurde, müssen wir unsere Analyse durch Bereinigung um diese einmaligen Verzerrungen stabilisieren. In der Literatur zu Zeitreihen wird aufgezeigt, wie die Beziehung durch Voraufhellung identifiziert werden kann, um die Struktur klarer zu identifizieren. Das Voraufhellen passt die intrakorrelative Struktur an, bevor die interkorrelative Struktur identifiziert wird. Beachten Sie, dass das Schlüsselwort die Struktur identifiziert. Dieser Ansatz führt leicht zu folgendem "nützlichen Modell": Das Erkennen einer Beziehung zwischen Zeitreihen erstreckt sich nun auf die Untersuchung nicht nur zeitgleicher Beziehungen, sondern auch möglicher verzögerter Beziehungen. Wenn eine der Reihen durch Anomalien (einmalige Ereignisse) verursacht wurde, müssen wir unsere Analyse durch Bereinigung um diese einmaligen Verzerrungen stabilisieren. In der Literatur zu Zeitreihen wird aufgezeigt, wie die Beziehung durch Voraufhellung identifiziert werden kann, um die Struktur klarer zu identifizieren. Das Voraufhellen passt die intrakorrelative Struktur an, bevor die interkorrelative Struktur identifiziert wird. Beachten Sie, dass das Schlüsselwort die Struktur identifiziert. Dieser Ansatz führt leicht zu folgendem "nützlichen Modell": Wenn eine der Reihen durch Anomalien (einmalige Ereignisse) verursacht wurde, müssen wir unsere Analyse durch Anpassung an diese einmaligen Verzerrungen stabilisieren. In der Literatur zu Zeitreihen wird aufgezeigt, wie die Beziehung durch Voraufhellung identifiziert werden kann, um die Struktur klarer zu identifizieren. Das Voraufhellen passt die intrakorrelative Struktur an, bevor die interkorrelative Struktur identifiziert wird. Beachten Sie, dass das Schlüsselwort die Struktur identifiziert. Dieser Ansatz führt leicht zu folgendem "nützlichen Modell": Wenn eine der Reihen durch Anomalien (einmalige Ereignisse) verursacht wurde, müssen wir unsere Analyse durch Anpassung an diese einmaligen Verzerrungen stabilisieren. In der Literatur zu Zeitreihen wird aufgezeigt, wie die Beziehung durch Voraufhellung identifiziert werden kann, um die Struktur klarer zu identifizieren. Das Voraufhellen passt die intrakorrelative Struktur an, bevor die interkorrelative Struktur identifiziert wird. Beachten Sie, dass das Schlüsselwort die Struktur identifiziert. Dieser Ansatz führt leicht zu folgendem "nützlichen Modell": Beachten Sie, dass das Schlüsselwort die Struktur identifiziert. Dieser Ansatz führt leicht zu folgendem "nützlichen Modell": Beachten Sie, dass das Schlüsselwort die Struktur identifiziert. Dieser Ansatz führt leicht zu folgendem "nützlichen Modell":

Y (T) = -194,45
+ [X1 (T)] [(+ 1,2396+ 1,6523B ** 1)] COHORTA

   +[X2(T)][(- 3.3924)]                :PULSE          3

   +[X3(T)][(- 2.4760)]                :LEVEL SHIFT   30 reflecting persistant  unusal activity

   +[X4(T)][(+ 1.1453)]                :PULSE         29

   +[X5(T)][(- 2.7249)]                :PULSE         11

   +[X6(T)][(+ 1.5248)]                :PULSE         27

   +[X7(T)][(+ 2.1361)]                :PULSE          4

   +[X8(T)][(+ 1.6395)]                :PULSE         13

   +[X9(T)][(- 1.6936)]                :PULSE         12

   +[X10(T)[(- 1.6996)]                :PULSE         19

   +[X11(T)[(- 1.2749)]                :PULSE         10

   +[X12(T)[(- 1.2790)]                :PULSE         17

  +       [A(T)]

Dies deutet auf eine zeitgemäße Beziehung von 1,2936 und einen verzögerten Effekt von 1,6523 hin. Beachten Sie, dass es einige Jahre gab, in denen ungewöhnliche Aktivitäten festgestellt wurden, nämlich (1975, 2001, 1983, 1999, 1976, 1985, 1985, 1984, 1991 und 1989). Die Anpassungen für die Jahre ermöglichen es uns, die Beziehung zwischen diesen beiden Serien klarer zu bewerten.

In Bezug auf die Erstellung einer Prognose

Als XARMAX ausgedrücktes Modell
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ Konstante

Die Konstante auf der rechten Seite ist: -194,45

COHORTA 0 1,239589 X (39) * 78,228616 = 96,971340

COHORTA 1 1,652332 X (38) * 77,983000 = 128,853835

I ~ L00030 0 -2,475963 X (39) * 1,000000 = -2,475963

      NET PREDICTION FOR Y(    39 )=                     28.894826 

Vier Koeffizienten sind alles, was erforderlich ist, um eine Prognose und natürlich eine Vorhersage für CohortA im Zeitraum 39 (78.228616) zu erstellen, die aus dem ARIMA-Modell für Cohorta erhalten wurde.

IrishStat
quelle
4
Neun von 38 Jahren zeigen "ungewöhnliche" Aktivitäten? In einem Modell mit (anscheinend) 25 Parametern?! Mit dieser Interpretation stimmt etwas nicht. Haben Sie, abgesehen von all diesen Impulsen und der Pegelverschiebung, die nichtlineare Komponente bereits im Trend der Kohorte b gefunden?
whuber
2
Wie lauten die Zahlen in der rechten Spalte (3, 30, 29, 11 usw.)? Sie scheinen Teil Ihrer Beschreibung der Daten zu sein und sind daher auch Parameter. Selbst wenn wir sie nicht zählen, erscheint es übertrieben, 14 Parameter zur Beschreibung von 38 Werten zu verwenden, insbesondere wenn die Frage einfach "Gibt es einen Trend?" Lautet. Was genau ist der Trend? Wo in all diesen Schätzungen gräbt man es aus? Wenn sich ein Arzt an Sie wenden und fragen würde: "Okay, was wurde für die Patienten in Kohorte B seit 1972 erreicht?", Können Sie dies in einem klaren Satz sagen?
whuber
2
Zu "sehr leistungsfähiger Vorhersage": Ich verstehe möglicherweise falsch, was Ihr Modell bedeutet, aber im Allgemeinen wäre eine bessere Beschreibung einer Methode (Zeitreihen oder auf andere Weise), die ein Viertel der Daten als "ungewöhnlich" identifiziert und "angepasst" werden muss, besser "überpasst" und "unnötig komplex". Ihre Behauptung, in Kohorte B keinen Trend zu haben, ist einfach unglaublich.
whuber
2
@Adam, da diese Analyse die in den 10 "Impulsen" enthaltenen Informationen über die Variabilität im Wesentlichen ignoriert, sind alle Vorhersagebänder, die sie um Prognosen platziert, stark zu optimistisch (zu eng). Darüber hinaus wird bei einer tieferen Analyse, die alle Daten enthält (im Gegensatz zu meiner veranschaulichenden Analyse, die nur die erste Hälfte umfasst), eine nichtlineare Komponente erkannt, die mit einem leichten Rückgang des Trends vereinbar ist, und auch dies wird hier nicht erkannt. Von größerer Bedeutung als die Prognose ist das Verständnis des Effekts 2000-2001: Wenn er wiederholt werden könnte, sind wahrscheinlich alle Prognosen falsch.
whuber
1
@whuber Ich kenne zwar nicht den ganzen Fachjargon, aber deine Erklärung macht sehr viel Sinn. Vielen Dank.
Adam
-1

Diese Antwort enthält einige Grafiken Residuen aus einem nützlichen Modell! [] [1]

Ist von Interventionen gereinigtacf von ModellrestenGeben Sie hier die Bildbeschreibung ein Passform und Prognose von CohortB RESTE AUS DEM MODELLtatsächliche Passform und Prognose

IrishStat
quelle