Wie baue ich einen innovativen Ausreißer bei Beobachtung 48 in mein ARIMA-Modell ein?

Ich arbeite an einem Datensatz. Nachdem ich einige Modellidentifikationstechniken angewendet hatte, kam ich mit einem ARIMA (0,2,1) -Modell heraus.

Ich habe die detectIOFunktion im Paket TSAin R verwendet, um bei der 48. Beobachtung meines ursprünglichen Datensatzes einen innovativen Ausreißer (IO) zu erkennen .

Wie kann ich diesen Ausreißer in mein Modell integrieren, damit ich ihn für Prognosezwecke verwenden kann? Ich möchte das ARIMAX-Modell nicht verwenden, da ich in R möglicherweise keine Vorhersagen daraus machen kann. Gibt es andere Möglichkeiten, dies zu tun?

Hier sind meine Werte in der Reihenfolge:

VALUE <- scan()
  4.6  4.5  4.4  4.5  4.4  4.6  4.7  4.6  4.7  4.7  4.7  5.0  5.0  4.9  5.1  5.0  5.4
  5.6  5.8  6.1  6.1  6.5  6.8  7.3  7.8  8.3  8.7  9.0  9.4  9.5  9.5  9.6  9.8 10.0
  9.9  9.9  9.8  9.8  9.9  9.9  9.6  9.4  9.5  9.5  9.5  9.5  9.8  9.3  9.1  9.0  8.9
  9.0  9.0  9.1  9.0  9.0  9.0  8.9  8.6  8.5  8.3  8.3  8.2  8.1  8.2  8.2  8.2  8.1
  7.8  7.9  7.8  7.8

Das sind eigentlich meine Daten. Sie sind Arbeitslosenquoten über einen Zeitraum von 6 Jahren. Es gibt dann 72 Beobachtungen. Jeder Wert darf höchstens eine Dezimalstelle haben

r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models b2amen
quelle

Sie können in allen anderen Zeiträumen einen Dummy erstellen, der 1 für und 0 ist. Schätzen Sie dann das Modell neu. Dies verhindert, dass dieser Ausreißer die Prognose verzerrt. Wenn Sie dies nicht im Sinn haben, sollten Sie den zweiten Absatz näher erläutern.

t = 48

$t=48$

Dimitriy V. Masterov

@Gen_b Sie haben Recht, es sollte Sie stören, da dies wahrscheinlich zu differenziert ist und eine stornierende MA ergibt (1). Eine falsche Identifizierung resultiert aus der Verwendung unangemessener Tools.

IrishStat

In den zweiten Unterschieden haben Sie etwas, das wie ein Ausreißer aussieht, aber es wird anscheinend durch einen kleinen additiven Sprung bei Beobachtung 47 in der Originalserie verursacht, der, wenn er zweimal differenziert wird, eine Periode später wie ein großer negativer Ausreißer aussieht. Wenn Sie etwas Einfaches tun, um diesen kleinen Effekt bei Beobachtung 47 zu entfernen (fast alles Vernünftige), erscheinen im zweiten Unterschied keine Ausreißer. Ich würde sagen, es ist vielleicht besser als AO auf der ursprünglichen Skala zu sehen.

Glen_b -State Monica

In diesem Datensatz ist viel los, aber das lokale zeitliche Verhalten (Korrelation, Saisonalität usw.) ist das geringste. Wenn Sie Daten wie diese blind als eine Folge von Zahlen analysieren, besteht die Gefahr, dass Sie lächerliche Ergebnisse erzielen (oder schlimmer noch). Was können Sie uns über die Bedeutung dieser Daten sagen ? Sind es vielleicht Messungen von etwas an einer Überwachungsstation? Eine wirtschaftliche Zeitreihe? Ein Diagramm des biologischen Wachstums? Wenn Sie etwas über das zugrunde liegende Phänomen verstehen, können Sie in der Regel weitaus mehr zur Identifizierung eines Modells beitragen, als dies mit statistischer Software möglich ist.

whuber

@whuber: das sind arbeitslosenquoten über einen zeitraum von 6 jahren!

b2amen

Antworten:

Wenn dann ist . $Y(t) = [\theta/\phi][A(t)+\text{IO}(t)]$ $Y^\text{*}(t) = [\theta/\phi][A(t)] + [\theta/\phi][\text{IO}(t)]$

Wenn zum Beispiel und ... dann ist $\theta = 1$ $\phi = [1-.5B]$
$Y^\text{*}(t) = [1/(1-.5B)][A(t)]$
$\quad\quad\quad\quad+ \text{IO}(t) - .5\cdot \text{IO}(t-1) + .25\cdot \text{IO}(t-2) - .125\cdot \text{IO}(t-3)-\ldots\,.$

Wenn zum Beispiel die Schätzung des Effekts 10,0 beträgt, dann ist Dabei ist die Indikatorvariable für 0 oder 1.
$Y^{*}(t) = [1/(1-.5B)][A(t)]$ $\quad\quad\quad\quad+ 10\cdot \text{IO}(t) - 5\cdot \text{IO}(t-1) + 2.5\cdot \text{IO}(t-2) - 1.25\cdot \text{IO}(t-3)-\ldots\,.$
$\text{IO}$

Auf diese Weise können Sie sehen, dass die Auswirkung der Anomalie nicht nur augenblicklich ist, sondern auch ein Gedächtnis hat.

Software wie AUTOBOX (mit der ich vertraut bin) identifiziert keine E / A-Effekte (sondern AO-Effekte) und identifiziert eine Folge von Anomalien mit Werten von 10, -5, 2,5, -1,25, ... ab Periode . $t$

Wenn der Benutzer dieses seltene Ereignis sieht, kann er die Übertragung zwischen der AO-Intervention mit einer dynamischen Struktur anstelle einer reinen Zählerstruktur wiederholen und das gleiche Ergebnis erzielen, als wäre es eine E / A. Effekt wurde aufgenommen. $[w(b)/d(b)]$ $[w(b)]$

Jedes Mal, wenn Sie Speicher einbinden, sei es aufgrund eines differenzierenden Operators oder einer ARMA-Struktur, ist dies ein stillschweigendes Eingeständnis von Unwissenheit aufgrund ausgelassener kausaler Reihen. Dies gilt auch für die Notwendigkeit, deterministische Interventionsreihen wie Impulse / Pegelverschiebungen, saisonale Impulse oder lokale Zeittrends einzubeziehen. Diese Dummy-Variablen sind ein notwendiger Proxy für ausgelassene bestimmte benutzerdefinierte kausale Variablen. Oft ist alles, was Sie haben, die Reihe von Interessen und angesichts der Qualifikationen, die ich dargelegt habe, können Sie die Zukunft basierend auf der Vergangenheit vorhersagen, ohne die genaue Art der zu analysierenden Daten zu kennen. Das einzige Problem ist, dass Sie die Heckscheibe verwenden, um die Straße vorherzusagen ... eine gefährliche Sache.

nachdem die Daten veröffentlicht wurden ...

Ein vernünftiges Modell ist a (1,1,0) Geben Sie hier die Bildbeschreibung ein und die AO-Anomalien wurden in den Zeiträumen 39, 41, 47, 21 und 69 (nicht in Zeitraum 48) identifiziert. Die Residuen dieses Modells scheinen frei von offensichtlichen Strukturen zu sein. UND Der Fice AO bewertet eine optimale Darstellung der Aktivität, die sich in der Aktivität widerspiegelt, die nicht in der Geschichte der Zeitreihen enthalten ist. Ich würde denken, dass der ACF des überdifferenzierten Modells des OP die Unzulänglichkeit des Modells widerspiegeln würde. Hier ist das Modell. Geben Sie hier die Bildbeschreibung ein Auch hier wird kein R-Code geliefert, da das Problem oder die Gelegenheit im Bereich der Modellidentifikation / -revision / -validierung liegt. Zum Schluss eine Darstellung der tatsächlichen / angepassten und prognostizierten Serien.! [Bildbeschreibung hier eingeben] [6]

IrishStat
quelle

Danke für deine Antwort; aber ich wollte eigentlich einen R-Code für mein Modell.

b2amen

@ b2amen Ja, ich habe verstanden, ABER Glen_b wollte ein paar "Sachen" und ich dachte, ich würde auf ihn antworten.

IrishStat

Danke für die Bearbeitung. Sie und ich würden gute Partner machen!

IrishStat

@ IrishStat: Meine Daten sind in der ursprünglichen Frage enthalten. Ich hoffe, das könnte Ihnen helfen, mich zu unterstützen. Trotzdem danke

b2amen

@IrishStat: Ich mag deine Ausgabe. Es sieht für mich ziemlich ordentlich aus. Und welche Software haben Sie verwendet? Aber können Sie erklären, wie Sie einen AR identifiziert haben (2,1,0)? Danke

b2amen