Auswahl der Box-Jenkins-Modelle

Das Box-Jenkins-Modellauswahlverfahren in der Zeitreihenanalyse beginnt mit der Betrachtung der Autokorrelations- und der partiellen Autokorrelationsfunktion der Reihe. Diese Diagramme können das geeignete und in einem ARMA -Modell vorschlagen . Das Verfahren wird fortgesetzt, indem der Benutzer aufgefordert wird, die AIC / BIC-Kriterien anzuwenden, um das sparsamste Modell unter denjenigen auszuwählen, die ein Modell mit einem Fehlerbegriff für weißes Rauschen erzeugen. $p$ $q$ $(p,q)$

Ich habe mich gefragt, wie sich diese Schritte der visuellen Inspektion und der kriteriumbasierten Modellauswahl auf die geschätzten Standardfehler des endgültigen Modells auswirken. Ich weiß, dass viele Suchvorgänge in einem Querschnittsbereich beispielsweise Standardfehler nach unten drängen können.

Wie wirkt sich die Auswahl der richtigen Anzahl von Verzögerungen anhand der Daten (ACF / PACF) auf die Standardfehler für Zeitreihenmodelle aus?

Ich würde vermuten, dass die Auswahl des Modells anhand der AIC / BIC-Werte einen ähnlichen Einfluss hat wie bei Querschnittsmethoden. Ich weiß eigentlich auch nicht viel über diesen Bereich, daher wären auch Kommentare zu diesem Punkt sehr willkommen.

Wenn Sie das genaue Kriterium für jeden Schritt aufschreiben, können Sie dann den gesamten Prozess booten, um die Standardfehler abzuschätzen und diese Probleme zu beseitigen.

regression time-series arima model-selection box-jenkins Charlie
quelle

Ist die Verzerrung von Standardfehlern (von Parametern?) in a-theoretischen ARMA-Modellen so wichtig? Die ARMA-Modelle ASFAIK werden hauptsächlich für kurzfristige Vorhersagen verwendet. Die Probleme mit der Parameterinterpretation und deren Eigenschaften sind weniger (am wenigsten?) Wichtig. Wenn Sie nicht die Merkmale eines Innovationsprozesses (Fehlerterm) meinen, planen Sie natürlich, relevante Vorhersageintervalle zu erstellen.

Dmitrij Celov

@Dmitrij, Es gibt zwei Hauptgründe, warum ich mir Sorgen über die Abweichungen bei den Standardfehlern der Koeffizienten mache. Das erste ist, wie Sie angedeutet haben, die Erstellung von Vorhersageintervallen. Die zweite ist das Testen auf strukturelle Brüche im Modell, eine häufige Frage, die ein Ökonom beantworten möchte. Die Standardfehler, die mit einem Auswahlverfahren generiert werden, sollten zu klein sein, was zu enge Vorhersageintervalle und zu große Teststatistiken zur Folge hat.

Charlie

In a-theoretischen Modellen (dh es gibt keine Theorie, keine Struktur) haben strukturelle Brüche wenig mit den Parametern zu tun. Es handelt sich jedoch um einige allgemeine Tests in Bezug auf das Verhalten der Residuen des Modells. In diesem Fall sind unvoreingenommene Schätzungen von Modellparametern weniger wichtig, ARMA hat einfach keine Interpretation von Strukturmodellen. So sind sparsame Modelle in der Tat bessere Prädiktoren, da sie die normalerweise schlechten Eigenschaften kleiner Stichprobenschätzer und die Genauigkeit der Vorhersage gut ausgleichen.

Dmitrij Celov

Beachten Sie, dass selbst wenn Sie den Datenerzeugungsprozess kennen, der viele Parameter enthält, ein einfacheres Modell in kleinen Stichproben wahrscheinlich bessere Vorhersagen liefert, die Parameter eines solchen Modells jedoch im strukturellen Kontext stark verzerrt sind (keine variable Verzerrung)!

Dmitrij Celov

Antworten:

Jedes Modellauswahlverfahren wirkt sich auf die Standardfehler aus, und dies wird kaum jemals berücksichtigt. Beispielsweise werden Vorhersageintervalle abhängig vom geschätzten Modell berechnet, und die Parameterschätzung und Modellauswahl werden normalerweise ignoriert.

Es sollte möglich sein, die gesamte Prozedur zu booten, um die Auswirkung des Modellauswahlprozesses abzuschätzen. Beachten Sie jedoch, dass das Bootstrapping von Zeitreihen schwieriger ist als das normale Bootstrapping, da die serielle Korrelation erhalten bleiben muss. Der Block-Bootstrap ist ein möglicher Ansatz, obwohl er aufgrund der Blockstruktur eine gewisse serielle Korrelation verliert.

Rob Hyndman
quelle

Meiner Meinung nach unterscheidet sich die Auswahl der entsprechenden Anzahl von Verzögerungen nicht von der Auswahl der Anzahl von Eingabeserien in einem schrittweisen vorwärtsgerichteten Regressionsverfahren. Die zunehmende Bedeutung von Verzögerungen oder einer bestimmten Eingabereihe ist die Grundlage für die vorläufige Modellspezifikation.

Da Sie behauptet haben, dass das acf / pacf die einzige Grundlage für die Modellauswahl von Box-Jenkins ist, lassen Sie mich Ihnen sagen, was mich einige Erfahrungen gelehrt haben. Wenn eine Serie eine ACF aufweist, die nicht zerfällt, schlägt der Box-Jenkins-Ansatz (ca. 1965) vor, die Daten zu differenzieren. Wenn eine Serie jedoch eine Pegelverschiebung aufweist, wie die Nil-Daten , dann ist die "visuell offensichtliche" Nichtstationarität ein Symptom für die erforderliche Struktur, aber Differenzierung ist nicht das Heilmittel. Dieser Nil-Datensatz kann ohne Differenzierung modelliert werden, indem einfach zuerst die Notwendigkeit einer Pegelverschiebung ermittelt wird. In ähnlicher Weise werden wir unter Verwendung von 1960-Konzepten unterrichtet, dass, wenn das acf eine saisonale Struktur aufweist ( dhsignifikante Werte bei Verzögerungen von s, 2s, 3s, ...), dann sollten wir eine saisonale ARIMA-Komponente einbeziehen. Betrachten Sie zu Diskussionszwecken eine Reihe, die um einen Mittelwert herum und in festgelegten Intervallen stationär ist, beispielsweise jeden Juni einen "hohen Wert". Diese Serie wird richtig behandelt, indem eine "altmodische" Dummy-Serie von 0 und 1 (im Juni) eingebaut wird, um die saisonale Struktur zu behandeln. Ein saisonabhängiges ARIMA-Modell verwendet fälschlicherweise Speicher anstelle einer nicht angegebenen, aber auf das Auffinden wartenden X-Variablen. Diese beiden Konzepte zur Identifizierung / Einbeziehung nicht spezifizierter deterministischer Strukturen sind direkte Anwendungen der Arbeit von I. Chang, William Bell, George Tiao, R. Tsay , Chen et al. (Ab 1978) unter dem allgemeinen Konzept der Interventionserkennung.

Selbst heute führen einige Analysten gedankenlos Strategien zur Speichermaximierung durch und nennen sie "Automatisches ARIMA", ohne zu erkennen, dass "gedankenlose Speichermodellierung" davon ausgeht, dass deterministische Strukturen wie Impulse, Pegelverschiebungen, saisonale Impulse und lokale Zeittrends nicht existieren oder noch schlimmer sind Rolle bei der Modellidentifikation. Das ist so, als würde man den Kopf in den Sand stecken, IMHO.

IrishStat
quelle

Vielen Dank für die hervorragenden Ratschläge zur Modellauswahl, aber ich war daran interessiert, wie sich dieser Prozess auf unsere Folgerung auswirkt.

Charlie

Charlie: Ich glaube nicht, dass eine vorab durchgeführte Datendiagnose wie das Überprüfen von Autokorrelationen oder Kreuzkorrelationen oder ein anderes Modellidentifizierungsverfahren wie grafische Darstellungen einen Einfluss auf die statistische Signifikanz geschätzter Parameter hat. Das ist meine Meinung und "hier stehe ich kann ich nicht anders". Vielen Dank für die Anerkennung und wenn ich dem jungen Charlie auf irgendeine Weise helfen kann, melde dich bitte bei mir, da ich es liebe, als unterstützende (unbezahlte!) Ressource in Doktorarbeiten aufgeführt zu werden.

IrishStat