Auto.arima vs Autobox unterscheiden sie sich?

16

Aus dem Lesen von Beiträgen auf dieser Site weiß ich, dass es eine R- Funktion gibt auto.arima (im forecast Paket ). Ich weiß auch, dass IrishStat , ein Mitglied dieser Site, Anfang der 1980er Jahre das kommerzielle Paket autobox erstellt hat . Da diese beiden Pakete heute existieren und automatisch Arima-Modelle für bestimmte Datensätze auswählen, was machen sie anders? Werden sie möglicherweise unterschiedliche Modelle für denselben Datensatz erstellen?

Michael R. Chernick
quelle
Danke für die Bearbeitung @Wayne. Ich bin nicht mit dem R-Prognosepaket vertraut, aber ich bin mir sicher, dass ich das mit der Autobox vergleichen möchte.
Michael R. Chernick
(Ich habe gerade eine zweite kleine Änderung von "auto-arima" in "auto.arima" vorgenommen.) Es gibt möglicherweise andere auto.arimaFunktionen in anderen Paketen, aber es gibt definitiv eine in forecast, deren Beschreibung lautet: "Gibt das beste ARIMA-Modell gemäß zurück entweder auf AIC-, AICc- oder BIC-Wert. Die Funktion führt eine Suche über ein mögliches Modell innerhalb der angegebenen Ordnungsbeschränkungen durch. "
Wayne
1
AUTOBOX behandelt die automatische Identifizierung auf ganzheitliche Weise, indem es die automatische Identifizierung durchläuft, indem es ein Modell erstellt, das nur statistisch signifikante Parameter aufweist, während der Fehlerprozess frei von erkennbaren Strukturen ist Auf diese Weise folgt es dem Iterationsskript. Frühe Versionen von AUTOBOX um 1975 versuchten, den "Ein-Statistik-Ansatz" zu verwenden, aber es wurde festgestellt, dass dies fehlte, da identifizierte Modelle entweder eine redundante oder alberne Struktur hatten (beispielsweise 5, 1, 2) oder eine offensichtlich unzureichende Struktur aufwiesen.
IrishStat
1
@IrishStat Das klingt nach einem guten Ansatz. Was tun Sie, wenn Sie zwei konkurrierende Modelle finden, die Ihren Anforderungen entsprechen? Es scheint möglich. Empfehlen Sie ein "optimales" Modell, das auf bestimmten Kriterien basiert? Mir ist klar, dass die Auswahl eines Modells mit nur "statistisch signifikanten Parametern" möglicherweise zu Sparsamkeit führt. Es ist jedoch nicht möglich, einen AR-Prozess mit niedrigen Parametern und ein anderes AEMA-Modell niedriger Ordnung zu haben, bei dem alle Parameter statistisch signifikant sind und die Residuen weiß aussehen Lärm?
Michael R. Chernick
1
@IriehStat. Ich stimme mit Ihnen ein. Am Ende, was machst du für den Benutzer. Stellen Sie nur ein Modell zur Verfügung, oder geben Sie eine geordnete Liste der konkurrierenden akzeptablen Modelle an? Wenn dies nicht der Fall ist, ist dies möglicherweise eine gute Option, um die Liste auf eine kleine Zahl zu beschränken.
Michael R. Chernick

Antworten:

9

michael / wayne

AUTOBOX würde definitiv ein anderes Modell liefern / identifizieren, wenn eine oder mehrere der folgenden Bedingungen erfüllt sind

1) Die Daten enthalten Impulse

2) Die Daten enthalten mindestens eine Pegel- / Stufenverschiebung

3) wenn die Daten saisonale Impulse enthalten

4) Die Daten enthalten mindestens einen lokalen Zeittrend, der nicht einfach behoben werden kann

5) wenn sich die Parameter des Modells mit der Zeit ändern

6) wenn sich die Varianz der Fehler mit der Zeit ändert und keine Leistungstransformation ausreicht.

In Bezug auf ein bestimmtes Beispiel würde ich vorschlagen, dass Sie beide eine Zeitreihe auswählen / erstellen und beide im Web veröffentlichen. Ich werde AUTOBOX verwenden, um die Daten in einem unbeaufsichtigten Modus zu analysieren, und ich werde die Modelle in der Liste veröffentlichen. Anschließend führen Sie das R-Programm aus, und jeder von Ihnen führt eine separate objektive Analyse beider Ergebnisse durch, wobei er auf Ähnlichkeiten und Unterschiede hinweist. Schicken Sie mir diese beiden Modelle mit allen verfügbaren Unterlagen einschließlich der endgültigen Fehlerbedingungen für meine Kommentare. Fassen Sie diese Ergebnisse zusammen und präsentieren Sie sie der Liste. Bitten Sie dann die Leser der Liste, für welche Vorgehensweise sie am besten stimmen.

IrishStat
quelle
Meinst du einen Wettbewerb wie diesen ?
Whuber
@whuber Ja. Vielleicht sogar mit einem "unbekannten / codierten Lehrbuchbeispiel", das als Hintergrund dienen könnte.
IrishStat
22

Sie stellen zwei unterschiedliche Ansätze für zwei ähnliche, aber unterschiedliche Probleme dar. Ich schrieb auto.arimaund @IrishStat ist der Autor von Autobox.

auto.arima()Passend für (saisonale) ARIMA-Modelle mit Driftbedingungen. Autoboxpasst Übertragungsfunktionsmodelle an Pegelverschiebungen und Ausreißer an. Ein ARIMA-Modell ist ein Spezialfall eines Übertragungsfunktionsmodells.

Selbst wenn Sie die Pegelverschiebungen und die Ausreißererkennung in ausgeschaltet hätten Autobox, würden Sie ein anderes ARIMA-Modell erhalten, auto.arima()da bei der Identifizierung der ARIMA-Parameter unterschiedliche Entscheidungen getroffen wurden.

Bei meinen Tests an den M3- und M-Wettkampfdaten auto.arima()entstehen genauere Vorhersagen als Autoboxfür diese Daten. Allerdings Autoboxwird es besser machen mit Daten große Ausreißern und Pegelverschiebungen enthalten.

Rob Hyndman
quelle
3
Ich glaube, dass Sie sich vor vielen, vielen Jahren auf eine Version von AUTOBOX bezogen haben. AUTOBOX hat sich in diesen vielen Jahren stark verändert. Wenn ich mich nicht irre, haben Sie nur die Genauigkeiten von 1 Ursprung verglichen, und Sie sind sich sicher, dass dies eine Stichprobe von 1 ist. Die Genauigkeiten müssen aus einer Reihe von Ursprüngen bewertet werden.
IrishStat
15
Ich beziehe mich auf veröffentlichte Vergleiche über Tausende von Serien. Als Chefredakteur des International Journal of Forecasting habe ich meiner Meinung nach eine Vorstellung davon, wie Prognosen zu bewerten sind.
Rob Hyndman
2
Ich wollte mit dieser Frage nicht argumentieren, wer den besten Prognosealgorithmus hat. Ich denke, sowohl autobox als auch auto.arima sind wahrscheinlich sehr gute Pakete. Ein Kopf-an-Kopf-Vergleich ist aus vielen Gründen möglicherweise nicht fair. 1) Der Benutzer ist möglicherweise nicht sachkundig genug, um sie beurteilen zu können. 2) Prognosegenauigkeit für eine einzelne Zeitreihe ist ein Mistschuss. Man könnte einen niedrigeren mittleren quadratischen Fehler in der Vorhersage haben, aber wenn Zufälligkeit involviert ist, muss dies berücksichtigt werden. Sie müssen sich mehrere Serien ansehen, und wie IrishStat vorschlägt, sollten Sie sich verschiedene Ausgangspunkte ansehen.
Michael R. Chernick
Auch andere Punkte zum Einleiten der Vorhersage wären nützlich. 3) In der ARIMA-Welt gibt es mehrere Darstellungen für dasselbe Zeitreihenmodell, endliche AR-Prozesse haben unendlich gleitende Durchschnittsdarstellungen und umgekehrt. Ein AR niedriger Ordnung könnte also fast dasselbe sein wie ein gleitender Durchschnitt hoher Ordnung oder ein ARMA. Box schlug immer vor, dem Grundsatz der Sparsamkeit zu folgen. Wenn Sie jedoch viele Daten haben, können Sie gute Schätzungen der Parameter erhalten, und das Modell hoher Ordnung kann nahezu dieselben Vorhersagen wie das sparsame generieren. 4) Die beiden Pakete haben unterschiedliche Ziele.
Michael R. Chernick
3
Die Methode hat sich im Laufe der Zeit weiterentwickelt. Dave Reilly ist auf dieser Site als IrishStat sehr aktiv und hat sehr offen erklärt, wie es allgemein funktioniert. Es ist ein wesentlicher Aspekt des Geschäfts, über Geschäftsgeheimnisse und proprietäre Algorithmen zu verfügen. Aus seiner Sicht schadet R seinem Geschäft genauso wie es für SPlus ist. Aber er zeigt keine Bitterkeit und ist sehr bereit, seine Software zu demonstrieren, wie Sie sehen können, dass er es heute tat. Er ist auch bereit, Tests gegen Konkurrenten durchzuführen, und ich glaube, er hat an Wettbewerben mit Zeitreihenprognosen teilgenommen.
Michael R. Chernick
11

EDIT: Nach Ihrem Kommentar, ich glaube, wenn Sie viele der autoboxOptionen deaktivieren, erhalten Sie wahrscheinlich eine ähnliche Antwort auf auto.arima. Aber wenn Sie dies nicht tun, und wenn Ausreißer vorhanden sind, wird es definitiv einen Unterschied geben: Es auto.arimakümmert sich nicht um Ausreißer, während autoboxsie erkannt und entsprechend behandelt werden, was ein besseres Modell ergibt. Es kann auch andere Unterschiede geben, und ich bin sicher, IrishStat kann diese beschreiben.


Ich glaube, autoboxerkennt Ausreißer und andere Dinge, die über die Suche nach den besten AR-, I- und MA-Koeffizienten hinausgehen. Wenn dies korrekt ist, sind weitere Analysen und einige andere R-Funktionen erforderlich, um eine ähnliche Funktionalität zu erhalten. Und IrishStats ist ein wertvolles Mitglied dieser Community und sehr freundlich.

Natürlich ist R kostenlos und kann eine Unmenge von Dingen jenseits von ARIMA erledigen.

Eine andere Wahl, die für ARIMA im ökonomischen Stil kostenlos ist X13-ARIMA SEATS, ist das Open Source US Census Bureau. Es gibt Binärdateien für Windows und Linux, die sich jedoch problemlos auf meinem Mac kompilieren lassen, da ich gnus gfortran-Compiler bereits geladen hatte. Es ist der Nachfolger von X12-ARIMAund wurde erst in den letzten Tagen nach Jahren der Entwicklung und Erprobung veröffentlicht. (Es aktualisiert X12 und fügt auch SEATS / TRAMO-Funktionen hinzu. X12 ist das offizielle US-Tool, während SEATS / TRAMO von der Bank of Spain stammt und das "europäische Tool" ist.)

Ich mag X12 (und jetzt X13) sehr. Wenn Sie eine ganze Reihe von Diagnosen ausgeben und diese durchlesen und lernen, was sie bedeuten, handelt es sich tatsächlich um eine ziemlich gute Ausbildung in ARIMA und Zeitreihen. Ich habe meinen eigenen Workflow entwickelt, aber es gibt ein R-Paket x12für die meisten Arbeiten in R (Sie müssen noch die Eingabemodelldatei (".spc") für X12 erstellen).

Ich sage, dass X12 gut für ARIMA im "Economics Style" geeignet ist, um monatliche Daten mit Daten aus mehr als 3 Jahren zu bezeichnen. (Sie benötigen mehr als 5 Jahre Daten, um einige Diagnosefunktionen nutzen zu können.) Es verfügt über eine Funktion zur Identifizierung von Ausreißern, kann alle Arten von Ausreißerspezifikationen verarbeiten und kann Feiertage, gleitende Feiertage, Handelstageffekte und eine Vielzahl von wirtschaftlichen Dingen verarbeiten. Mit diesem Tool erstellt die US-Regierung saisonbereinigte Daten.

Wayne
quelle
Meiner Frage wurde wirklich ein Datensatz gegeben, mit dem die beiden Algorithmen möglicherweise unterschiedliche Modellauswahlen erzeugen. Es ist wirklich die automatische Auswahl, die mich interessiert, und nicht die anderen Diagnosefunktionen, die der eine möglicherweise hat, die der andere nicht hat. Es ist bekannt, dass die Familie der ARMA-Modelle und zwei Modelle in der Familie exakte oder nahezu exakte alternative Darstellungen desselben Modells sein können. Wenn es also geringfügige Unterschiede bei den Auswahlverfahren gibt, würde ich annehmen, dass sie unterschiedliche Modellentscheidungen treffen könnten.
Michael R. Chernick
3
@ MichaelChernick: Ah. Ich schätze, wenn Sie alle automatischen Funktionen ausschalten, erhalten autoboxSie dieselbe Antwort. Ein wichtiger Punkt bei der Verwendung autoboxist jedoch, dass Ausreißer erkannt und als solche behandelt werden, sodass das zurückgegebene Modell bei Ausreißern anders aussehen würde.
Wayne
@ Wayne +1 für zusätzliche Informationen zu X13-ARIMA SEATS und SEATS / TRAMO.
Graeme Walsh
@ Wayne Übrigens ist DEMETRA + ein weiteres "europäisches Tool" .
Graeme Walsh