Vergleich der Genauigkeit zweier verschiedener Modelle anhand der statistischen Signifikanz

10

Ich arbeite an der Vorhersage von Zeitreihen. Ich habe zwei Datensätze und . Ich habe drei Vorhersagemodelle: . Alle diese Modelle werden unter Verwendung von Stichproben in Datensatz trainiert , und ihre Leistung wird unter Verwendung der Stichproben in Datensatz gemessen . Angenommen, die Leistungsmetrik ist MSE (oder etwas anderes). Die MSE dieser Modelle, wenn sie für den Datensatz gemessen werden, sind und . Wie kann ich testen, ob die Verbesserung eines Modells gegenüber einem anderen statistisch signifikant ist?D1={x1,x2,....xn}D2={xn+1,xn+2,xn+3,....,xn+k}M1,M2,M3D1D2D2MSE1,MSE2,MSE3

, , , und die Gesamtzahl der Stichproben in Datensatz auf deren Grundlage diese MSE berechnet werden, beträgt 2000. Wie kann ich testen, , und signifikant unterschiedlich sind . Ich würde mich sehr freuen, wenn mir jemand bei diesem Problem helfen kann.MSE1=200MSE2=205MSE3=210D2MSE1MSE2MSE3

Mashud
quelle

Antworten:

1

Einer der oben verlinkten Beiträge spielt auf die Verwendung eines Likelihood-Ratio-Tests an, obwohl Ihre Modelle ineinander verschachtelt sein müssen, damit dies funktioniert (dh alle Parameter in einem der Modelle müssen in dem Modell vorhanden sein, gegen das Sie es testen). .

RMSE ist eindeutig ein Maß dafür, wie gut das Modell zu den Daten passt. Dies gilt jedoch auch für das Wahrscheinlichkeitsverhältnis. Die Wahrscheinlichkeit für eine bestimmte Person, sagt Frau Chen, ist die Wahrscheinlichkeit, dass eine Person mit all ihren Parametern das Ergebnis hatte, das sie hatte. Die gemeinsame Wahrscheinlichkeit des Datensatzes ist die Wahrscheinlichkeit von Frau Chen * die Wahrscheinlichkeit von Frau Gundersen * die Wahrscheinlichkeit von Frau Johnson * ... usw.

Das Hinzufügen einer Kovariate oder einer beliebigen Anzahl von Kovariaten kann das Wahrscheinlichkeitsverhältnis nicht wirklich verschlechtern, glaube ich nicht. Es kann jedoch das Wahrscheinlichkeitsverhältnis um einen nicht signifikanten Betrag verbessern. Modelle, die besser passen, haben eine höhere Wahrscheinlichkeit. Sie können formal testen, ob Modell A besser zu Modell B passt. Sie sollten eine Art LR-Testfunktion in jeder von Ihnen verwendeten Software zur Verfügung haben, aber im Grunde ist die LR-Teststatistik -2 * die Differenz der Protokolle der Wahrscheinlichkeiten, und sie ist Chi-Quadrat mit df = der Differenz in der Anzahl verteilt von Parametern.

Es ist auch akzeptabel, den AIC oder BIC der beiden Modelle zu vergleichen und den niedrigsten zu finden. AIC und BIC sind im Grunde die Log-Wahrscheinlichkeiten, die für die Anzahl der Parameter bestraft werden.

Ich bin mir nicht sicher, ob ich einen T-Test für die RMSEs verwenden soll, und ich würde mich tatsächlich dagegen lehnen, wenn Sie keine theoretischen Arbeiten finden, die in diesem Bereich durchgeführt wurden. Wissen Sie grundsätzlich, wie die Werte von RMSE asymptotisch verteilt sind? Ich bin mir nicht sicher. Einige weitere Diskussionen hier:

http://www.stata.com/statalist/archive/2012-11/index.html#01017

Weiwen Ng
quelle
0

Diese Antwort berücksichtigt nicht die Tatsache, dass Ihre Daten eine Zeitreihe bilden, aber ich denke nicht, dass dies ein Problem wäre.

In diesem Beitrag wird bei Verwendung von RMSE die Verwendung eines T-Tests vorgeschlagen: Testen der Signifikanz von RMSE von Modellen

Sie können auch die Pearson-Korrelation verwenden, um Ihre Passform zu beurteilen. Laut diesem Beitrag können Sie den Wolfe-t-Test dafür verwenden: Statistische Signifikanz der Zunahme der Korrelation

Ich versuche gerade, über das gleiche Problem zu lernen. Ich würde mich über detailliertere Antworten freuen.

Büchel
quelle
0

Es gibt zwei Möglichkeiten, dies zu tun, aber zuerst werde ich die Idee in Frage stellen, dass Sie nur eine auswählen möchten. Höchstwahrscheinlich wird ein Ensemble-Modell der drei separaten Modelle die beste Leistung von allen erzielen.

Der wichtigste, vielleicht beste Weg, dies zu tun, besteht darin, das Modell zu verwenden, um Konfidenzintervalle um die Bewertungsmetrik herum zu erhalten. Dies erfolgt üblicherweise über Bootstrapping ( oder Poisson-Bootstrap ).

Der andere Weg ist die Verwendung eines statistischen Tests. Bei jedem Test werden unterschiedliche Annahmen getroffen, und diese werden häufig verwendet, um einen Wert oder eine Stichprobe aus einer Verteilung zu vergleichen und nicht eine Einzelpunktbewertung. Viele dieser statistischen Tests erfordern formal eine Unabhängigkeit, die Sie normalerweise nicht haben, wenn Sie mehrere Ergebnisse desselben Modells oder mehrerer Modelle über Zeitreihendaten hinweg vergleichen.

Insbesondere bei der Vorhersage von Zeitreihen sollten Sie zu jedem Zeitpunkt Backtesting mit Kreuzvalidierung und Bewertung von Zug- und Testfehlern durchführen ( Beispiel ). Wenn Sie dies tun, bezweifle ich, dass Ihre Modelle alle so ähnlich funktionieren, dass Sie einen statistischen Test zur Unterscheidung benötigen. höchstwahrscheinlich werden Sie große Unterschiede feststellen.

Beachten Sie auch, dass historische Bewertungsmetriken (Vergleich der tatsächlichen mit der Prognose) allein für die Vorhersagebewertung nicht ausreichen. Wenn zwei Vorhersagen gegeben sind, die perfekt zu bekannten historischen Daten passen, aber eine auch mit früheren Vorstellungen über die Zukunft übereinstimmt und die andere eindeutig verletzt (z. B. wenn eine auf Null verschwindet, Sie aber Grund zu der Annahme haben, dass dies nicht passieren kann), bevorzugen Sie die Vorhersage das passt besser zu deinem Prior.

Michael Brundage
quelle