Muss ein Vorhersageintervall den Mittelwert enthalten?

8

Ich habe ein großes Problem mit einem konzeptionellen Problem, das ich mir ausgedacht habe.

Angenommen, ein Unternehmen hat eine stark verzerrte Verteilung . Etwas Ähnliches wie ein Exponential oder Lognormal nur extremer. Stellen Sie sich nun vor, die Verteilung sei so verzerrt, dass der Mittelwert der Verteilung höher ist als das 99% -Perzentil der Verteilung. (Aka 1-2 extrem höhere Werte führten dazu, dass der Mittelwert im Vergleich zum Rest der Verteilung extrem hoch war).

Wenn diese Verteilung verwendet würde, um einen zukünftigen Wert vorherzusagen (auch bekannt als Zufallsstichprobe aus der Verteilung), würde der Mittelwert per Definition nicht im 95% -Vorhersageintervall liegen?

In meinem Gehirn ist ein Präditionsintervall von 95% ein Bereich, zwischen dem 95% aller zukünftigen Werte liegen werden. Für jede Verteilung sollte dies genau dem 0,025-Perzentil an der Untergrenze und dem 0,975-Perzentil an der Obergrenze entsprechen. Wenn der Mittelwert höher als das 0,975-Perzentil ist, liegt der Mittelwert nicht innerhalb der 95%. Vorhersageintervall '.

Denke ich falsch darüber nach? Es scheint seltsam, eine Prognose als zu melden

  • Prognostizierter Mittelwert: 6.000.0000
  • 95% Vorhersageintervall: [400.5000].
Ein anderer Traum
quelle
1
Was würden Sie tun, wenn Sie einen Wert aus einer Verteilung vorhersagen, die überhaupt keinen Mittelwert hat? Warum ist es Ihrer Meinung nach seltsam, eine Vorhersage für eine solche Verteilung zu treffen?
whuber
Actuall Whuber ... was würden Sie tun, wenn Sie einen Wert aus einer Verteilung ohne Mittelwert vorhersagen ... Sie können Monte Carlo nicht ausführen, weil es keinen Mittelwert hätte ... Sie könnten die Verteilung der Variablen selbst anzeigen ... Würden Sie vielleicht den Median verwenden? Ich kenne die Antwort auf diese Frage eigentlich nicht, und vielleicht ist das ein Teil der Verwirrung.
Anotherdream
Ich denke, ein Teil der Verwirrung ist dies. Mir wurde gesagt, ich solle ein Vorhersageintervall für eine Variable angeben, die sich SEHR ähnlich verhält. Die "Vorhersagepunktschätzung" war der gleitende 6-Monats-Durchschnitt. Der gleitende 6-Monats-Durchschnitt war jedoch höher als das obere Perzentil ... Als solches enthielt mein "Vorhersageintervall" meine "Vorhersageschätzung" nicht. Es hört sich so an, als würden alle sagen, dass der Mittelwert zunächst ein schlechter Wert war (was ich sehen kann ... ich habe dieses Ding nicht gebaut, haha). Verfolge ich das richtig? Vielleicht sollte ein anderer Wert als "Vorhersagepunktschätzung" verwendet werden?
Anotherdream
Ihr erster Kommentar ist interessant, wie er den Mittelwert unnötig einzuführen scheint. Wenn Sie eine gute Simulation der Verteilung der Variablen selbst haben, warum reichen diese Informationen nicht aus, um eine gute Vorhersage zu treffen? Wäre es nicht wahrscheinlich, dass ein zukünftiger Wert im Hauptteil dieser Verteilung liegen würde? Warum sollte der Mittelwert in diesem Fall relevant sein?
whuber
Whuber. Ich stimme voll und ganz mit dem überein, was Sie sagen ... Es scheint, dass der Mittelwert in diesem Beispiel überhaupt nicht relevant ist ... Aber bedeutet dies, dass Sie, wenn Sie jemals eine Simulation ausführen und "eine Variable" verwenden (in diesem Fall) Der Mittelwert) Als Punktschätzung, und Ihre Residuen sind schrecklich verzerrt, können Sie einfach die ursprüngliche Verteilung neu erstellen, indem Sie die Schätzung der verzerrten Punkte und die zufällige Stichprobe aus den Residuen nehmen und die Ergebnisse addieren. Ich habe gerade die ursprüngliche Distanz aus der "voreingenommenen" Schätzung und der Restdistanz neu erstellt ... Was nützt die ursprüngliche Schätzung überhaupt?
Anotherdream

Antworten:

7

Nein, ein Vorhersageintervall muss nicht den Mittelwert enthalten. Ich denke, ein Teil Ihrer Verwirrung könnte darin bestehen, Vorhersageintervalle und Konfidenzintervalle zu mischen. Während das Ziel eines Vorhersageintervalls darin besteht, mit einiger Sicherheit zukünftige Werte der Zufallsvariablen zu enthalten, besteht das Ziel eines Konfidenzintervalls darin, den wahren Mittelwert der Verteilung zu enthalten.

Wie Sie in stark verzerrten Verteilungen erwähnt haben, scheinen diese Ideen im Widerspruch zueinander zu stehen. Wichtig ist, den Wert in jeder der bereitgestellten Statistiken zu erkennen.

Der Vorhersagewert des Mittelwerts ist:

1) Kumulativ: Wenn mehr Stichproben eingehen, tendiert ihr Durchschnitt zum wahren Mittelwert. Wenn also der kumulative Wert von Interesse ist (wenn Sie beispielsweise spielen und mit Gewinnen oder Verlusten zu tun haben, sind Sie an kumulativen Effekten interessiert), ist der Mittelwert sehr nützlich.

2) Minimiert quadratische Residuen: Während quadratische Residuen eine etwas willkürliche Menge von Interesse sind, lohnt es sich zu wissen, was Ihre Vorhersage minimiert.

Wenn Ihr Ziel jedoch darin besteht, den absoluten Fehler in Ihren Vorhersagen zu minimieren, ist der prognostizierte Mittelwert von 6.000.000 nicht das, was ich annehmen würde.

jlimahaverford
quelle
Danke für die Zeit jlimahaverfold. Wenn ich Sie also richtig verstehe, ist das Folgende eine wahre Aussage (ich glaube, es tut sich einfach falsch an, haha). Wenn ich eine Variable hätte, bei der mir eine "Punkt" -Schätzung (unter Verwendung des Mittelwerts) gegeben wurde, die Residuen jedoch extrem nicht normal waren (z. B. exponentiell), könnte ich die "Prognoseverteilung" erhalten, indem ich aus der Residuenverteilung 10k im Grunde zufällig eine Stichprobe mache Zeiten (Monte Carlo) und dann die neu erstellte Verteilung würde das Prognoseintervall? Ich denke, so sollte das gemacht werden, aber ich möchte bestätigen, dass ich es richtig verstehe
Anotherdream
Um meine Frage etwas weiter zu klären. Wenn jemand eine Prognose für den gleitenden Durchschnitt von 6 Monaten erstellt hat, aber nicht normale Residuen in dieser Schätzung hatte ... Ist es richtig, die Prognoseverteilung zu erstellen, indem aus der Residuenverteilung eine Stichprobe gezogen und der Wert zur Schätzung des mittleren Prognosepunkts hinzugefügt und dann berechnet wird das 95% Vorhersageintervall aus den Perzentilen dieser resultierenden Verteilung? Können Sie auch angeben, was Sie außer dem "Mittelwert" noch tun könnten, wenn ich den absoluten Fehler in einer bestimmten Vorhersage für stark verzerrte Daten minimieren wollte? Wieder danke ich Ihnen sehr für Ihre Hilfe!
Anotherdream
Ich habe immer noch Probleme, die Frage zu interpretieren. Lassen Sie mich klarstellen, wonach ich suche. Ich habe eine Zufallsvariable X und Daten {x1, x2, ... xN}. Ich gehe davon aus, dass dieser gleitende 6-Monats-Durchschnitt etwas in der Art von \ sum_ {j = i} ^ {i + 180} x_i / 180 ist. Etwas in dieser Richtung. Was ich damit gemeint habe, die absoluten Residuen zu minimieren, ist einfach eine andere objektive Funktion. Während der Mittelwert die Summe der quadratischen Residuen minimiert, minimiert dies nicht unbedingt die absoluten Residuen, aber ein Wert (nicht unbedingt eindeutig).
jlimahaverford
+1, sehr schöner Punkt über eine mögliche Verwirrung über Vorhersageintervalle und Konfidenzintervalle. Wenn Sie den erwarteten absoluten Fehler minimieren möchten, verwenden Sie übrigens den Median der Vorhersageverteilung als Punktprognose ( siehe hier ). Dies wird natürlich immer in einem (zentralen) Vorhersageintervall enthalten sein.
Stephan Kolassa
Stephan. Ihr Kommentar hilft einem Haufen. Ich denke, dies muss in Zukunft bei diesen Schätzungen geschehen. Ich denke wirklich, das Problem ist, dass der Mittelwert der falsche Ort war, um mit der Verwendung solcher verzerrten Verteilungen zu beginnen ... Aber da sie hier angefangen haben, war ich verwirrt mit dem, was ich tun konnte ... Ist es allgemein "akzeptabel", einen Median zu verwenden als 'Prognosepunktschätzung' und Grenzen setzen? Ich bin sehr neu in der Prognose und bin mir nicht sicher, ob dies üblicherweise mit verzerrten Verteilungen geschieht.
Anotherdream
1

Betrachten Sie die Verteilung möglicher Renditen im St. Petersburg-Paradoxon:

Prob (1) = 1/2

Prob (2) = 1/4

Prob (4) = 1/8 ... Prob (2 ^ n) = 1/2 ^ (n + 1)

Der Mittelwert divergiert und liegt außerhalb eines vernünftigen Vorhersageintervalls. (Der Median ist in diesem Fall 1, aber ich weiß nicht, was ich für meine Punktprognose verwenden würde. Vielleicht hat Stephan Kolassa, siehe oben, einen Vorschlag.)

Es gibt noch eine weitere Komplikation: Angenommen, Sie möchten ein Vorhersageintervall von 95% für eine bestimmte Verteilung (außer dem gerade erwähnten). Gehen Sie von der 2,5% -Kachel zur 97,5% -Kachel oder von der 0 zur 95. oder der 5. zur 100. oder ....? Die Antwort hängt wahrscheinlich davon ab, warum Sie die Frage stellen.

Emil Friedman
quelle