Ich habe ein großes Problem mit einem konzeptionellen Problem, das ich mir ausgedacht habe.
Angenommen, ein Unternehmen hat eine stark verzerrte Verteilung . Etwas Ähnliches wie ein Exponential oder Lognormal nur extremer. Stellen Sie sich nun vor, die Verteilung sei so verzerrt, dass der Mittelwert der Verteilung höher ist als das 99% -Perzentil der Verteilung. (Aka 1-2 extrem höhere Werte führten dazu, dass der Mittelwert im Vergleich zum Rest der Verteilung extrem hoch war).
Wenn diese Verteilung verwendet würde, um einen zukünftigen Wert vorherzusagen (auch bekannt als Zufallsstichprobe aus der Verteilung), würde der Mittelwert per Definition nicht im 95% -Vorhersageintervall liegen?
In meinem Gehirn ist ein Präditionsintervall von 95% ein Bereich, zwischen dem 95% aller zukünftigen Werte liegen werden. Für jede Verteilung sollte dies genau dem 0,025-Perzentil an der Untergrenze und dem 0,975-Perzentil an der Obergrenze entsprechen. Wenn der Mittelwert höher als das 0,975-Perzentil ist, liegt der Mittelwert nicht innerhalb der 95%. Vorhersageintervall '.
Denke ich falsch darüber nach? Es scheint seltsam, eine Prognose als zu melden
- Prognostizierter Mittelwert: 6.000.0000
- 95% Vorhersageintervall: [400.5000].
quelle
Antworten:
Nein, ein Vorhersageintervall muss nicht den Mittelwert enthalten. Ich denke, ein Teil Ihrer Verwirrung könnte darin bestehen, Vorhersageintervalle und Konfidenzintervalle zu mischen. Während das Ziel eines Vorhersageintervalls darin besteht, mit einiger Sicherheit zukünftige Werte der Zufallsvariablen zu enthalten, besteht das Ziel eines Konfidenzintervalls darin, den wahren Mittelwert der Verteilung zu enthalten.
Wie Sie in stark verzerrten Verteilungen erwähnt haben, scheinen diese Ideen im Widerspruch zueinander zu stehen. Wichtig ist, den Wert in jeder der bereitgestellten Statistiken zu erkennen.
Der Vorhersagewert des Mittelwerts ist:
1) Kumulativ: Wenn mehr Stichproben eingehen, tendiert ihr Durchschnitt zum wahren Mittelwert. Wenn also der kumulative Wert von Interesse ist (wenn Sie beispielsweise spielen und mit Gewinnen oder Verlusten zu tun haben, sind Sie an kumulativen Effekten interessiert), ist der Mittelwert sehr nützlich.
2) Minimiert quadratische Residuen: Während quadratische Residuen eine etwas willkürliche Menge von Interesse sind, lohnt es sich zu wissen, was Ihre Vorhersage minimiert.
Wenn Ihr Ziel jedoch darin besteht, den absoluten Fehler in Ihren Vorhersagen zu minimieren, ist der prognostizierte Mittelwert von 6.000.000 nicht das, was ich annehmen würde.
quelle
Betrachten Sie die Verteilung möglicher Renditen im St. Petersburg-Paradoxon:
Prob (1) = 1/2
Prob (2) = 1/4
Prob (4) = 1/8 ... Prob (2 ^ n) = 1/2 ^ (n + 1)
Der Mittelwert divergiert und liegt außerhalb eines vernünftigen Vorhersageintervalls. (Der Median ist in diesem Fall 1, aber ich weiß nicht, was ich für meine Punktprognose verwenden würde. Vielleicht hat Stephan Kolassa, siehe oben, einen Vorschlag.)
Es gibt noch eine weitere Komplikation: Angenommen, Sie möchten ein Vorhersageintervall von 95% für eine bestimmte Verteilung (außer dem gerade erwähnten). Gehen Sie von der 2,5% -Kachel zur 97,5% -Kachel oder von der 0 zur 95. oder der 5. zur 100. oder ....? Die Antwort hängt wahrscheinlich davon ab, warum Sie die Frage stellen.
quelle