Ich konnte dies in der Literatur nicht finden, aber das bedeutet wahrscheinlich, dass ich an der falschen Stelle suche. Ich suche nach der frequentistischen Vorhersageverteilung für eine eindimensionale und eine n-dimensionale Cauchy-Variable, sofern sie existiert.
Das Problem bei der n-dimensionalen Version ist, dass es nichts Vergleichbares wie eine Kovariatenmatrix gibt, sondern nur einen Skalenparameter, der die Fehler hyperzirkular macht. Ich konnte sehen, dass dies die Existenz eines zentralen Wertes störte.
BEARBEITEN
Ich möchte entweder aus einer Reihe von Beobachtungen vorhersagen, die aus einer Cauchy-Verteilung mit Zentrum und Skala oder aus einer Gleichung vorhersagen wobei wie oben aus einer Cauchy-Verteilung gezogen wird. Es könnte ein Vektor oder mehrdimensional sein, aber ich versuche, die relativen Eigenschaften der Bayes'schen gegenüber der häufig auftretenden Vorhersage zu bestimmen. Meine Daten stammen entweder aus einem abgeschnittenen Cauchy oder einem Cauchy, je nachdem welcher Satz.
Ein Vorhersageintervall funktioniert, da ich das Intervall nur auf 100% setze.
quelle
Antworten:
Die allgemeine Lösung für Ihr Problem ist die Maximum Likelihood Estimation (MLE) Ihrer Parameter . Sobald sie als , ersetzen Sie die unbekannten Parameter durch Ihr PDF, dh Sie schätzen das PDF Ihrer Zufallsvariablen als . Auf diese Weise können Sie die prädiktive Verteilung Ihrer Cauchy-Zufallsvariablen erstellen.θ θ^ f^(xich) = f(xich|θ^)
Für den univariaten Fall ist dieses Papier eine ausgezeichnete Ressource . Für das univariate Cauchy mit Zentrum und Skala hat man eine geschlossene Form, wenn Sie Beobachtungen haben. Wenn Sie Beobachtungen haben, existiert die MLE . Wenn Sie Beobachtungen, haben Sie zwei Gleichungen zu lösen , die durch Einstellen der erste Ableitung des Log-Likelihood auf Null leicht abgeleitet werden, finden hier für ihre genaue Form. (In ihrer Notation ist und .) Die numerische Lösung dieses Problems hat eine Implementierung in der R-Sprache, siehe hier .μ σ 3 - 4 n > 4 ∗ n x0= μ σ= γ
Für den multivariaten Fall müssen Sie lediglich beachten, dass die multivariate Cauchy-Verteilung einfach eine multivariate Verteilung ist, bei der der Freiheitsgradparameter auf , wie bereits in den Kommentaren ausgeführt wurde. Für die multivarate- , können Sie MLE Inferenz tun , wie hervorragend in erklärt diese Antwort , die auf dem Papier basiert, dass eric_kernfeld hingewiesen hat. Ich habe keine einsatzbereite Implementierung für diesen Algorithmus gefunden, aber wie Sie sehen werden, wenn Sie sich die bereitgestellte Antwort im Beitrag ansehen, sollte es wirklich einfach sein, sie selbst zu implementieren.t 1 t
Unterschied zur Bayes'schen Vorhersage : In der Bayes'schen Einstellung würden Sie den Parametern und einen Vorrang und Ihre Unsicherheit darüber als Zufallsvariable modellieren. Auf diese Weise erhalten Sie für beide Parameter hintere Verteilungen, die die relative Sicherheit angeben, die Sie angesichts Ihrer Daten über sie haben. Wenn Sie das hintere , erhalten Sie Ihre Vorhersageverteilung als , integriert Ihre Unsicherheit. Im Gegensatz dazu erhalten Sie mit der MLE-Einstellung Punktschätzungen für undμ σ q( μ , σ|x1, … ,xn) ∫f( x | μ , σ) q( μ , σ|x1, … ,xn) dμ dσ μ σ dass Sie sich in die Funktionsform Ihres PDFs einfügen. Entsprechend könnte man sagen, dass MLE zu einem Posterior mit der Punktmasse am Tupel und einer Wahrscheinlichkeit von bei jedem anderen Wert führt. Daher ignorieren Sie in diesem Fall alle Parameterunsicherheiten und verlassen sich auf die Tatsache, dass asymptotisch , was bedeutet, dass (gleichmäßig über) ).1 (μ^,σ^) 0 θ^ θ f^( x ) → f( x ) x
quelle
Man könnte eine Monte-Carlo-Methode verwenden, um empirische Schätzungen für Beziehungen zwischen und dem Vorhersageintervall für .x1....xi xi+n
Motivation: Wenn wir das Vorhersageintervall basierend auf den Quartilen / CDF einer Verteilung schätzen, die sich aus Schätzungen der maximalen Wahrscheinlichkeit (oder anderen Arten von Parameterschätzungen) ergibt, unterschätzen wir die Größe des Intervalls. In der Praxis fällt der Punkt tatsächlich häufiger als vorhergesagt aus dem Bereich heraus.xi+n
Die folgende Abbildung zeigt, um wie viel wir die Größe des Intervalls unterschätzen, indem wir ausdrücken, wie oft eine neue Messung außerhalb des Vorhersagebereichs liegt, basierend auf Parameterschätzungen. (basierend auf Berechnungen mit 2000 Wiederholungen für die Vorhersage)xi
Wenn wir beispielsweise ein Vorhersageintervall von 99% verwenden (wodurch 1% Fehler erwartet werden), erhalten wir fünfmal mehr Fehler, wenn die Stichprobengröße 3 betrug.
Diese Art von Berechnungen kann verwendet werden, um empirische Beziehungen herzustellen, wie wir den Bereich korrigieren können, und die Berechnungen zeigen, dass für große die Differenz kleiner wird (und irgendwann kann man sie für irrelevant halten).n
quelle
Es scheint, dass Sie lediglich die Parameter der Cauchy-Verteilung aus dem Datensatz abschätzen müssenxi . Hier ist, was Stephens vorschlägt, es ist nicht MLE, und der Autor behauptet, diese Methode sei konsistent und stabiler als MLE, obwohl Sie berücksichtigen müssen, dass dies im letzten Jahrhundert geschrieben wurde.
wobei Cauchy wie folgt parametrisiert wird:
Sobald Sie die Verteilung haben, wird Ihre Punktprognose seinα^ . Beachten Sie, dass Sie, da es keine Momente gibt, nicht zeigen können, dass Ihre Prognose im üblichen Sinne optimal ist, z. B. um die erwarteten Quadratkosten zu minimieren.
quelle