Die Sattelpunktnäherung an eine Wahrscheinlichkeitsdichtefunktion (sie funktioniert ebenfalls für Massenfunktionen, aber ich werde hier nur auf die Dichten eingehen) ist eine überraschend gut funktionierende Näherung, die als Verfeinerung des zentralen Grenzwertsatzes angesehen werden kann. Es funktioniert also nur in Umgebungen, in denen es einen zentralen Grenzwertsatz gibt, es sind jedoch strengere Annahmen erforderlich.
Wir gehen davon aus, dass die momenterzeugende Funktion existiert und doppelt differenzierbar ist. Dies impliziert insbesondere, dass alle Momente existieren. Sei eine Zufallsvariable mit Momenterzeugungsfunktion (mgf)
und cgf (kumulative Erzeugungsfunktion) (wobei den natürlichen Logarithmus bezeichnet). In der Entwicklung werde ich Ronald W. Butler genau verfolgen: "Sattelpunktapproximationen mit Anwendungen" (CUP). Wir werden die Sattelpunktnäherung unter Verwendung der Laplace-Näherung auf ein bestimmtes Integral entwickeln. Schreiben
XM(t)=EetX
K(t)=logM(t)logeK(t)=∫∞−∞etxf(x)dx=∫∞−∞exp(tx+logf(x))dx=∫∞−∞exp(−h(t,x))dx
wobei
. Nun wollen wir Taylor in , wobei als Konstante betrachtet wird. Dies ergibt
wobei ' bezeichnet die Differenzierung bezüglich x . Man beachte, dass
h '(t, x) = - t - \ frac {\ partial} {\ partial x} \ log f (x) \\ h' '(t, x) = - \ frac {\ partial ^ 2} {\ partial x ^ 2} \ log f (x)> 0
(die letzte Ungleichung nach Annahme, wie sie für die Annäherung benötigt wird). Sei x_th(t,x)=−tx−logf(x)h(t,x)xth(t,x)=h(t,x0)+h′(t,x0)(x−x0)+12h′′(t,x0)(x−x0)2+⋯
′xh′(t,x)=−t−∂∂xlogf(x)h′′(t,x)=−∂2∂x2logf(x)>0
xtsei die Lösung für h′(t,xt)=0 . Wir nehmen an, dass dies ein Minimum für h(t,x) als Funktion von x . Wenn Sie diese Erweiterung im Integral verwenden und den ⋯ Teil vergessen , erhalten Sie
eK(t)≈∫∞−∞exp(−h(t,xt)−12h′′(t,xt)(x−xt)2)dx=e−h(t,xt)∫∞−∞e−12h′′(t,xt)(x−xt)2dx
ist ein Gaußsches Integral und ergibt
eK(t)≈e−h(t,xt)2πh′′(t,xt)−−−−−−−√.
Dies ergibt (eine erste Version) der Sattelpunktnäherung als
f(xt)≈h′′(t,xt)2π−−−−−−−√exp(K(t)−txt)(*)
Beachten Sie, dass die Approximation die Form einer Exponentialfamilie hat.
Jetzt müssen wir einige Arbeiten erledigen, um dies in eine nützlichere Form zu bringen.
Aus wir
Wenn man dies in Bezug auf differenziert, erhält man
(nach unseren Annahmen), Die Beziehung zwischen und ist also monoton, also ist gut definiert. Wir brauchen eine Annäherung an . Zu diesem Zweck lösen wir aush′(t,xt)=0t=−∂∂xtlogf(xt).
xt∂t∂xt=−∂2∂x2tlogf(xt)>0
txtxt∂∂xtlogf(xt)(*)
logf(xt)=K(t)−txt−12log2π−∂2∂x2tlogf(xt).(**)
Unter der Annahme, dass der letzte Term oben nur schwach von abhängt , so dass seine Ableitung in Bezug auf ungefähr Null ist (wir werden darauf zurückkommen, um dies zu kommentieren), erhalten wir
Bis zu dieser Annäherung haben wir dann diese
so dass und durch die Gleichung in Beziehung gesetzt werden müssen
, die Sattelpunktgleichung genannt wird. xtxt∂logf(xt)∂xt≈(K′(t)−xt)∂t∂xt−t
0≈t+∂logf(xt)∂xt=(K′(t)−xt)∂t∂xt
txtK′(t)−xt=0,(§)
Was wir jetzt bei der Bestimmung von vermissen, ist
und das können wir durch implizite Differenzierung der Sattelpunktgleichung finden :
Das Ergebnis ist, dass (bis zu unserer Näherung)
Wenn wir alles zusammenfassen, haben wir die endgültige Sattelpunktnäherung der Dichte als
(*)h′′(t,xt)=−∂2logf(xt)∂x2t=−∂∂xt(∂logf(xt)∂xt)=−∂∂xt(−t)=(∂xt∂t)−1
K′(t)=xt∂xt∂t=K′′(t).
h′′(t,xt)=1K′′(t)
f(x)f(xt)≈eK(t)−txt12πK′′(t)−−−−−−−−√.
Um
dies praktisch anzuwenden, um die Dichte an einem bestimmten Punkt anzunähern, lösen wir die Sattelpunktgleichung für diesen , um zu finden .xtxtt
Die Sattelpunktapproximation wird oft als eine Annäherung an die Dichte des Mittelwerts angegeben , basierend auf IId Beobachtungen . Die kumulative Erzeugungsfunktion des Mittelwerts ist einfach , so dass die Sattelpunktnäherung für den Mittelwert zu
nX1,X2,…,XnnK(t)f(x¯t)=enK(t)−ntx¯tn2πK′′(t)−−−−−−−−√
Schauen wir uns ein erstes Beispiel an. Was erhalten wir, wenn wir versuchen, die normale Standarddichte
anzunähern. Die mgf ist also
so dass die Sattelpunktgleichung und die Sattelpunktnäherung ergibt
also in diesem Fall ist die Annäherung genau.f(x)=12π−−√e−12x2
M(t)=exp(12t2)K(t)=12t2K′(t)=tK′′(t)=1
t=xtf(xt)≈e12t2−txt12π⋅1−−−−−√=12π−−√e−12x2t
Betrachten wir eine ganz andere Anwendung: Bootstrap in der Transformationsdomäne, wir können Bootstrapping analytisch durchführen, indem wir die Sattelpunktannäherung an die Bootstrap-Verteilung des Mittelwerts verwenden!
Angenommen, wir haben iid von einer Dichte (im simulierten Beispiel verwenden wir eine Exponentialverteilung in Einheiten). Aus der Stichprobe berechnen wir die empirische Momenterzeugungsfunktion
und dann die empirische cgf . Wir benötigen die empirische mgf für den Mittelwert, der und die empirische cgf für den Mittelwert
dem wir eine Sattelpunktnäherung konstruieren. Im Folgenden einige R-Code (R-Version 3.2.3): X1,X2,…,XnfM^(t)=1n∑i=1netxi
K^(t)=logM^(t)log(M^(t/n)n)K^X¯(t)=nlogM^(t/n)
set.seed(1234)
x <- rexp(10)
require(Deriv) ### From CRAN
drule[["sexpmean"]] <- alist(t=sexpmean1(t)) # adding diff rules to
# Deriv
drule[["sexpmean1"]] <- alist(t=sexpmean2(t))
###
make_ecgf_mean <- function(x) {
n <- length(x)
sexpmean <- function(t) mean(exp(t*x))
sexpmean1 <- function(t) mean(x*exp(t*x))
sexpmean2 <- function(t) mean(x*x*exp(t*x))
emgf <- function(t) sexpmean(t)
ecgf <- function(t) n * log( emgf(t/n) )
ecgf1 <- Deriv(ecgf)
ecgf2 <- Deriv(ecgf1)
return( list(ecgf=Vectorize(ecgf),
ecgf1=Vectorize(ecgf1),
ecgf2 =Vectorize(ecgf2) ) )
}
### Now we need a function solving the saddlepoint equation and constructing
### the approximation:
###
make_spa <- function(cumgenfun_list) {
K <- cumgenfun_list[[1]]
K1 <- cumgenfun_list[[2]]
K2 <- cumgenfun_list[[3]]
# local function for solving the speq:
solve_speq <- function(x) {
# Returns saddle point!
uniroot(function(s) K1(s)-x,lower=-100,
upper = 100,
extendInt = "yes")$root
}
# Function finding fhat for one specific x:
fhat0 <- function(x) {
# Solve saddlepoint equation:
s <- solve_speq(x)
# Calculating saddlepoint density value:
(1/sqrt(2*pi*K2(s)))*exp(K(s)-s*x)
}
# Returning a vectorized version:
return(Vectorize(fhat0))
} #end make_fhat
(Ich habe versucht, dies als allgemeinen Code zu schreiben, der leicht für andere CGFS geändert werden kann, aber der Code ist immer noch nicht sehr robust ...)
Dann verwenden wir dies für eine Stichprobe von zehn unabhängigen Beobachtungen aus einer Exponentialverteilung. Wir machen das übliche nichtparametrische Bootstrapping "von Hand", zeichnen das resultierende Bootstrap-Histogramm für den Mittelwert und überzeichnen die Sattelpunkt-Approximation:
> ECGF <- make_ecgf_mean(x)
> fhat <- make_spa(ECGF)
> fhat
function (x)
{
args <- lapply(as.list(match.call())[-1L], eval, parent.frame())
names <- if (is.null(names(args)))
character(length(args))
else names(args)
dovec <- names %in% vectorize.args
do.call("mapply", c(FUN = FUN, args[dovec], MoreArgs = list(args[!dovec]),
SIMPLIFY = SIMPLIFY, USE.NAMES = USE.NAMES))
}
<environment: 0x4e5a598>
> boots <- replicate(10000, mean(sample(x, length(x), replace=TRUE)), simplify=TRUE)
> boots <- replicate(10000, mean(sample(x, length(x), replace=TRUE)), simplify=TRUE)
> hist(boots, prob=TRUE)
> plot(fhat, from=0.001, to=2, col="red", add=TRUE)
Geben Sie die resultierende Handlung:
Die Annäherung scheint ziemlich gut zu sein!
Wir könnten eine noch bessere Annäherung erhalten, indem wir die Sattelpunktannäherung und die Neuskalierung integrieren:
> integrate(fhat, lower=0.1, upper=2)
1.026476 with absolute error < 9.7e-07
Die auf dieser Näherung basierende kumulative Verteilungsfunktion konnte nun durch numerische Integration gefunden werden, es ist jedoch auch möglich, eine direkte Sattelpunktnäherung dafür vorzunehmen. Aber das ist für einen anderen Beitrag, das ist lang genug.
Abschließend noch einige Kommentare aus der obigen Entwicklung. In wir eine Annäherung vorgenommen, bei der der dritte Term im Wesentlichen ignoriert wurde. Warum können wir das tun? Eine Beobachtung ist, dass für die normale Dichtefunktion der ausgelassene Term nichts beiträgt, so dass die Approximation genau ist. Da es sich bei der Sattelpunktnäherung um eine Verfeinerung des zentralen Grenzwertsatzes handelt, nähern wir uns dem Normalwert, sodass dies gut funktionieren sollte. Man kann sich auch konkrete Beispiele anschauen. Betrachtet man die Annäherung des Sattelpunkts an die Poisson-Verteilung und den ausgelassenen dritten Term, so wird dies in diesem Fall zu einer Trigammafunktion, die in der Tat eher flach ist, wenn das Argument nicht nahe bei Null liegt.(**)
Schließlich, warum der Name? Der Name stammt von einer alternativen Herleitung, die Techniken der komplexen Analyse verwendet. Später können wir das untersuchen, aber in einem anderen Beitrag!
Hier werde ich auf die Antwort von kjetil eingehen und mich auf die Situationen konzentrieren, in denen die kumulatorenerzeugende Funktion (CGF) unbekannt ist, diese aber aus den Daten , wobei geschätzt werden kann . Der einfachste CGF-Schätzer ist wahrscheinlich der von Davison und Hinkley (1988) der in kjetils Bootstrap-Beispiel verwendet wird. Dieser Schätzer hat den Nachteil, dass die resultierende Sattelpunktgleichung nur dann gelöst werden kann, wenn , der Punkt, an dem die Sattelpunktdichte bewertet werden soll, in die konvexe Hülle von .x1,…,xn x∈Rd
Wong (1992) und Fasiolo et al. (2016) haben dieses Problem gelöst, indem sie zwei alternative CGF-Schätzer vorgeschlagen haben, die so ausgelegt sind, dass die Sattelpunktgleichung für jedes gelöst werden kann . Die Lösung von Fasiolo et al. (2016), genannt Extended Empirical Saddlepoint Approximation ESA, ist im esaddle R-Paket implementiert , und ich gebe hier einige Beispiele.y
Betrachten Sie als einfaches univariates Beispiel die Verwendung von ESA, um eine Dichte von zu approximieren .Gamma(2,1)
Das ist die Passform
Wenn wir den Teppich betrachten, ist es klar, dass wir die ESA-Dichte außerhalb des Bereichs der Daten bewertet haben. Ein schwierigeres Beispiel ist das folgende verzogene bivariate Gaußsche.
Die Passform ist ziemlich gut.
quelle
Dank der großartigen Antwort von Kjetil versuche ich, selbst ein kleines Beispiel zu finden, über das ich gerne sprechen möchte, weil es einen relevanten Punkt aufzuwerfen scheint:
Betrachten Sie die -Verteilung. und seine Derivate werden gefunden hier und werden wiedergegeben in den Funktionen im Code unten.χ2(m) K(t)
Dies erzeugt
Dies ergibt offensichtlich eine Annäherung, die die qualitativen Merkmale der Dichte richtig macht, aber, wie in Kjetils Kommentar bestätigt, ist es keine richtige Dichte, da sie überall über der exakten Dichte liegt. Das erneute Skalieren der Approximation wie folgt ergibt den im Folgenden dargestellten, fast vernachlässigbaren Approximationsfehler.
quelle
approximationerror_unscaled/approximationerror_scaled
Es stellt sich heraus, um 25.90798 zu schweben