Es gibt eine Reihe robuster Skalenschätzer . Ein bemerkenswertes Beispiel ist die mittlere absolute Abweichung, die sich auf die Standardabweichung als . In einem Bayes'schen Framework gibt es eine Reihe von Möglichkeiten, den Ort einer ungefähren Normalverteilung (z. B. einer durch Ausreißer kontaminierten Normalverteilung) zuverlässig abzuschätzen. Man könnte beispielsweise annehmen, dass die Daten wie bei der Verteilung oder Laplace-Verteilung verteilt sind. Nun meine Frage:
Was wäre ein Bayes'sches Modell zur robusten Messung des Maßstabs einer ungefähren Normalverteilung, robust im gleichen Sinne wie der MAD oder ähnliche robuste Schätzer?
Wie bei MAD wäre es in Ordnung, wenn sich das Bayes'sche Modell der SD einer Normalverteilung annähern könnte, wenn die Verteilung der Daten tatsächlich normalverteilt ist.
edit 1:
Ein typisches Beispiel für ein Modell, das robust gegenüber Kontamination / Ausreißern ist, wenn angenommen wird, dass die Daten in etwa normal sind, ist die Verwendung bei der Verteilung wie folgt:
Dabei ist der Mittelwert, die Skala und der Freiheitsgrad. Mit geeigneten Prioritäten für und ist eine Schätzung des Mittelwerts von , der gegenüber Ausreißern robust ist. Allerdings nicht eine konsistente Schätzung der SD sein als abhängt . Wenn zum Beispiel auf 4.0 festgelegt und das obige Modell an eine große Anzahl von Stichproben aus einer \ mathrm {Norm} -Verteilung (\ mu = 0, \ sigma = 1) angepasst würde, dann swäre um 0,82. Was ich suche, ist ein Modell, das robust ist, wie das t-Modell, aber für den SD anstelle (oder zusätzlich zu) dem Mittelwert.
2 bearbeiten:
Hier folgt ein codiertes Beispiel in R und JAGS, wie das oben erwähnte t-Modell in Bezug auf den Mittelwert robuster ist.
# generating some contaminated data
y <- c( rnorm(100, mean=10, sd=10),
rnorm(10, mean=100, sd= 100))
#### A "standard" normal model ####
model_string <- "model{
for(i in 1:length(y)) {
y[i] ~ dnorm(mu, inv_sigma2)
}
mu ~ dnorm(0, 0.00001)
inv_sigma2 ~ dgamma(0.0001, 0.0001)
sigma <- 1 / sqrt(inv_sigma2)
}"
model <- jags.model(textConnection(model_string), list(y = y))
mcmc_samples <- coda.samples(model, "mu", n.iter=10000)
summary(mcmc_samples)
### The quantiles of the posterior of mu
## 2.5% 25% 50% 75% 97.5%
## 9.8 14.3 16.8 19.2 24.1
#### A (more) robust t-model ####
library(rjags)
model_string <- "model{
for(i in 1:length(y)) {
y[i] ~ dt(mu, inv_s2, nu)
}
mu ~ dnorm(0, 0.00001)
inv_s2 ~ dgamma(0.0001,0.0001)
s <- 1 / sqrt(inv_s2)
nu ~ dexp(1/30)
}"
model <- jags.model(textConnection(model_string), list(y = y))
mcmc_samples <- coda.samples(model, "mu", n.iter=1000)
summary(mcmc_samples)
### The quantiles of the posterior of mu
## 2.5% 25% 50% 75% 97.5%
##8.03 9.35 9.99 10.71 12.14
quelle
Antworten:
Die Bayes'sche Inferenz in einem T-Rauschmodell mit einem geeigneten Prior ergibt eine robuste Schätzung von Ort und Maßstab. Die genauen Bedingungen, die die Wahrscheinlichkeit und das vorherige Erfordernis erfüllen müssen, sind in der Bayes'schen Robustheitsmodellierung von Standort- und Skalenparametern von Andrade und O'Hagan (2011) angegeben. Die Schätzungen sind robust in dem Sinne, dass eine einzelne Beobachtung die Schätzungen nicht willkürlich groß machen kann, wie in Abbildung 2 des Papiers gezeigt.
Wenn die Daten normal verteilt sind, stimmt die SD der angepassten T-Verteilung (für festes ) nicht mit der SD der generierenden Verteilung überein. Dies ist jedoch leicht zu beheben. Sei σ die Standardabweichung der Erzeugungsverteilung und sei s die Standardabweichung der angepassten T-Verteilung. Wenn die Daten mit 2 skaliert sind, wissen wir aus der Form der Wahrscheinlichkeit, dass s mit 2 skaliert werden muss. Dies impliziert, dass s = σ f ( ν ) für eine feste Funktion f ist . Diese Funktion kann numerisch durch Simulation aus einer Standardnormalen berechnet werden. Hier ist der Code, um dies zu tun:ν σ s s s=σf(ν) f
Zum Beispiel erhalte ich bei f ( ν ) = 1,18 . Der gewünschte Schätzer ist dann σ = s / f ( ν ) .ν=4 f(ν)=1.18 σ^=s/f(ν)
quelle
Da Sie eine Frage zu einem sehr genauen Problem stellen (robuste Schätzung), werde ich Ihnen eine ebenso genaue Antwort anbieten. Zunächst werde ich jedoch versuchen, eine ungerechtfertigte Annahme zu zerstreuen. Es ist nicht wahr, dass es eine robuste Bayes'sche Ortsschätzung gibt (es gibt Bayes'sche Ortsschätzer, aber wie ich weiter unten erläutere, sind sie nicht robust und anscheinend ist auch der einfachste robuste Ortsschätzer nicht bayesisch). Meiner Meinung nach sind die Gründe für das Fehlen einer Überlappung zwischen dem "Bayes'schen" und dem "robusten" Paradigma im Ortsfall eine wichtige Erklärung dafür, warum es auch keine Schätzer für die Streuung gibt, die sowohl robust als auch bayes'sch sind.
Nicht wirklich. Die resultierenden Schätzungen sind nur in einem sehr schwachen Sinne des Wortes robust. Wenn wir jedoch sagen, dass der Median für Ausreißer robust ist , meinen wir das Wort robust in einem viel stärkeren Sinne. Das heißt, in robusten Statistiken bezieht sich die Robustheit des Medians auf die Eigenschaft, dass, wenn Sie den Median anhand eines Datensatzes von Beobachtungen aus einem unimodalen, kontinuierlichen Modell berechnen und dann weniger als die Hälfte dieser Beobachtungen durch beliebige Werte ersetzen , der Wert des Medians, der für die kontaminierten Daten berechnet wurde, liegt in der Nähe des Werts, den Sie für den ursprünglichen (nicht kontaminierten) Datensatz berechnet hätten. Dann ist es leicht zu zeigen, dass die Schätzstrategie, die Sie in dem oben zitierten Absatz vorschlagen, definitiv nicht ist robust im Sinne dessen, wie das Wort für den Median typischerweise verstanden wird.
Die Bayes'sche Analyse ist mir völlig unbekannt. Ich habe mich jedoch gefragt, was an der folgenden Strategie falsch ist, da sie einfach und effektiv zu sein scheint und in den anderen Antworten noch nicht berücksichtigt wurde. Der Stand der Technik ist, dass der Großteil der Daten aus einer symmetrischen Verteilung und dass die Kontaminationsrate weniger als die Hälfte beträgt. Dann wäre eine einfache Strategie:F
BEARBEITEN:
Dank an das OP für die Bereitstellung eines in sich geschlossenen R-Codes zur Durchführung einer bonna fide bayesianischen Analyse des Problems.
Der folgende Code vergleicht den vom OP vorgeschlagenen bayesianischen Ansatz mit seiner Alternative aus der robusten statistischen Literatur (z. B. die von Gauß vorgeschlagene Anpassungsmethode für den Fall, dass die Daten bis zu Ausreißer enthalten können, und die Verteilung der ein guter Teil der Daten ist Gauß).n/2−2
zentraler Teil der Daten ist :N(1000,1)
Fügen Sie eine gewisse Menge an Verunreinigungen hinzu:
der Index w nimmt für die Ausreißer den Wert 1 an. Ich beginne mit dem vom OP vorgeschlagenen Ansatz:
Ich bekomme:
und:
(leise also weit weg von den Zielwerten)
Für die robuste Methode
man bekommt:
(sehr nahe an den Zielwerten)
Das zweite Ergebnis kommt den realen Werten viel näher. Aber es wird schlimmer. Wenn wir diejenigen Beobachtungen als Ausreißer klassifizieren, für die der geschätzte Wert größer ist als (denken Sie daran, dass der Prior F Gaußsch ist ), dann stellt der Bayes'sche Ansatz fest, dass alle Beobachtungen Ausreißer sind (das robuste Verfahren markiert dagegen alle und) nur die Ausreißer als solche). Dies bedeutet auch, dass Sie eine gute Leistung erbringen sollten (z. B. die in Ihrer Frage angegebenen Ziele erfüllen), wenn Sie eine übliche (nicht robuste) Bayes-Analyse der Daten durchführen, die nicht als Ausreißer klassifiziert wurden.z F t
th
Dies ist nur ein Beispiel, aber es ist eigentlich ziemlich einfach zu zeigen, dass (und dies kann formal erfolgen, siehe zum Beispiel in Kapitel 2 von [1]) die Parameter einer Student- Verteilung, die an kontaminierte Daten angepasst sind, nicht aufgedeckt werden können die Ausreißer.
quelle
In der Bayes'schen Analyse ist die Verwendung der inversen Gamma-Verteilung als Prior für die Präzision (die Inverse der Varianz) eine häufige Wahl. Oder die inverse Wishart-Verteilung für multivariate Modelle. Durch Hinzufügen eines Prioritätswerts für die Varianz wird die Robustheit gegenüber Ausreißern verbessert.
Es gibt einen schönen Artikel von Andrew Gelman: "Vorherige Verteilungen für Varianzparameter in hierarchischen Modellen", in dem er diskutiert, wie gut die Prioritäten für Varianzen gewählt werden können.
quelle
quelle
Ich habe die Diskussion von der ursprünglichen Frage gefolgt. Rasmus, wenn Sie Robustheit sagen, meinen Sie sicher in den Daten (Ausreißer, keine Fehlspezifikation von Verteilungen). Ich nehme die Verteilung der Daten als Laplace-Verteilung anstelle einer t-Verteilung. Wie bei einer normalen Regression, bei der wir den Mittelwert modellieren, modellieren wir hier die mediane (sehr robuste) aka mediane Regression (wir alle wissen). Das Modell sei:
Unser Ziel ist es natürlich, Modellparameter abzuschätzen. Wir erwarten, dass unsere Vorgesetzten vage sind, um ein objektives Modell zu haben. Das vorliegende Modell hat einen Seitenzahn der Formf( β, σ, Y, X) . Gebenβ Ein normaler Prior mit großer Varianz macht einen solchen Prior vage, und ein chis-squared-Prior mit kleinen Freiheitsgraden, einen Jeffrey-Prior (einen vagen Prior) nachzuahmen, wird an gegebenσ2 . Was passiert mit einem Gibbs-Sampler? normale vorherige + Laplace Likehood = ???? wir wissen. Auch Chi-Quadrat vor + Laplace-Wahrscheinlichkeit = ??? Wir kennen die Verteilung nicht. Zum Glück gibt es in (Aslan, 2010) einen Satz, der eine Laplace-Wahrscheinlichkeit in eine Skalenmischung von Normalverteilungen umwandelt, die es uns dann ermöglicht, die konjugierten Eigenschaften unserer Priors zu genießen. Ich denke, der gesamte beschriebene Prozess ist in Bezug auf Ausreißer völlig robust. In einer multivariaten Einstellung wird Chi-Quadrat zu einer Wishart-Verteilung, und wir verwenden multivariate Laplace- und Normalverteilungen.
quelle
Angenommen, Sie habenK groups and you want to model the distribution of their sample variances, perhaps in relation to some covariates x . That is, suppose that your data point for group k∈1…K is Var(yk)∈[0,∞) . The question here is, "What is a robust model for the likelihood of the sample variance?" One way to approach this is to model the transformed data ln[Var(yk)] as coming from a t distribution, which as you have already mentioned is a robust version of the normal distribution. If you don't feel like assuming that the transformed variance is approximately normal as n→∞ , then you could choose a probability distribution with positive real support that is known to have heavy tails compared to another distribution with the same location. For example, there is a recent answer to a question on Cross Validated about whether the lognormal or gamma distribution has heavier tails, and it turns out that the lognormal distribution does (thanks to @Glen_b for that contribution). In addition, you could explore the half-Cauchy family.
Similar reasoning applies if instead you are assigning a prior distribution over a scale parameter for a normal distribution. Tangentially, the lognormal and inverse-gamma distributions are not advisable if you want to form a boundary avoiding prior for the purposes of posterior mode approximation because they peak sharply if you parameterize them so that the mode is near zero. See BDA3 chapter 13 for discussion. So in addition to identifying a robust model in terms of tail thickness, keep in mind that kurtosis may matter to your inference, too.
I hope this helps you as much as your answer to one of my recent questions helped me.
quelle