Robuste multivariate Gaußsche Anpassung in R.

11

Ich muss eine verallgemeinerte Gaußsche Verteilung an eine 7-dim-Punktwolke anpassen, die eine beträchtliche Anzahl von Ausreißern mit hoher Hebelwirkung enthält. Kennen Sie ein gutes R-Paket für diesen Job?

kjetil b halvorsen
quelle
3
Links zu mindestens vier R-Paketen zur Identifizierung multivariater Ausreißer finden Sie in den Antworten auf eine ähnliche Frage unter stats.stackexchange.com/questions/213/… . Das könnte ein guter Anfang sein.
whuber
Vielleicht entgeht mir die Frage, aber was die Anpassung an eine multivariate Gaußsche Verteilung angeht, warum nicht einfach den empirischen Mittelwert und die SD als MLE verwenden? Sie können sich dann auf Diagnosestatistiken konzentrieren, wenn es hohe Einfluss- / Hebelpunkte gibt.
AdamO

Antworten:

1

Es gibt auch mclust: http://www.stat.washington.edu/research/reports/2012/tr597.pdf http://cran.r-project.org/web/packages/mclust/index.html

Eine Warnung: Die Modellierung von Gemischen im hochdimensionalen Raum kann sehr CPU- und speicherintensiv werden, wenn Ihre Punktwolke groß ist. Vor ungefähr vier Jahren habe ich einen Stapel von 11-dimensionalen 50-200K-Punktdaten erstellt, und es wurde tendenziell 4-11 GB RAM benötigt, und es dauerte bis zu einer Woche, um für jeden Fall zu berechnen (und ich hatte 400). Dies ist sicherlich möglich, kann jedoch Kopfschmerzen bereiten, wenn Sie einen gemeinsam genutzten Computercluster verwenden oder nur über begrenzte Ressourcen verfügen.

Kieran O'Neill
quelle
1

Dies klingt nach einem klassischen multivariaten Gaußschen Mischungsmodell. Ich denke, dass das BayesM-Paket funktionieren könnte.

Hier sind einige multivariate Gaußsche Mischungspakete

  • bayesm: cran.r-project.org/web/packages/bayesm/index.html
  • Mixtools: www.jstatsoft.org/v32/i06/paper
EngrStudent - Monica wieder einsetzen
quelle