Robuste Schätzung der Poisson-Verteilung

8

Ich habe eine Reihe von Zahlen, von denen angenommen wird, dass sie aus einer Poisson-Verteilung stammen. Das Set hat auch einige Ausreißer und aus diesem Grund sind Schätzungen der maximalen Wahrscheinlichkeit stark betroffen. Ich habe gehört, dass robuste Schätzverfahren in einer solchen Situation helfen können. Kann jemand erklären, wie das geht? Ich bin kein Statistikstudent.

Ich fand, dass die glmrobFunktion in R dafür verwendet werden kann. (Ich bin ziemlich neu in R). Aber ich konnte nicht herausfinden, wie ich das verwenden sollte, obwohl ich die Handbuchseiten gelesen hatte. Insbesondere kann ich nicht verstehen, wie man ein erhält, forumulawas das erste Argument für die glmrob-Funktion ist.

Vielen Dank.

suresh
quelle
1
Haben Sie die glmrob- Dokumentation gelesen ? Es gibt Beispielcode für eine robuste Poisson-Anpassung bei p. 23.
whuber
Ich habe sie angeschaut. In diesem Beispiel auf Seite 23 gibt es eine solche Formel sumY ~ Age10 + Base4*Trt. Mit den Daten, die ich habe, kann ich keine solchen Formeln finden. Ich habe nur eine Reihe von Zahlen, von denen angenommen wird, dass sie aus einer Poisson-Distribution stammen. Soweit ich weiß, habe ich keine abhängige Variable und keine unabhängige Variable. Vielleicht kann ich deshalb keine Formel finden.
suresh
2
Sie haben implizit einen Intercept-Begriff.
Kardinal
2
Sie haben Poisson-Zählungen, die Ihre Antworten sind, und Ihre "Prädiktoren" bestehen nur aus einem Intercept-Begriff, dh Sie möchten ihn so modellieren, als ob alle Ihre Antworten aus derselben Verteilung stammen. Ist das sinnvoller? :)
Kardinal
1
Beispielformel : y~1.
Kardinal

Antworten:

17

@cardinal hat eine Antwort in Kommentaren telegraphiert. Lassen Sie es uns konkretisieren. Sein Standpunkt ist, dass allgemeine lineare Modelle (wie sie von lmund in diesem Fall implementiert werden glmRob) zwar dazu gedacht zu sein scheinen, Beziehungen zwischen Variablen zu bewerten, aber auch leistungsfähige Werkzeuge für die Untersuchung einer einzelnen Variablen sein können. Der Trick beruht auf der Tatsache, dass die Regression von Daten gegen eine Konstante nur eine andere Möglichkeit ist, ihren Durchschnittswert ("Ort") zu schätzen .

Generieren Sie beispielsweise einige Poisson-verteilte Daten:

set.seed(17)
x <- rpois(10, lambda=2)

In diesem Fall Rwird der Vektor von Werten aus einer Poisson-Verteilung des Mittelwerts . Schätzen Sie den Standort mit :(1,5,2,3,2,2,1,1,3,1)x2glmRob

library(robust)
glmrob(x ~ 1, family=poisson())

Die Antwort sagt uns das Intercept bei geschätzt . Natürlich muss jeder, der eine statistische Methode verwendet, wissen, wie sie funktioniert: Wenn Sie verallgemeinerte lineare Modelle mit der Poisson-Familie verwenden, ist die Standardfunktion "Link" der Logarithmus. Dies bedeutet, dass der Achsenabschnitt der Logarithmus des geschätzten Ortes ist. Also berechnen wir0.7268

exp(0.7268)

Das Ergebnis, , liegt deutlich nahe bei : Das Verfahren scheint zu funktionieren. Zeichnen Sie die Daten, um zu sehen, was es tut:2.06852

plot(x, ylim=c(0, max(x)))
abline(exp(0.7268), 0, col="red")

Grundstück mit angepasster Linie

Die angepasste Linie ist rein horizontal und schätzt daher die Mitte der vertikalen Werte: unsere Daten. Das ist alles was los ist.

Um die Robustheit zu überprüfen, erstellen wir einen schlechten Ausreißer, indem wir ein paar Nullen auf den ersten Wert von setzen x:

x[1] <- 100

Dieses Mal speichern wir für eine größere Flexibilität bei der Nachbearbeitung die Ausgabe von glmRob:

m <- glmrob(x ~ 1, family=poisson())

Um den geschätzten Durchschnitt zu erhalten, können wir anfordern

exp(m$coefficients)

Der Wert beträgt diesmal : etwas abweichend, aber nicht zu weit entfernt, da der Durchschnittswert von (erhalten als ) beträgt . In diesem Sinne ist dieses Verfahren "robust". Weitere Informationen erhalten Sie über2.496xmean(x)12

summary(m)

Sein Ausgang zeigt uns unter anderem, dass das Gewicht mit dem Randwert zugeordnet in nur , fast , Ausreißer des Verdacht ausfindig.100x[1]0.021790

whuber
quelle
3
(+1) Schöne Präsentation wie immer. :)
Kardinal
Vielen Dank. Eine solche Antwort ist für mich jetzt sehr wichtig, weil ich in all dem völlig neu bin (Begriffe wie Prädiktor, Abfangen und sogar das Paket R).
suresh
Können Sie auf ein ähnliches Tool für eine bivariate Poisson-Verteilung verweisen?
Diogo Santos
@ Diogo Es hängt davon ab, was dieses Tool tun soll und welche Form der Abhängigkeit zwischen den Rändern genau verwendet wird.
whuber