Ich habe eine Reihe von Zahlen, von denen angenommen wird, dass sie aus einer Poisson-Verteilung stammen. Das Set hat auch einige Ausreißer und aus diesem Grund sind Schätzungen der maximalen Wahrscheinlichkeit stark betroffen. Ich habe gehört, dass robuste Schätzverfahren in einer solchen Situation helfen können. Kann jemand erklären, wie das geht? Ich bin kein Statistikstudent.
Ich fand, dass die glmrob
Funktion in R dafür verwendet werden kann. (Ich bin ziemlich neu in R). Aber ich konnte nicht herausfinden, wie ich das verwenden sollte, obwohl ich die Handbuchseiten gelesen hatte. Insbesondere kann ich nicht verstehen, wie man ein erhält, forumula
was das erste Argument für die glmrob-Funktion ist.
Vielen Dank.
sumY ~ Age10 + Base4*Trt
. Mit den Daten, die ich habe, kann ich keine solchen Formeln finden. Ich habe nur eine Reihe von Zahlen, von denen angenommen wird, dass sie aus einer Poisson-Distribution stammen. Soweit ich weiß, habe ich keine abhängige Variable und keine unabhängige Variable. Vielleicht kann ich deshalb keine Formel finden.y~1
.Antworten:
@cardinal hat eine Antwort in Kommentaren telegraphiert. Lassen Sie es uns konkretisieren. Sein Standpunkt ist, dass allgemeine lineare Modelle (wie sie von
lm
und in diesem Fall implementiert werdenglmRob
) zwar dazu gedacht zu sein scheinen, Beziehungen zwischen Variablen zu bewerten, aber auch leistungsfähige Werkzeuge für die Untersuchung einer einzelnen Variablen sein können. Der Trick beruht auf der Tatsache, dass die Regression von Daten gegen eine Konstante nur eine andere Möglichkeit ist, ihren Durchschnittswert ("Ort") zu schätzen .Generieren Sie beispielsweise einige Poisson-verteilte Daten:
In diesem Fall(1,5,2,3,2,2,1,1,3,1) 2
R
wird der Vektor von Werten aus einer Poisson-Verteilung des Mittelwerts . Schätzen Sie den Standort mit :x
glmRob
Die Antwort sagt uns das Intercept bei geschätzt . Natürlich muss jeder, der eine statistische Methode verwendet, wissen, wie sie funktioniert: Wenn Sie verallgemeinerte lineare Modelle mit der Poisson-Familie verwenden, ist die Standardfunktion "Link" der Logarithmus. Dies bedeutet, dass der Achsenabschnitt der Logarithmus des geschätzten Ortes ist. Also berechnen wir0.7268
Das Ergebnis, , liegt deutlich nahe bei : Das Verfahren scheint zu funktionieren. Zeichnen Sie die Daten, um zu sehen, was es tut:2.0685 2
Die angepasste Linie ist rein horizontal und schätzt daher die Mitte der vertikalen Werte: unsere Daten. Das ist alles was los ist.
Um die Robustheit zu überprüfen, erstellen wir einen schlechten Ausreißer, indem wir ein paar Nullen auf den ersten Wert von setzen
x
:Dieses Mal speichern wir für eine größere Flexibilität bei der Nachbearbeitung die Ausgabe von
glmRob
:Um den geschätzten Durchschnitt zu erhalten, können wir anfordern
Der Wert beträgt diesmal : etwas abweichend, aber nicht zu weit entfernt, da der Durchschnittswert von (erhalten als ) beträgt . In diesem Sinne ist dieses Verfahren "robust". Weitere Informationen erhalten Sie über2.496 12
x
mean(x)
Sein Ausgang zeigt uns unter anderem, dass das Gewicht mit dem Randwert zugeordnet in nur , fast , Ausreißer des Verdacht ausfindig.100 0.02179 0
x[1]
quelle