Schätzparameter einer Normalverteilung: Median statt Mittelwert?

15

Der übliche Ansatz zur Schätzung der Parameter einer Normalverteilung besteht darin, den Mittelwert und die Standardabweichung / Varianz der Stichprobe zu verwenden.

Wenn es jedoch einige Ausreißer gibt, sollten der Median und die mediane Abweichung vom Median viel robuster sein, oder?

Bei einigen Datensätzen, die ich ausprobiert habe, scheint die durch geschätzte Normalverteilung viel zu ergeben Besser geeignet als das klassische Verwendung des Mittelwerts und der RMS-Abweichung.N(median(x),median|xmedian(x)|)N(μ^,σ^)

Gibt es einen Grund, den Median nicht zu verwenden, wenn Sie davon ausgehen, dass der Datensatz einige Ausreißer enthält? Kennen Sie eine Referenz für diesen Ansatz? Bei einer schnellen Suche in Google wurden keine nützlichen Ergebnisse gefunden, in denen die Vorteile der Verwendung von Medianen erläutert werden (der "Median für die Schätzung von Normalverteilungsparametern" ist jedoch offensichtlich kein sehr spezifischer Satz von Suchbegriffen).

Ist die mittlere Abweichung voreingenommen? Soll ich es mit multiplizieren , um die Verzerrung zu verringern?n1n

Kennen Sie ähnliche robuste Parameterschätzungsansätze für andere Verteilungen, wie die Gamma-Verteilung oder die exponentiell modifizierte Gauß-Verteilung (die eine Schiefe bei der Parameterschätzung erfordert, und Ausreißer vermasseln diesen Wert wirklich)?

Erich Schubert
quelle
2
Wenn Sie Ausreißer haben, kann es sein, dass Ihre Verteilung nicht wirklich Gauß-normal ist. Dies beantwortet natürlich nicht Ihre Frage, aber IMO, das ist eine Möglichkeit, die man immer in Betracht ziehen sollte.
SDS
2
Ich habe keine einfache, übersichtliche, mathematische Verteilung. Ich habe echte Daten, die von Natur aus chaotisch sind. Keine Verteilung wird perfekt passen, weil Sie die Situation nicht mehr analytisch behandeln können. Und die Ausreißer sind eigentlich mein Interesse. :-)
Erich Schubert

Antworten:

15

Die Beobachtung, dass Sie in einem Beispiel mit Daten aus einer kontaminierten Gaußschen Verteilung bessere Schätzungen der Parameter erhalten, die den Großteil der Daten beschreiben, wenn Sie anstelle von med | verwenden x - med ( x ) | wo mad ( x ) ist:madmed|xmed(x)|mad(x)

mad=1.4826×med|xmed(x)|

--Wo, ist ein Konsistenzfaktor entwickelt , um sicherzustellen , dass E ( mad ( x ) 2 ) = Var ( x ) , wenn x uncontaminated-- ist wurde ursprünglich von Gauss (Walker gemacht H. (1931)).(Φ1(0.75))1=1.4826

E(mad(x)2)=Var(x)
x

Ich kann mir keinen Grund vorstellen, in diesem Fall nicht das anstelle des Beispielmittels zu verwenden. Die geringere Effizienz (beim Gaußschen!) Des Wahnsinns kann ein Grund sein, den Wahnsinn in Ihrem Beispiel nicht zu verwenden . Es gibt jedoch ebenso robuste und hocheffiziente Alternativen zu den Verrückten . Eines davon ist das Q nmedmadmadmadQn. Dieser Schätzer hat neben vielen anderen Vorteilen. Es ist auch sehr unempfindlich gegenüber Ausreißern (in der Tat fast so unempfindlich wie der Verrückte). Im Gegensatz zu den Verrückten basiert es nicht auf einer Standortschätzung und geht nicht davon aus, dass die Verteilung des nicht kontaminierten Teils der Daten symmetrisch ist. Wie der Verrückte basiert es auf Auftragsstatistiken, so dass es immer gut definiert ist, auch wenn die zugrunde liegende Verteilung Ihrer Stichprobe keine Momente aufweist. Wie der Verrückte hat es eine einfache explizite Form. Noch mehr als für die Verrückten sehe ich keine Gründe, die Standardabweichung der Stichprobe anstelle des in dem von Ihnen beschriebenen Beispiel zu verwenden (siehe Rousseeuw und Croux 1993 für weitere Informationen über das Q n ).QnQn

xΓ(ν,λ)

med(x)λ(ν1/3)

und

mad(x)λν

ν>1.5

ν^=(med(x)mad(x))2

und

λ^=mad(x)2med(x)

Siehe Chen und Rubin (1986) für eine vollständige Ableitung.

  • J. Chen und H. Rubin, 1986. Grenzen für die Differenz zwischen Median und Mittelwert der Gamma- und Poisson-Verteilungen, Statist. Probab. Lett., 4, 281–283.
  • PJ Rousseeuw und C. Croux, 1993. Alternativen zum Median Absolute Deviation Journal der American Statistical Association, Vol. 88, Nr. 424, S. 1273-1283
  • Walker, H. (1931). Studien zur Geschichte der statistischen Methode. Baltimore, MD: Williams & Wilkins Co., S. 24–25.
user603
quelle
1
Φ1(0.75)11.4826
@ErichSchubert: du hast recht: ich habe die zweite inverse vergessen..korrigiert.
user603
2
n/(n1)
1
@whuber: danke dafür, mir ist jetzt klar, dass mein satz "das ist im geist ähnlich " leicht missverstanden werden kann. Ich habe es entfernt.
user603
1
Ich habe den ExNormal-Teil zu einer separaten Frage gemacht: stats.stackexchange.com/questions/48907/… Aber ich habe noch eine für Sie: LogNormal-Verteilung - Handle durch Anwenden von log und gehe dann wie bei der Normalverteilung vor?
Erich Schubert
7

Wenn, wie Sie behaupten, die Daten normal sind, abgesehen von einem geringen Anteil an Ausreißern, sind der Median und die absolute Abweichung des Medians robust gegenüber groben Fehlern, nutzen die Informationen in den nicht ausreißenden Daten jedoch nicht sehr effizient.

Wenn Sie einige wissen von vornherein gebunden auf dem Anteil der Ausreißer könnten Sie schneiden den Teil für die mittlere und Winsorize der Standardabweichung. Eine Alternative, die solche Kenntnisse nicht erfordert, wäre die Verwendung von M-Schätzern für den Ort und verwandten Größen für die Varianz. Der Effizienzgewinn kann unter bestimmten Umständen erheblich sein, wenn Ihre Annahmen richtig sind (z. B. wenn die Daten bis auf einen kleinen Prozentsatz der Ausreißer wirklich normal sind).

nn1

Glen_b - Setzen Sie Monica wieder ein
quelle