Verwendung des Medians zur Berechnung der Varianz

10

Ich habe eine 1-D-Zufallsvariable, die extrem verzerrt ist. Um diese Verteilung zu normalisieren, möchte ich eher den Median als den Mittelwert verwenden. Meine Frage lautet: Kann ich die Varianz der Verteilung anhand des Medians in der Formel anstelle des Mittelwerts berechnen?

dh kann ich ersetzen

Var(X)=[(Ximean(X))2]/n

mit

Var(X)=[(Ximedian(X))2]/n

Meine Argumentation dahinter ist, dass Varianz ein Maß für die Ausbreitung der zentralen Tendenz einer Verteilung ist und kein Problem darstellen sollte, aber ich versuche, diese Logik zu validieren.

Rahul Singh
quelle
1
Indem Sie Ihre Variablen im Median zentrieren und dann durch die MAD (mittlere absolute Abweichung) dividieren, können Sie eine standardisierte Medianverteilung erstellen.
Mike Hunter
4
Du kannst das! Aber ich denke, es ist fair, es als sehr unüblich zu bezeichnen und vorzuschlagen, dass Sie Theorie und / oder Simulationen benötigen, um es zu sichern, und nicht nur Ihre Intuition. Ich vermute, dass es weniger widerstandsfähig sein wird als der Standardschätzer. In einem häufigen Fall mit rechtem Versatz ist der Median beispielsweise kleiner als der Mittelwert, sodass die größten quadratischen Abweichungen (vom Median) daher noch größer sind! Der Hauptpunkt ist, dass Sie, wenn die Varianz sehr nicht vertrauenswürdig ist, möglicherweise darüber nachdenken müssen, die Streuung ganz anders zu messen als verschiedene Versionen der Varianz.
Nick Cox
1
1
Dieser Ansatz ist von Natur aus inkonsistent, da die Probleme, die durch Ersetzen des Mittelwerts durch den Median behoben werden, durch Verwendung der Varianz anstelle eines robusten Schätzers der Streuung vergrößert werden.
whuber

Antworten:

8

Der Mittelwert minimiert den quadratischen Fehler (oder die L2-Norm, siehe hier oder hier ). Daher besteht die natürliche Wahl für die Varianz zur Messung des Abstands vom Mittelwert darin, den quadratischen Fehler zu verwenden (siehe hier, warum wir ihn quadrieren ). Andererseits minimiert der Median den absoluten Fehler (L1-Norm), dh es ist ein Wert, der sich in der "Mitte" Ihrer Daten befindet, sodass der absolute Abstand vom Median (sogenannte Median Absolute Deviation oder MAD) a zu sein scheint besseres Maß für den Grad der Variabilität um den Median. Sie können mehr über diese Beziehungen in diesem Thread lesen .

Kurz gesagt, die Varianz unterscheidet sich von MAD darin, wie sie den Mittelpunkt Ihrer Daten definieren, und dies beeinflusst die Art und Weise, wie wir die Variation von Datenpunkten um sie herum messen. Durch Quadrieren der Werte haben Ausreißer einen größeren Einfluss auf den Mittelpunkt (Mittelwert), während im Fall des Medians alle Punkte den gleichen Einfluss darauf haben, sodass der absolute Abstand angemessener erscheint.

Dies kann auch durch einfache Simulation gezeigt werden. Wenn Sie die quadratischen Abstände zwischen Mittelwert und Median vergleichen, ist der quadratische Gesamtabstand vom Mittelwert fast immer kleiner als vom Median. Andererseits ist der absolute Gesamtabstand vom Median kleiner als vom Mittelwert. Der R-Code für die Durchführung der Simulation ist unten angegeben.

sqtest  <- function(x) sum((x-mean(x))^2)  < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))

mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))

mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))

mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))

Im Fall der Verwendung eines Medians anstelle eines Mittelwerts bei der Schätzung einer solchen "Varianz" würde dies zu höheren Schätzungen führen als bei Verwendung eines Mittelwerts, wie dies traditionell durchgeführt wird.

Übrigens können die Beziehungen der L1- und L2-Normen auch im Bayes'schen Kontext wie in diesem Thread betrachtet werden .

Tim
quelle