Ich habe eine 1-D-Zufallsvariable, die extrem verzerrt ist. Um diese Verteilung zu normalisieren, möchte ich eher den Median als den Mittelwert verwenden. Meine Frage lautet: Kann ich die Varianz der Verteilung anhand des Medians in der Formel anstelle des Mittelwerts berechnen?
dh kann ich ersetzen
mit
Meine Argumentation dahinter ist, dass Varianz ein Maß für die Ausbreitung der zentralen Tendenz einer Verteilung ist und kein Problem darstellen sollte, aber ich versuche, diese Logik zu validieren.
Antworten:
Der Mittelwert minimiert den quadratischen Fehler (oder die L2-Norm, siehe hier oder hier ). Daher besteht die natürliche Wahl für die Varianz zur Messung des Abstands vom Mittelwert darin, den quadratischen Fehler zu verwenden (siehe hier, warum wir ihn quadrieren ). Andererseits minimiert der Median den absoluten Fehler (L1-Norm), dh es ist ein Wert, der sich in der "Mitte" Ihrer Daten befindet, sodass der absolute Abstand vom Median (sogenannte Median Absolute Deviation oder MAD) a zu sein scheint besseres Maß für den Grad der Variabilität um den Median. Sie können mehr über diese Beziehungen in diesem Thread lesen .
Kurz gesagt, die Varianz unterscheidet sich von MAD darin, wie sie den Mittelpunkt Ihrer Daten definieren, und dies beeinflusst die Art und Weise, wie wir die Variation von Datenpunkten um sie herum messen. Durch Quadrieren der Werte haben Ausreißer einen größeren Einfluss auf den Mittelpunkt (Mittelwert), während im Fall des Medians alle Punkte den gleichen Einfluss darauf haben, sodass der absolute Abstand angemessener erscheint.
Dies kann auch durch einfache Simulation gezeigt werden. Wenn Sie die quadratischen Abstände zwischen Mittelwert und Median vergleichen, ist der quadratische Gesamtabstand vom Mittelwert fast immer kleiner als vom Median. Andererseits ist der absolute Gesamtabstand vom Median kleiner als vom Mittelwert. Der R-Code für die Durchführung der Simulation ist unten angegeben.
Im Fall der Verwendung eines Medians anstelle eines Mittelwerts bei der Schätzung einer solchen "Varianz" würde dies zu höheren Schätzungen führen als bei Verwendung eines Mittelwerts, wie dies traditionell durchgeführt wird.
Übrigens können die Beziehungen der L1- und L2-Normen auch im Bayes'schen Kontext wie in diesem Thread betrachtet werden .
quelle