Ich arbeite an stark verzerrten Daten, daher verwende ich den Median anstelle des Mittelwerts, um die zentrale Tendenz zusammenzufassen. Ich hätte gerne ein Maß für die Streuung Während ich oft Leute sehe, die mittlere Standardabweichung oder mittlere Quartile angeben, um die zentrale Tendenz zusammenzufassen, ist es in Ordnung, mittlere mittlere absolute Streuung (MAD) anzugeben ? Gibt es potenzielle Probleme mit diesem Ansatz?
Ich würde diesen Ansatz kompakter und intuitiver finden als die Angabe von unteren und oberen Quartilen, insbesondere in großen Tabellen voller Zahlen.
Antworten:
Ich denke nicht, dass median mad im Allgemeinen angemessen ist.±
Sie können problemlos Verteilungen erstellen, bei denen 50% der Daten geringfügig unter dem Median liegen und 50% der Daten viel größer als der Median sind - z. B. (4,9,4,9,4,9,4,9,5,1000000,1000000,100000) 1000000). Die 5 0,10-Notation scheint darauf hinzudeuten, dass eine gewisse Masse vorhanden ist (Median + verrückt ~ = 5,10), und das ist einfach nicht immer der Fall, und Sie haben keine Ahnung, dass es eine große Masse über 1000000 gibt.±
Quartile / Quantile geben eine viel bessere Vorstellung von der Verteilung auf Kosten einer zusätzlichen Zahl - (4,9,5,0,1000000,0). Ich bezweifle, dass es völlig zufällig ist, dass die Schiefe der dritte Moment ist und dass ich drei Zahlen / Dimensionen benötige, um eine verzerrte Verteilung intuitiv zu visualisieren.
Das heißt, es ist an sich nichts falsch daran - ich argumentiere hier nur über Intuitionen und Lesbarkeit. Wenn Sie es für sich selbst oder Ihr Team verwenden, werden Sie verrückt. Aber ich denke, es würde ein breites Publikum verwirren.
quelle
Bei Verwendung des MAD wird davon ausgegangen, dass die zugrunde liegende Verteilung symmetrisch ist (Abweichungen über dem Median und unter dem Median werden gleichermaßen berücksichtigt). Wenn Ihre Daten verzerrt sind, ist dies eindeutig falsch: Dies führt dazu, dass Sie die tatsächliche Variabilität Ihrer Daten überschätzen.
Glücklicherweise können Sie eine der verschiedenen Alternativen zu den Verrückten wählen, die ebenso robust sind, fast genauso einfach zu berechnen sind und keine Symmetrie annehmen.
Schauen Sie sich Rousseeuw und Croux 1992 an . Diese Konzepte sind gut erklärt hier und umgesetzt hier . Diese beiden Schätzer gehören zur sogenannten Klasse der U-Statistik, für die es eine gut entwickelte Theorie gibt.
quelle
"In diesem Artikel wird ein genauerer Asymmetrieindex untersucht. Insbesondere wird die Verwendung der linken und rechten Varianz vorgeschlagen und ein darauf basierender Asymmetrieindex eingeführt. Mehrere Beispiele zeigen seine Nützlichkeit. Die Frage der genaueren Bewertung der Dispersion Daten über den Durchschnitt treten in allen nicht symmetrischen Wahrscheinlichkeitsverteilungen auf. Wenn die Populationsverteilung nicht symmetrisch ist, liefern der Durchschnitt und die Varianz (oder Standardabweichung) eines Datensatzes keine genaue Vorstellung von der Verteilung der Daten. insbesondere Form und Symmetrie. Es wird argumentiert, dass der Durchschnitt, die vorgeschlagene linke Varianz (oder linke Standardabweichung) und die rechte Varianz (oder rechte Standardabweichung) den Datensatz genauer beschreiben. "
Verknüpfung
quelle