Mittelwert

11

Ich arbeite an stark verzerrten Daten, daher verwende ich den Median anstelle des Mittelwerts, um die zentrale Tendenz zusammenzufassen. Ich hätte gerne ein Maß für die Streuung Während ich oft Leute sehe, die mittlere Standardabweichung± oder mittlere Quartile angeben,± um die zentrale Tendenz zusammenzufassen, ist es in Ordnung, mittlere mittlere absolute Streuung (MAD) anzugeben± ? Gibt es potenzielle Probleme mit diesem Ansatz?

Ich würde diesen Ansatz kompakter und intuitiver finden als die Angabe von unteren und oberen Quartilen, insbesondere in großen Tabellen voller Zahlen.

Mulone
quelle
3
Ich denke, mittlere, mittlere, untere und obere Quartile würden die Daten gemeinsam besser beschreiben. Weitere beschreibende Statistiken finden Sie hier .
1
Ich möchte so präzise wie möglich sein: Ist der Median + 2 Quartile in Ordnung?
Mulone
4
MAD ist eine gute Statistik, um die Streuung eines Datenstapels auszudrücken. Sie ist sogar gegenüber Ausreißern widerstandsfähiger als der Interquartilbereich. Aber vielleicht möchten Sie darüber nachdenken, was Median MAD wirklich bedeuten würde und wie Ihr Publikum es interpretieren sollte. Es genießt nicht die gleichen asymptotischen oder Chebeyshev-ungleichheitsähnlichen Eigenschaften des Mittelwerts± SD auf. Vielleicht werden solche Ausdrücke deshalb selten, wenn überhaupt, verwendet. ±
whuber
1
Ich dachte immer, MAD stehe für mittlere absolute Abweichung, analog zu mse, was mittlerer quadratischer Fehler ist. es ist der Durchschnitt der absoluten Abweichungen vom Mittelwert, nicht der Median. Habe ich recht oder gehe ich MAD?
Michael R. Chernick
2
Bild ist tausend Wörter, wenn möglich zeigt Histogramm ist sehr leistungsfähig.
Bdeonovic

Antworten:

7

Ich denke nicht, dass median mad im Allgemeinen angemessen ist. ±

Sie können problemlos Verteilungen erstellen, bei denen 50% der Daten geringfügig unter dem Median liegen und 50% der Daten viel größer als der Median sind - z. B. (4,9,4,9,4,9,4,9,5,1000000,1000000,100000) 1000000). Die 5 0,10-Notation scheint darauf hinzudeuten, dass eine gewisse Masse vorhanden ist (Median + verrückt ~ = 5,10), und das ist einfach nicht immer der Fall, und Sie haben keine Ahnung, dass es eine große Masse über 1000000 gibt.±

Quartile / Quantile geben eine viel bessere Vorstellung von der Verteilung auf Kosten einer zusätzlichen Zahl - (4,9,5,0,1000000,0). Ich bezweifle, dass es völlig zufällig ist, dass die Schiefe der dritte Moment ist und dass ich drei Zahlen / Dimensionen benötige, um eine verzerrte Verteilung intuitiv zu visualisieren.

Das heißt, es ist an sich nichts falsch daran - ich argumentiere hier nur über Intuitionen und Lesbarkeit. Wenn Sie es für sich selbst oder Ihr Team verwenden, werden Sie verrückt. Aber ich denke, es würde ein breites Publikum verwirren.

Patrick Caldon
quelle
2
(+1) Ich möchte hinzufügen, dass die Definition der Schiefe in Bezug auf den dritten Moment heutzutage nicht die am meisten akzeptierte ist, da sie nur auf Verteilungen mit leichten Schwänzen angewendet werden kann. Moderne Definitionen von Schiefe basieren auf Quantilen, einige davon finden Sie hier .
1
@ Amöbe Ist es? Die Wikipedia-Seite für MAD definiert es als Median (| Xi - Median (X) |), der mit den angegebenen Daten 0,1 beträgt.
Upper_Case
@Upper_Case Danke. Ich habe mich geirrt (5-5 = 0 Begriff vergessen). Ich werde meinen Kommentar oben löschen, um zukünftige Leser nicht zu verwirren!
Amöbe sagt Reinstate Monica
4

Bei Verwendung des MAD wird davon ausgegangen, dass die zugrunde liegende Verteilung symmetrisch ist (Abweichungen über dem Median und unter dem Median werden gleichermaßen berücksichtigt). Wenn Ihre Daten verzerrt sind, ist dies eindeutig falsch: Dies führt dazu, dass Sie die tatsächliche Variabilität Ihrer Daten überschätzen.

Glücklicherweise können Sie eine der verschiedenen Alternativen zu den Verrückten wählen, die ebenso robust sind, fast genauso einfach zu berechnen sind und keine Symmetrie annehmen.

Schauen Sie sich Rousseeuw und Croux 1992 an . Diese Konzepte sind gut erklärt hier und umgesetzt hier . Diese beiden Schätzer gehören zur sogenannten Klasse der U-Statistik, für die es eine gut entwickelte Theorie gibt.

user603
quelle
1

"In diesem Artikel wird ein genauerer Asymmetrieindex untersucht. Insbesondere wird die Verwendung der linken und rechten Varianz vorgeschlagen und ein darauf basierender Asymmetrieindex eingeführt. Mehrere Beispiele zeigen seine Nützlichkeit. Die Frage der genaueren Bewertung der Dispersion Daten über den Durchschnitt treten in allen nicht symmetrischen Wahrscheinlichkeitsverteilungen auf. Wenn die Populationsverteilung nicht symmetrisch ist, liefern der Durchschnitt und die Varianz (oder Standardabweichung) eines Datensatzes keine genaue Vorstellung von der Verteilung der Daten. insbesondere Form und Symmetrie. Es wird argumentiert, dass der Durchschnitt, die vorgeschlagene linke Varianz (oder linke Standardabweichung) und die rechte Varianz (oder rechte Standardabweichung) den Datensatz genauer beschreiben. "

Verknüpfung

deepML
quelle
3
Sie haben die Zusammenfassung eines Papiers zitiert und etwas angegeben, das einer URL ähnelt (ich habe mir erlaubt, den Link zu reparieren). Das ist nicht wirklich die Art von Antworten, nach denen wir hier suchen. Ich ermutige Sie, Ihre Antwort zu bearbeiten und eigene Kommentare dazu hinzuzufügen, warum dieser Link zur Beantwortung der Frage beiträgt. Die Antwort wäre viel besser, wenn Sie erklären würden, wie dieser Asymmetrieindex mit der mittleren zentralen Tendenz und der MAD zusammenhängt.
MånsT