Ein robustes (nicht parametrisches) Maß wie der Variationskoeffizient - IQR / Median oder eine Alternative?

12

Für einen bestimmten Datensatz wird der Spread häufig entweder als Standardabweichung oder als IQR (Interquartilbereich) berechnet.

Während a standard deviationnormalisiert ist (z-Scores usw.) und somit zum Vergleich der Streuung aus zwei verschiedenen Populationen verwendet werden kann, ist dies beim IQR nicht der Fall, da die Stichproben aus zwei verschiedenen Populationen Werte in zwei sehr unterschiedlichen Maßstäben haben könnten.

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

Was ich anstrebe, ist eine robuste (nicht parametrische) Messgröße, mit der ich die Variation innerhalb verschiedener Populationen vergleichen kann.

Wahl 1: IQR / Median- Dies wäre analog zum Variationskoeffizienten , dh zu .σμ

Wahl 2: Range / IQR

Frage: Welches ist das aussagekräftigere Maß für den Vergleich von Variationen zwischen Populationen? Und wenn es Wahl 1 ist, ist Wahl 2 für irgendetwas nützlich / sinnvoll, oder ist es eine grundlegend fehlerhafte Maßnahme?

Assad Ebrahim
quelle
Vielen Dank für das sehr hilfreiche Gespräch. Einige nützliche Follow-ups - unterschiedliche Definitionen von Quartilen und damit von IQR (John), nicht standardisierte Standardabweichung (Harvey) und QQ-Diagramme als Hilfsmittel zum Vergleich zweier Verteilungen (Peter). (+1 zu allen drei Antworten!)
Assad Ebrahim

Antworten:

13

Die Frage impliziert, dass die Standardabweichung (SD) irgendwie normalisiert ist, sodass die Variabilität zweier verschiedener Populationen verglichen werden kann. Nicht so. Wie Peter und John sagten, erfolgt diese Normalisierung wie bei der Berechnung des Variationskoeffizienten (CV), der gleich SD / Mean ist. Die SD befindet sich in denselben Einheiten wie die Originaldaten. Im Gegensatz dazu ist der CV ein Verhältnis ohne Einheit.

Ihre Wahl 1 (IQR / Median) entspricht dem Lebenslauf. Wie der Lebenslauf wäre es nur sinnvoll, wenn es sich bei den Daten um Verhältnisdaten handelt. Das bedeutet, dass Null wirklich Null ist. Ein Gewicht von Null ist kein Gewicht. Eine Länge von Null ist keine Länge. Als Gegenbeispiel wäre es für die Temperatur in C oder F nicht sinnvoll, da eine Temperatur von Null Grad (C oder F) nicht bedeutet, dass es keine Temperatur gibt. Durch einfaches Umschalten zwischen der C- oder F-Skala erhalten Sie einen anderen Wert für die CV oder für das Verhältnis von IQR / Median, wodurch beide Verhältnisse bedeutungslos werden.

Ich stimme Peter und John zu, dass Ihre zweite Idee (Range / IQR) für Ausreißer nicht sehr robust wäre und daher wahrscheinlich nicht nützlich wäre.

Harvey Motulsky
quelle
2
Harvey - danke - Sie haben Recht, SD ist überhaupt nicht normalisiert ... Ich habe das Konzept der z-scoresStandardisierung von Werten und der Normalisierung ihrer Position innerhalb einer Verteilung in Bezug auf Mittelwert und Standardabweichung mit diesem Problem verwechselt , das Es geht darum, Produktgruppen nach ihrer Variabilität zu ordnen. Wählen Sie Ihre Antwort als die richtige, denn obwohl Peter und John beide sehr hilfreich waren, haben Sie mich auf die konzeptionelle Verwechslung aufmerksam gemacht. Ein guter Punkt, wenn Auswahl 1 in der Nähe von Median 0 von begrenztem Nutzen ist. Glücklicherweise muss ich mir bei meinem Problem darüber keine Sorgen machen.
Assad Ebrahim
Ich würde das gerne in einem Papier verwenden. Gibt es einen guten Ort, auf den verwiesen wird (Buch / irgendwo mit Begutachtung)?
Ben Bolker
15

Es ist wichtig zu wissen, dass das Minimum und das Maximum oft nicht sehr gut zu verwendende Statistiken sind (dh sie können von Stichprobe zu Stichprobe stark schwanken und folgen keiner Normalverteilung, wie dies beispielsweise der Mittelwert aufgrund des zentralen Grenzwertsatzes sein könnte). . Infolgedessen ist der Bereich selten eine gute Wahl für etwas anderes als die Angabe des Bereichs dieser genauen Stichprobe . Für eine einfache, nichtparametrische Statistik zur Darstellung der Variabilität ist der Interquartilbereich viel besser. Obwohl ich die Analogie zwischen IQR / Median und dem Variationskoeffizienten sehe, halte ich dies nicht für die beste Option.

MEINDM=Median(|xich-Median(x)|)
gung - Wiedereinsetzung von Monica
quelle
1
Interessante Wahl MADM/median, im Wesentlichen der mittlere Unterschied zum Mittelwert. Nennen wir dies Choice 3. Stimmen Sie Ihrer Einschätzung von Choice 1 zu, es ist also aus, danke. Wenn Sie "besser" vorschlagen, welche Attribute könnten verwendet werden, um Auswahl 2 mit Auswahl 3 zu vergleichen, um festzustellen, welche besser sind?
Assad Ebrahim
1
Die Attribute, die Sie verwenden würden, hängen von Ihren Zielen für die Metrik ab. Ich meinte jedoch nur, dass es eine bessere Analogie für die CoV ist. Beachten Sie, dass das 3. Quartil der Median Ihrer Daten ist, die über dem Median liegen, und das 1. q der Median der darunter liegenden Daten ist, sodass IQR / 2 auf lange Sicht gleich MADM ist (nb, es ist nicht garantiert, dass sie gleich sind in einer gegebenen Probe). Der IQR wird sich auf alle Fälle weiter von seinem wahren Wert im Pop unterscheiden, aber ich bin mir nicht sicher, welche Implikationen dies haben würde und wie er aussehen würde. irren. von IQR / 2 sollte gleich SE von MADM sein.
gung - Reinstate Monica
Ich verstehe, danke für die Klarstellung. Guter Punkt zur Medianinterpretation von Q3 und Q1. Ich werde MADM/medianes nebenbei versuchen IQR/median. Der Nebeneinander-Vergleich kann interessant sein. (+1 für den interessanten Vorschlag)
Assad Ebrahim
6

"Wahl 1" ist das, was Sie wollen, wenn Sie Nicht-Parameter verwenden, um die Auswirkung von Ausreißern zu verringern. Selbst wenn Sie es aufgrund eines Versatzes verwenden, der auch den Nebeneffekt hat, dass im Heck häufig extreme Werte auftreten, kann dies zu Ausreißern führen. Ihre "Wahl 2" kann dramatisch von Ausreißern oder Extremwerten beeinflusst werden, während die Komponenten Ihrer ersten Gleichung relativ robust gegenüber diesen sind.

[Dies hängt ein wenig davon ab, welche Art von IQR Sie auswählen (siehe die R-Hilfe zum Quantil).]

John
quelle
Sie haben Recht, ich hätte sagen sollen: "Dies ist analog zur Definition des Variationskoeffizienten ... (jetzt in der Frage festgelegt)!
Assad Ebrahim
Vielen Dank für den Kommentar, der davon abhängt, welche Art von IQR Sie auswählen ... - Mir war nicht klar, dass es so viele mögliche Definitionen für Quartile / Quantile gibt! Ich benutze die integrierte Excel- quartile( )Funktion und nehme dann IQR := Q3 - Q1. Meine Zahlen stammen aus einer Zeitreihe wöchentlicher Messungen über ein Jahr. Die Messungen sind industrielle Leistungsmessungen und stammen aus einer kontinuierlichen Verteilung. Die unterschiedlichen Bevölkerungsgruppen sind unterschiedliche Produktgruppen. In dieser Situation denke ich nicht, dass die verschiedenen Definitionen in der Praxis sehr unterschiedlich wären?
Assad Ebrahim
6

Ich ziehe es vor, keine Kennzahlen wie CV zu berechnen, da ich für die Zufallsvariable fast immer einen willkürlichen Ursprung habe. In Bezug auf die Wahl eines robusten Dispersionsmaßes ist es schwierig, die mittlere Differenz von Gini zu übertreffen, die der Mittelwert aller möglichen absoluten Werte von Differenzen zwischen zwei Beobachtungen ist. Für eine effiziente Berechnung siehe zum Beispiel die R- rmsPaketfunktion GiniMd. Unter Normalbedingungen ist die mittlere Differenz von Gini 0,98 so effizient wie die SD für die Schätzung der Streuung.

Frank Harrell
quelle
3

Wie bei John habe ich noch nie von dieser Definition des Variationskoeffizienten gehört. Ich würde es nicht so nennen, wenn ich es benutzen würde, würde es die Leute verwirren.

"Was ist am nützlichsten?" hängt davon ab, wofür Sie es verwenden möchten. Mit Sicherheit ist Wahl 1 für Ausreißer robuster, wenn Sie sicher sind, dass Sie das möchten. Aber was ist der Zweck des Vergleichs der beiden Verteilungen? Was versuchst du zu machen?

Eine Alternative besteht darin, beide Maßnahmen zu standardisieren und sich dann die Zusammenfassungen anzusehen.

Ein anderes ist ein QQ-Plot.

Es gibt auch viele andere.

Peter Flom - Wiedereinsetzung von Monica
quelle
Guter Punkt - hätte analog zum Variationskoeffizienten sagen sollen (ich habe die Korrektur vorgenommen).
Assad Ebrahim
Meine Zahlen stammen aus einer Zeitreihe wöchentlicher Messungen über ein Jahr. Die Messungen sind industrielle Leistungsmessungen und stammen aus einer kontinuierlichen Verteilung. Die verschiedenen Bevölkerungsgruppen sind verschiedene Produktgruppen und ich habe ungefähr 50 Produktgruppen. Ich versuche, die inhärente Variabilität zwischen verschiedenen Produktgruppen zu vergleichen. Insbesondere möchte ich in der Lage sein, die Produktgruppen in absteigender Reihenfolge der Variabilität einzuordnen.
Assad Ebrahim
Was meinen Sie mit "beide Maßnahmen standardisieren und dann Zusammenfassungen betrachten"? Ich dachte, Choice 1 standardisiert sie ...!
Assad Ebrahim
2

In diesem Artikel werden zwei gute robuste Alternativen für den Variationskoeffizienten vorgestellt. Einer ist der Interquartilbereich geteilt durch den Median, das heißt:

IQR / Median = (Q3-Q1) / Median

Der andere ist der Median der absoluten Abweichung geteilt durch den Median, das heißt:

MAD / Median

Sie vergleichen sie und kommen zu dem Schluss, dass die zweite ein wenig weniger variabel und wahrscheinlich für die meisten Anwendungen besser ist.

Armando
quelle