Für einen bestimmten Datensatz wird der Spread häufig entweder als Standardabweichung oder als IQR (Interquartilbereich) berechnet.
Während a standard deviation
normalisiert ist (z-Scores usw.) und somit zum Vergleich der Streuung aus zwei verschiedenen Populationen verwendet werden kann, ist dies beim IQR nicht der Fall, da die Stichproben aus zwei verschiedenen Populationen Werte in zwei sehr unterschiedlichen Maßstäben haben könnten.
e.g.
Pop A: 100, 67, 89, 75, 120, ...
Pop B: 19, 22, 43, 8, 12, ...
Was ich anstrebe, ist eine robuste (nicht parametrische) Messgröße, mit der ich die Variation innerhalb verschiedener Populationen vergleichen kann.
Wahl 1:
IQR / Median
- Dies wäre analog zum Variationskoeffizienten , dh zu .
Wahl 2:
Range / IQR
Frage: Welches ist das aussagekräftigere Maß für den Vergleich von Variationen zwischen Populationen? Und wenn es Wahl 1 ist, ist Wahl 2 für irgendetwas nützlich / sinnvoll, oder ist es eine grundlegend fehlerhafte Maßnahme?
quelle
Antworten:
Die Frage impliziert, dass die Standardabweichung (SD) irgendwie normalisiert ist, sodass die Variabilität zweier verschiedener Populationen verglichen werden kann. Nicht so. Wie Peter und John sagten, erfolgt diese Normalisierung wie bei der Berechnung des Variationskoeffizienten (CV), der gleich SD / Mean ist. Die SD befindet sich in denselben Einheiten wie die Originaldaten. Im Gegensatz dazu ist der CV ein Verhältnis ohne Einheit.
Ihre Wahl 1 (IQR / Median) entspricht dem Lebenslauf. Wie der Lebenslauf wäre es nur sinnvoll, wenn es sich bei den Daten um Verhältnisdaten handelt. Das bedeutet, dass Null wirklich Null ist. Ein Gewicht von Null ist kein Gewicht. Eine Länge von Null ist keine Länge. Als Gegenbeispiel wäre es für die Temperatur in C oder F nicht sinnvoll, da eine Temperatur von Null Grad (C oder F) nicht bedeutet, dass es keine Temperatur gibt. Durch einfaches Umschalten zwischen der C- oder F-Skala erhalten Sie einen anderen Wert für die CV oder für das Verhältnis von IQR / Median, wodurch beide Verhältnisse bedeutungslos werden.
Ich stimme Peter und John zu, dass Ihre zweite Idee (Range / IQR) für Ausreißer nicht sehr robust wäre und daher wahrscheinlich nicht nützlich wäre.
quelle
z-scores
Standardisierung von Werten und der Normalisierung ihrer Position innerhalb einer Verteilung in Bezug auf Mittelwert und Standardabweichung mit diesem Problem verwechselt , das Es geht darum, Produktgruppen nach ihrer Variabilität zu ordnen. Wählen Sie Ihre Antwort als die richtige, denn obwohl Peter und John beide sehr hilfreich waren, haben Sie mich auf die konzeptionelle Verwechslung aufmerksam gemacht. Ein guter Punkt, wenn Auswahl 1 in der Nähe von Median 0 von begrenztem Nutzen ist. Glücklicherweise muss ich mir bei meinem Problem darüber keine Sorgen machen.Es ist wichtig zu wissen, dass das Minimum und das Maximum oft nicht sehr gut zu verwendende Statistiken sind (dh sie können von Stichprobe zu Stichprobe stark schwanken und folgen keiner Normalverteilung, wie dies beispielsweise der Mittelwert aufgrund des zentralen Grenzwertsatzes sein könnte). . Infolgedessen ist der Bereich selten eine gute Wahl für etwas anderes als die Angabe des Bereichs dieser genauen Stichprobe . Für eine einfache, nichtparametrische Statistik zur Darstellung der Variabilität ist der Interquartilbereich viel besser. Obwohl ich die Analogie zwischen IQR / Median und dem Variationskoeffizienten sehe, halte ich dies nicht für die beste Option.
quelle
MADM/median
, im Wesentlichen der mittlere Unterschied zum Mittelwert. Nennen wir dies Choice 3. Stimmen Sie Ihrer Einschätzung von Choice 1 zu, es ist also aus, danke. Wenn Sie "besser" vorschlagen, welche Attribute könnten verwendet werden, um Auswahl 2 mit Auswahl 3 zu vergleichen, um festzustellen, welche besser sind?MADM/median
es nebenbei versuchenIQR/median
. Der Nebeneinander-Vergleich kann interessant sein. (+1 für den interessanten Vorschlag)"Wahl 1" ist das, was Sie wollen, wenn Sie Nicht-Parameter verwenden, um die Auswirkung von Ausreißern zu verringern. Selbst wenn Sie es aufgrund eines Versatzes verwenden, der auch den Nebeneffekt hat, dass im Heck häufig extreme Werte auftreten, kann dies zu Ausreißern führen. Ihre "Wahl 2" kann dramatisch von Ausreißern oder Extremwerten beeinflusst werden, während die Komponenten Ihrer ersten Gleichung relativ robust gegenüber diesen sind.
[Dies hängt ein wenig davon ab, welche Art von IQR Sie auswählen (siehe die R-Hilfe zum Quantil).]
quelle
quartile( )
Funktion und nehme dannIQR := Q3 - Q1
. Meine Zahlen stammen aus einer Zeitreihe wöchentlicher Messungen über ein Jahr. Die Messungen sind industrielle Leistungsmessungen und stammen aus einer kontinuierlichen Verteilung. Die unterschiedlichen Bevölkerungsgruppen sind unterschiedliche Produktgruppen. In dieser Situation denke ich nicht, dass die verschiedenen Definitionen in der Praxis sehr unterschiedlich wären?Ich ziehe es vor, keine Kennzahlen wie CV zu berechnen, da ich für die Zufallsvariable fast immer einen willkürlichen Ursprung habe. In Bezug auf die Wahl eines robusten Dispersionsmaßes ist es schwierig, die mittlere Differenz von Gini zu übertreffen, die der Mittelwert aller möglichen absoluten Werte von Differenzen zwischen zwei Beobachtungen ist. Für eine effiziente Berechnung siehe zum Beispiel die R-
rms
PaketfunktionGiniMd
. Unter Normalbedingungen ist die mittlere Differenz von Gini 0,98 so effizient wie die SD für die Schätzung der Streuung.quelle
Wie bei John habe ich noch nie von dieser Definition des Variationskoeffizienten gehört. Ich würde es nicht so nennen, wenn ich es benutzen würde, würde es die Leute verwirren.
"Was ist am nützlichsten?" hängt davon ab, wofür Sie es verwenden möchten. Mit Sicherheit ist Wahl 1 für Ausreißer robuster, wenn Sie sicher sind, dass Sie das möchten. Aber was ist der Zweck des Vergleichs der beiden Verteilungen? Was versuchst du zu machen?
Eine Alternative besteht darin, beide Maßnahmen zu standardisieren und sich dann die Zusammenfassungen anzusehen.
Ein anderes ist ein QQ-Plot.
Es gibt auch viele andere.
quelle
In diesem Artikel werden zwei gute robuste Alternativen für den Variationskoeffizienten vorgestellt. Einer ist der Interquartilbereich geteilt durch den Median, das heißt:
IQR / Median = (Q3-Q1) / Median
Der andere ist der Median der absoluten Abweichung geteilt durch den Median, das heißt:
MAD / Median
Sie vergleichen sie und kommen zu dem Schluss, dass die zweite ein wenig weniger variabel und wahrscheinlich für die meisten Anwendungen besser ist.
quelle