Wie ist der Variationskoeffizient zu interpretieren?

33

Ich versuche den Variationskoeffizienten zu verstehen . Wenn ich versuche, es auf die folgenden zwei Datenbeispiele anzuwenden, kann ich die Interpretation der Ergebnisse nicht verstehen.

Angenommen, Beispiel 1 ist und Beispiel 2 ist . Hier Beispiel 2 Beispiel 1 wie Sie sehen können.0,5,7,12,11,1710,15,17,22,21,27=+ 10

Beide haben die gleiche Standardabweichung aber und .σ2=σ1=5,95539μ2=18,67μ1=8.66667

Nun ist der Variationskoeffizient unterschiedlich. Für Probe 2 ist es weniger als für Probe 1. Aber wie interpretiere ich dieses Ergebnis? In Bezug auf die Varianz sind beide gleich; nur ihre Mittel sind verschieden. Wozu dient der Variationskoeffizient hier? Es führt mich nur in die Irre, oder ich kann die Ergebnisse nicht interpretieren.σ/μ

Durin
quelle
Wenn Sie statt 10 1000 addieren, unterscheidet sich der zweite Satz von Zahlen im Verhältnis zum Mittelwert um viel weniger als der erste Satz. Der Variationskoeffizient ist ein Ausdruck davon.
Sehr eng verbunden: stats.stackexchange.com/questions/113437/… .
whuber

Antworten:

42

In Beispielen wie Ihrem, in denen sich Daten nur additiv unterscheiden, dh wir zu allem eine Konstante hinzufügen , ändert sich der Mittelwert um genau diese Konstante, und daher ändert sich der Variationskoeffizient von to , was weder interessant noch nützlich ist.σ / μ σ / ( μ + k )kσ/μσ/(μ+k)

Interessant ist die multiplikative Veränderung, bei der der Variationskoeffizient eine Rolle spielt. Das Multiplizieren von allem mit einer Konstanten impliziert, dass der Variationskoeffizient , dh derselbe bleibt wie zuvor. Das Ändern der Maßeinheiten ist ein typisches Beispiel, wie bei den Antworten von @Aksalal und @Macond.k σ / k μkkσ/kμ

Da der Variationskoeffizient einheitenfrei ist, ist er auch dimensionslos, da alle Einheiten oder Dimensionen, die die zugrunde liegende Variable besitzt, von der Division ausgewaschen werden. Das macht den Variationskoeffizienten zu einem Maß für die relative Variabilität , so dass die relative Variabilität von Längen mit der von Gewichten verglichen werden kann und so weiter. Ein Bereich, in dem der Variationskoeffizient eine beschreibende Verwendung gefunden hat, ist die Morphometrie der Organismengröße in der Biologie.

Grundsätzlich und in der Praxis ist der Variationskoeffizient nur für vollständig positive Variablen vollständig und überhaupt sinnvoll definiert. Daher ist Ihre erste Stichprobe mit dem Wert im Detail kein geeignetes Beispiel. Eine andere Sichtweise ist die Feststellung, dass der Koeffizient unbestimmt wäre, wenn der Mittelwert je Null wäre, und der Mittelwert je Negativ wäre, wenn im letzteren Fall die Standardabweichung positiv wäre. In beiden Fällen würde das Maß als Maß für die relative Variabilität oder für einen anderen Zweck unbrauchbar. 0

Eine äquivalente Aussage ist, dass der Variationskoeffizient nur dann interessant und nützlich ist, wenn Logarithmen auf die übliche Weise für alle Werte definiert werden und die Verwendung von Variationskoeffizienten tatsächlich der Betrachtung der Variabilität von Logarithmen entspricht.

Obwohl es dem Leser hier unglaublich erscheinen sollte, habe ich klimatologische und geografische Veröffentlichungen gesehen, in denen die Variationskoeffizienten der Celsius-Temperaturen naive Wissenschaftler verwirrt haben, die feststellen, dass Koeffizienten explodieren können, wenn die Durchschnittstemperaturen nahe an ° C kommen und negativ für werden mittlere Temperaturen unter dem Gefrierpunkt. Noch bizarrer, ich habe Vorschläge gesehen, dass das Problem durch die Verwendung von Fahrenheit gelöst wird. Umgekehrt wird der Variationskoeffizient häufig korrekt als zusammenfassendes Maß angegeben, das genau dann definiert wird, wenn Messskalen als Verhältnisskala qualifiziert sind. Allerdings ist der Variationskoeffizient selbst für in Kelvin gemessene Temperaturen nicht besonders nützlich, sondern eher aus physikalischen als aus mathematischen oder statistischen Gründen.0

Wie bei den bizarren Beispielen aus der Klimatologie, die ich nicht erwähne, weil die Autoren weder die Anerkennung noch die Schande verdienen, wurde der Variationskoeffizient in einigen Bereichen überstrapaziert. Es gibt gelegentlich die Tendenz, es als eine Art magisches Zusammenfassungsmaß zu betrachten, das sowohl den Mittelwert als auch die Standardabweichung umfasst. Dies ist natürlich primitives Denken, da selbst wenn das Verhältnis sinnvoll ist, der Mittelwert und die Standardabweichung nicht daraus wiederhergestellt werden können.

In der Statistik ist der Variationskoeffizient ein ziemlich natürlicher Parameter, wenn die Variation entweder dem Gamma-Wert oder dem logarithmischen Wert folgt, wie aus der Betrachtung der Form des Variationskoeffizienten für diese Verteilungen ersichtlich ist.

Obwohl der Variationskoeffizient von Nutzen sein kann, besteht der nützlichere Schritt in Fällen, in denen er angewendet wird, darin, auf der logarithmischen Skala zu arbeiten, entweder durch logarithmische Transformation oder durch Verwendung einer logarithmischen Verknüpfungsfunktion in einem verallgemeinerten linearen Modell.

EDIT: Wenn alle Werte negativ sind, können wir das Vorzeichen als eine Konvention betrachten, die ignoriert werden kann. In diesem Fall entsprichtist effektiv ein identischer Zwilling des Variationskoeffizienten.σ/|μ|

Nick Cox
quelle
3
+1 Dieser Beitrag enthält die wichtigsten Punkte zu Logarithmen und Positivität, die Teil jeder Diskussion zu diesem Thema sein sollten. Die "Kriegsgeschichten" machen es auch eine gute Lektüre.
whuber
Ich dachte, du könntest den CV nicht berechnen, wenn eine Variable = 0 ist?
1
@ Jerf: Denk mal nach. Wenn alle Werte 0 sind, gibt es keine Variation und nichts zu berechnen. Es gibt kein Problem, nur weil einige einzelne Werte 0 sind, da dies selbst nicht ausschließt, dass der Mittelwert 0 ist. Sie können jedoch immer Beispiele finden, bei denen einige Werte nicht Null sind und der Mittelwert 0 ist, z. B. -1, 0, 1 in In diesem Fall ist der Lebenslauf unbestimmt. In der Praxis ist der Lebenslauf jedoch am nützlichsten, wenn alle Werte positiv sind.
Nick Cox
13

Stellen Sie sich vor, ich sagte: "Es gibt 1.625.330 Menschen in dieser Stadt. Plus oder Minus fünf." Sie wären beeindruckt von meinem genauen demografischen Wissen.

Aber wenn ich sagte "Es gibt fünf Leute in diesem Haus. Plus oder Minus fünf." Man könnte meinen, ich hätte keine Ahnung, wie viele Leute im Haus waren.

Gleiche Standardabweichung, sehr unterschiedliche Lebensläufe.

Bart
quelle
1
Dies ist eine vernünftige Methode, um zu erklären, was der CoV ist, aber es ist nicht klar, wie relevant er für die Frage des OP ist.
gung - Reinstate Monica
OP fragt: "In Bezug auf die Varianz sind beide gleich; nur ihre Mittel sind unterschiedlich. Was nützt also der Variationskoeffizient hier?" Ich denke, mein Beispiel zeigt die Verwendung des Lebenslaufs zur Interpretation der Varianz.
Bart
1
Ich habe dich nicht abgelehnt. Die 2 expliziten Fragen des OP lauten: "Wie interpretiere ich dieses Ergebnis?" Und "Wozu dient der Variationskoeffizient hier?". Ihre Erklärung ist gut, aber zu verstehen, was der CoV ist, ist nur der erste Schritt bei der Beantwortung dieser Fragen, nicht die gesamte Beantwortung dieser Fragen.
gung - Reinstate Monica
4

Normalerweise verwenden Sie den Variationskoeffizienten für Variablen verschiedener Maßeinheiten oder sehr unterschiedlicher Maßstäbe. Sie können es sich als Rausch / Signal-Verhältnis vorstellen. Zum Beispiel möchten Sie vielleicht die Variabilität des Gewichts und der Größe von Schülern vergleichen. Variabilität des BIP der USA und Monaco.

In Ihrem Fall ist der Variationskoeffizient möglicherweise überhaupt nicht sinnvoll, da die Werte nicht sehr unterschiedlich sind.

Aksakal
quelle
2

Stichprobe mit höheren Werten weist im Vergleich zum Mittelwert weniger Abweichungen auf, wie die Definition ( ) nahelegt. Es ist eigentlich ziemlich einfach. Der Variationskoeffizient ist nützlich, wenn Variationen zwischen Proben (oder Populationen) verschiedener Skalen verglichen werden. Stellen Sie sich vor, Sie haben mit Löhnen zwischen Ländern zu tun. Der Vergleich der Lohnunterschiede in den USA und in Japan ist weniger aussagekräftig, wenn Sie als Statistik die Varianz anstelle des Variationskoeffizienten verwenden, da 1 USD ~ = 100 JPY und ein Lohnunterschied von 1 Einheit nicht in beiden Stichproben dasselbe bedeuten. In diesem Beispiel können Sie alles in USD konvertieren und dann die Berechnungen durchführen. Es ist jedoch nicht immer klar, wie zwischen verschiedenen Skalen konvertiert werden soll. Zum Beispiel beim Vergleich der Unterschiede im Körpergewicht verschiedener Arten.s/x¯

Macond
quelle
2

Tatsächlich können beide Statistiken irreführend sein, wenn Sie Ihre Hypothese und Ihr Experiment nicht kennen oder nicht verstehen. Betrachten Sie dieses grausame Beispiel ... Gehen Sie auf einem Drahtseil über zwei Hochhäuser, anstatt auf einem Brett zu gehen. Angenommen, das Drahtseil hat einen Durchmesser von 1 Zoll, während die Planke 12 Zoll breit ist. 5 Personen wurden gebeten, auf dem Seil zu laufen, und 5 Personen wurden gebeten, auf der Planke zu laufen. Wir haben folgende Ergebnisse gefunden:

Der durchschnittliche Abstand jeder Stufe von der Kante (oder Seite) des Seils (Zoll): 0,5, 0,2, 0,3, 0,6, 0,1

Der durchschnittliche Abstand jeder Stufe von der Kante (oder Seite) der Diele (Zoll): 5,5, 5,2, 5,3, 5,6, 5,1

Genau wie in Ihrem Beispiel führt dieses Beispiel zu gleichen Standardabweichungen, da die Werte für die Diele lediglich +5 von denen für das Drahtseil abweichen. Wenn ich Ihnen jedoch sage, dass die Standardabweichung für jedes Experiment 0,2074 beträgt, können Sie sagen, dass die beiden Experimente gleichwertig sind. Wenn ich Ihnen jedoch erzähle, dass der Lebenslauf für das Hochseilexperiment fast 61% betrug, verglichen mit unter 4% für das Brett, könnten Sie mich fragen, wie viele Menschen vom Seil gefallen sind.

user62371
quelle
0

CV ist eine relative Variabilität, die zum Vergleichen der Variabilität verschiedener Probendatensätze verwendet wird. Für ein Beispiel von Ihnen erzeugt dieselbe Standardabweichung / Varianz mit kleinerem Mittelwert einen kleineren CV. Dies zeigt an, dass ein kleinerer CV-Datensatz eine geringere relative Variabilität aufweist. Angenommen, Sie verdienen 10000 monatlich und ich verdiene 100. (anderer Durchschnitt) Wir alle verlieren wahrscheinlich 100 monatlich (Schaden), ich werde weit mehr verletzt als Sie, da ich einen größeren Lebenslauf (Lebenslauf = 1 im Vergleich zu Ihrem 0,01) habe, relativ größere Variation.

Sun Ke
quelle
1
Ich muss sagen, dass dies den vorhandenen Antworten nichts hinzufügt.
Nick Cox
0

in diesem fall ist cv nicht das richtige statistische instrument, um das ergebnis zu erklären.

Je nach Art der durchgeführten Forschung hat der Forscher eine bestimmte Hypothese oder einen konkreten Beweis. Er oder sie muss Experimente entwerfen, durchführen und Daten mit dem besten und geeigneten statistischen Tool analysieren, dh wenn das Experiment das Wachstum von Gruppe 1 und Gruppe 2 vergleichen soll, obwohl Lebenslauf von beiden gleich ist, aber T-Test oder gepaarte T- Test oder Anova (größeres Experiment) könnte leicht den Unterschied zwischen den beiden Gruppen beweisen.

Der Schlüssel hier ist, das entsprechende statistische Tool anzuwenden, um eine aussagekräftige Erklärung für das Ergebnis zu geben. Denken Sie daran, dass Lebenslauf nur eine der Auswahlmöglichkeiten in der beschreibenden Statistik ist.

meine 2 Cent

lokmal
quelle