Der Unterschied besteht in der zusammenfassenden Statistik: Gini-Koeffizient und Standardabweichung

12

Es gibt mehrere zusammenfassende Statistiken. Wenn Sie die Streuung einer Verteilung beschreiben möchten, können Sie beispielsweise die Standardabweichung oder den Gini-Koeffizienten verwenden .

Ich weiß, dass die Standardabweichung auf der zentralen Tendenz basiert, dh der Abweichung vom Mittelwert, und der Gini-Koeffizient eine allgemeine Messung der Dispersion. Ich weiß auch, dass der Gini-Koeffizient eine Unter- und Obergrenze hat [0 1] und die Standardabweichung nicht . Diese Eigenschaften sind gut zu wissen, aber welche Erkenntnisse kann die Standardabweichung geben, die der Gini nicht kann, und umgekehrt? Wenn ich mich für eine der beiden entscheiden müsste, was sind die Vorteile einer Verwendung gegenüber einer anderen, wenn es darum geht, informativ und aufschlussreich zu sein?

Olivier_s_j
quelle
1
Sie hatten eine seltsame Auswahl an Tags. Ich habe sie bearbeitet.
Amöbe sagt Reinstate Monica

Antworten:

8

Zwei Dinge zu beachten

Der Gini ist skalierungsunabhängig, während sich der SD in den Originaleinheiten befindet

Angenommen, wir haben ein Maß, das oben und unten begrenzt ist. SD nimmt seinen Maximalwert an, wenn sich an jeder Grenze halbe Messungen befinden, während Gini das Maximum annimmt, wenn sich eine an einer Grenze befindet und der Rest an der anderen.

mdewey
quelle
Denken Sie, wir könnten den Einsatz von Gini erweitern, um die Konzentration / Heterogenität in der Metaanalyse zu berücksichtigen? Es könnte interessant sein, die Konzentration in der Heterogenität zu quantifizieren ...
Joe_74
1
Da die Annahme ist, dass die Effekte normal sind, dann nein. Aber ich denke, eine ausführlichere Diskussion ist in diesem Thread
nicht
@mdewey Dieser letzte Satz war aufschlussreich und hat mir am meisten geholfen. Danke!
Olivier_s_j
@mdewey Ich habe das selbst mit Code getestet, aber gibt es irgendwo eine Veröffentlichung, die dies diskutiert? Oder ein Beweis? (Ich beziehe mich auf den letzten Satz)
Olivier_s_j
@Ojtwist der Wikipedia-Artikel en.wikipedia.org/wiki/Gini_coefficient ist hilfreich.
Mdewey
10

Der Gini-Koeffizient ist skalierungsinvariant und begrenzt, die Standardabweichung invariant zu einer Verschiebung und unbegrenzt, sodass sie nur schwer direkt zu vergleichen sind. Jetzt können Sie eine skaleninvariante Version der Standardabweichung definieren, indem Sie durch den Mittelwert (Variationskoeffizient) dividieren.

Der Gini-Index basiert jedoch immer noch auf Werten, der zweite auf quadratischen Werten, sodass Sie erwarten können, dass der zweite stärker von Ausreißern beeinflusst wird (übermäßig niedrige oder hohe Werte). Dies kann in gefunden werden Maßnahmen zur Einkommensungleichheit , F De Maio, 2007:

Dieses Maß für die Einkommensungleichheit wird berechnet, indem die Standardabweichung der Einkommensverteilung durch ihren Mittelwert dividiert wird. Gleichere Einkommensverteilungen weisen geringere Standardabweichungen auf. Daher wird der Lebenslauf in gleichberechtigten Gesellschaften kleiner sein. Obwohl es sich um eine der einfachsten Maßnahmen zur Messung der Ungleichheit handelt, war die Verwendung des Lebenslaufs in der Literatur zur öffentlichen Gesundheit ziemlich begrenzt und wurde in der Forschung zur Hypothese der Einkommensungleichheit nicht berücksichtigt. Dies kann auf wichtige Einschränkungen des CV-Maßes zurückgeführt werden: (1) Es hat im Gegensatz zum Gini-Koeffizienten 18 keine Obergrenze, 18 was die Interpretation und den Vergleich etwas erschwert; und (2) die zwei Komponenten des Lebenslaufs (der Mittelwert und die Standardabweichung) können durch anomal niedrige oder hohe Einkommenswerte außerordentlich beeinflusst werden. Mit anderen Worten,

1(xm)=|xnm|1/2N2(x)1(x)N2(x)

1/2 Normverhältnis zwei interessante Maße für die Verteilungsdichte, skalierungsinvariant und begrenzt.

1/2 in diesem Zusammenhang können verwendet werden.

Wenn Sie also keine nahezu Gaußsche Verteilung charakterisieren möchten, wenn Sie eine Sparsity messen möchten, verwenden Sie den Gini-Index. Wenn Sie die Sparsity zwischen verschiedenen Modellen fördern möchten, können Sie ein solches Normverhältnis ausprobieren.

Zusätzliche Vorlesung: Ginis mittlerer Unterschied: ein überlegenes Maß für die Variabilität für nicht normale Verteilungen , Shlomo Yitzhaki, 2003, dessen Zusammenfassung von Interesse sein könnte:

Von allen Variabilitätsmaßen ist die Varianz bei weitem die beliebteste. In diesem Artikel wird argumentiert, dass Ginis Mean Difference (GMD), ein alternativer Variabilitätsindex, viele Eigenschaften mit der Varianz teilt, jedoch informativer über die Eigenschaften von Verteilungen sein kann, die von der Normalität abweichen

Laurent Duval
quelle
1

Die Standardabweichung hat eine Skala (z. B. ° K, Meter, mmHg, ...). Normalerweise beeinflusst dies unser Urteil über seine Größe. Daher bevorzugen wir eher den Variationskoeffizienten oder sogar (bei endlichen Stichproben) den Standardfehler.

[0,1]

Horst Grünbusch
quelle