Was versteht man unter kategorialer Verteilung?

11

Ist diese separate Art der Verteilung (EX: Binomial, Bernoulli, Multinomial) oder kann jede Verteilung auf diese Weise dargestellt werden. Kann jemand mit einfachem Beispiel näher darauf eingehen

subha
quelle

Antworten:

11

Die kategoriale Verteilung ist die Verallgemeinerung der Bernoulli-Verteilung auf eine feste Anzahl von von Ergebnissen.2k

Entsprechend ist es der Sonderfall der Multinomialverteilung, bei dem die Anzahl der "Auswahlmöglichkeiten" auf eins festgelegt ist.n

Daher hat es pdf:

i=1kpixi(where 0pi and ipi=1)
über die Unterstützung wobei
xi{0,1}
ni=1kxi=1.

Zusammenfassend hat Bernoulli k=2,n=1 , Binomial hat k = 2, n \ ge1,k=2,n1 Multinomial hat k2,n1 und kategorisch hat k2,n=1 .

Neil G.
quelle
ist das notwendig, xi = 0,1. Kann es nicht mehr sein?
Subha
@subha: Mein Verständnis der kategorialen Verteilung hat es so. Für Multinomial und Binomial kann es natürlich sein.
Neil G
5

Kategoriale Variablen haben endliche Mengen diskreter Werte. Beispiele sind Geschlecht (männlich / weiblich), Land, Planet usw. Vergleichen Sie dies mit kontinuierlichen Variablen, die unendlich viele verschiedene Werte annehmen können. Beispiele sind Gewicht, Länge, Entfernung usw.

Beachten Sie, dass ähnliche Informationen manchmal kategorisch und kontinuierlich ausgedrückt werden können. zB planet = earthkönnte ausgedrückt werden als distance to sun = 1 astronomical unit ≈ 150 million kilometers. Es gibt jedoch keine Möglichkeit, 200 Millionen Kilometer von der Sonne in Planeten auszudrücken, da es dort keinen Planeten gibt (der Mars ist 228 Millionen Kilometer von der Sonne entfernt). Gleiches gilt für 201 Millionen km, 202 usw. Alles, was Sie über diese Entfernungen in Bezug auf Planeten sagen können, ist planet = none: Sie können nicht sagen planet = 4/3×earthoder .88×Mars, weil es keine sinnvolle Möglichkeit gibt, einen Planeten oder eine andere kategoriale Variable zu multiplizieren. In Bezug auf Planeten wären diese Entfernungen nicht zu unterscheiden, aber natürlich sind sie als unterschiedliche Entfernungen von der Sonne sinnvoll, wenn sie als solche ausgedrückt werden - als kontinuierliche Variable.

Man kann auch kontinuierliche Variablen mit beliebiger Genauigkeit ausdrücken (z. B. ist eine astronomische Einheit 149.597.871 km, nicht genau 150 Millionen km). Umgekehrt gibt es keine Möglichkeit, planet = earthgenauer auszudrücken . Erde ist genau Erde, nicht mehr und nicht weniger. Darüber hinaus wäre es nicht sinnvoll zu sagen, dass ein anderer Planet "mehr" oder "weniger" als die Erde ist, wenn planetes sich um eine nominelle Variable handelt. Es könnte jedoch als geordnete (ordinale) Variable codiert werden - Planeten sind in Bezug auf Entfernung zur Sonne, Volumen, Anzahl der Monde usw. geordnet. Diese Zahlen sind alle in ihren eigenen Begriffen stetig (oder zumindest in Zählungen, die diskret sind aber nicht kategorisch), aber nicht in Bezug auf Planeten. ZB wenn Planeten nach Entfernung von der Sonne oder nach Anzahl der Monde geordnet sind , mars > earth > venus. Wenn Planeten nach Volumen geordnet sind,earth > venus > mars. Es ist nicht erforderlich, kategoriale Variablen zu ordnen, und möglicherweise können einige nicht geordnet werden, aber das Hinzufügen einer Reihenfolge macht sie nicht weniger kategorisch.

Wie Wikipedia sagt, sind kategoriale Verteilungen Verallgemeinerungen der Bernoulli-Verteilung auf mehr als zwei mögliche Werte (die Bernoulli-Verteilung ist streng binär). Die Bernoulli-Verteilung ist auch ein Sonderfall der Binomialverteilung, aber ich würde die Binomialverteilung nicht als kategorisch bezeichnen (sie ist diskret, aber eine Zählvariable, sodass Abstände zwischen Werten definiert werden). Multinomialverteilungen können mit kategorialen Verteilungen in Konflikt gebracht werden, Wikipedia warnt jedoch davor .

Nick Stauner
quelle