Welche zusammenfassenden Statistiken sind für kategoriale oder qualitative Variablen zu verwenden?

18

Um dies zu verdeutlichen, beziehe ich mich auf die Bereiche Mittelwert, Medianquartil, Varianz und Standardabweichung.

Ist es bei der Zusammenfassung einer kategorialen oder qualitativen Univariate unter Berücksichtigung von Nominal- und Ordinalfällen sinnvoll, den Mittelwert, den Median, die Quartilbereiche, die Varianz und die Standardabweichung zu ermitteln?

Wenn ja, ist es anders, als wenn Sie eine stetige Variable zusammenfassen, und wie?

Chutsu
quelle
2
Ich sehe kaum einen Unterschied zwischen kategorialer und qualitativer Variable, abgesehen von einer Terminologie. Auf jeden Fall wäre es sehr schwierig, einen Mittelwert oder eine SD für eine nominelle Variable (z. B. die Haarfarbe) zu berechnen. Vielleicht denken Sie an kategoriale Variablen mit geordneten Ebenen?
CHL
Nein, wenn die kategorialen Daten eine Reihenfolge oder Rangfolge haben, werden sie laut dieser Website als ordentlich bezeichnet : [ stats.gla.ac.uk/steps/glossary/presenting_data.html#orddat] , und es heißt "Sie können zählen und ordnen, aber nicht messen, ordinale Daten "
Chutsu
Aber irre ich mich
Chutsu

Antworten:

8

Im Allgemeinen lautet die Antwort nein. Man könnte jedoch argumentieren, dass Sie den Median ordinaler Daten nehmen können, aber Sie werden natürlich eine Kategorie als Median haben, keine Zahl. Der Median teilt die Daten gleichmäßig auf: halb oben, halb unten. Ordnungsangaben sind nur von der Bestellung abhängig.

Ferner kann in einigen Fällen die Ordinalität in grobe Intervallebenendaten umgewandelt werden. Dies trifft zu, wenn die Ordnungsdaten gruppiert werden (z. B. werden häufig Fragen zum Einkommen auf diese Weise gestellt). In diesem Fall können Sie einen genauen Median finden und möglicherweise die anderen Werte approximieren, insbesondere wenn die Unter- und Obergrenze angegeben sind: Sie können eine gewisse Verteilung (z. B. einheitlich) innerhalb jeder Kategorie annehmen. Ein weiterer Fall von Ordnungsdaten, die zum Intervall gemacht werden können, ist, wenn den Pegeln numerische Äquivalente gegeben werden. Zum Beispiel: Nie (0%), manchmal (10-30%), ungefähr die Hälfte der Zeit (50%) und so weiter.

Um (noch einmal) David Cox zu zitieren:

Es gibt keine routinemäßigen statistischen Fragen, nur fragwürdige statistische Routinen

Peter Flom - Wiedereinsetzung von Monica
quelle
1
Sie liefern gute verwandte Informationen, aber ich denke, als Antwort auf diese Frage hat das OP klargestellt, dass es sich um kategoriale Daten handelt, die keine Ordnungszahlen sind. Ihre Antwort ist also wirklich keine Antwort, aber ich bin nicht einer, der eine Ablehnung geben würde. Aber ich denke, Sie sollten es in einen Kommentar ändern.
Michael R. Chernick
1
Nein, ich werde die Antwort nicht ablehnen, da ich der Meinung bin, dass sie zu meinem begrenzten Verständnis beigetragen hat. Ich hätte in meiner Beschreibung klarstellen müssen, dass ich sowohl Ordinal- als auch Nominal-Zusammenfassungsstatistiken berücksichtige, der Fehler liegt also bei mir.
Chutsu
5

Wie bereits erwähnt, sind Mittelwerte, SDs und Gelenkpunkte für kategoriale Daten nicht aussagekräftig. Gelenkpunkte (z. B. Median und Quartile) können für ordinale Daten von Bedeutung sein. In Ihrem Titel werden Sie auch gefragt, welche zusammenfassenden Statistiken zur Beschreibung kategorialer Daten verwendet werden sollen. Es ist Standard, kategoriale Daten durch Zählungen und Prozentsätze zu charakterisieren. (Möglicherweise möchten Sie auch ein Konfidenzintervall von 95% um die Prozentsätze einschließen.) Beispiel:

"Hispanic"         "Hispanic"        "White"             "White"            
"White"            "White"           "African American"  "Hispanic"        
"White"            "White"           "White"             "other" 
"White"            "White"           "White"             "African American"
"Asian"

Sie könnten sie so zusammenfassen:

White             10 (59%)
African American   2 (12%)
Hispanic           3 (18%)
Asian              1 ( 6%)
other              1 ( 6%)
gung - Wiedereinsetzung von Monica
quelle
3

Wenn Sie nominelle Variablen haben, gibt es keine Ordnungs- oder Abstandsfunktion. Wie können Sie also eine der von Ihnen erwähnten zusammenfassenden Statistiken definieren? Ich glaube nicht, dass du kannst. Für Quartile und Bereiche ist mindestens eine Bestellung erforderlich, und für Mittelwerte und Abweichungen sind numerische Daten erforderlich. Ich denke, Balkendiagramme und Tortendiagramme sind typische Beispiele für die richtige Art und Weise, qualitative Variablen zusammenzufassen, die nicht ordinal sind.

Michael R. Chernick
quelle
3
@PeterFlom Es ging mir nicht darum, alle möglichen grafischen Verfahren zur Zusammenfassung qualitativer Daten aufzulisten. Ich möchte wirklich betonen, dass es wirklich eine Proportion ist, die verglichen werden kann und wie die Proportionen über die Kategorien verteilt sind. Um Unterschiede in den Proportionen visuell erkennen zu können, sind Balkendiagramme meiner Meinung nach einfacher zu visualisieren als Tortendiagramme, aber es sind nur zwei beliebte Möglichkeiten, kategoriale Daten zusammenzufassen. Ich möchte nicht sagen, dass sie die besten sind, da ich nicht mit allen verfügbaren Methoden vertraut bin.
Michael R. Chernick
7
Sie sind sicherlich beliebt! Aber ich denke, es gehört zu unserer Verantwortung als Experten auf diesem Gebiet, Kreisdiagramme weniger populär zu machen .
Peter Flom - Reinstate Monica
3
Erstens hat Cleveland gezeigt, dass Menschen Winkelmessungen schlechter wahrnehmen als lineare Entfernungen. Zweitens veränderte das Ändern der Farben in einem Kreisdiagramm die Wahrnehmung der Menschen über die Größe der Schnitte. Drittens veränderte das Drehen des Kreisdiagramms die Wahrnehmung der Menschen über die Größe der Schnitte. Viertens hatten die Leute Probleme, die Scheiben vom größten zum kleinsten zu ordnen, es sei denn, sie waren sehr unterschiedlich groß. Cleveland-Punktdiagramme vermeiden all dies.
Peter Flom - Reinstate Monica
6
@Michael "Eine Tabelle ist fast immer besser als ein dummes Kreisdiagramm; das einzig schlechtere Design als ein Kreisdiagramm sind mehrere von ihnen ... Kreisdiagramme sollten niemals verwendet werden." - Tufte. "Daten, die von Kreisdiagrammen angezeigt werden können, können immer von einem Punktdiagramm angezeigt werden. ... In den 1920er Jahren tobte auf den Seiten von JASA ein Kampf um die relativen Vorzüge von Kreisdiagrammen und geteilten Balkendiagrammen ... beide Lager verlieren, weil andere Grafiken sind weitaus leistungsfähiger als geteilte Balkendiagramme oder Kreisdiagramme. "- Cleveland. Wie Sie wissen, gibt Cleveland keine Vorschriften vor: Dies ist so stark, wie es ihm um nichts geht.
Whuber
6
BTW, @Michael, ich stimme Ihnen und den Argumenten, die Sie in diesem Thread vorbringen (die ich für überzeugend und gut präsentiert halte), zu, aber als Moderator muss ich starke Einwände von Community-Mitgliedern in Bezug auf den "Tonfall" äußern. du adoptierst Bitte befolgen Sie die Etikette der Website: Halten Sie sich an das Thema und greifen Sie andere nicht an. Schreiben Sie nicht einmal Dinge, die wie ein Angriff klingen könnten, auch nicht im Scherz. Natürlich gilt die gleiche Ermahnung für alle.
Whuber
2

Modus funktioniert immer noch! Ist das nicht eine wichtige zusammenfassende Statistik? (Was ist die häufigste Kategorie?) Ich denke, der Medianvorschlag hat als Statistik nur einen geringen bis keinen Wert, aber der Modus.

Auch count distinct wäre wertvoll. (Wie viele Kategorien hast du?)

Sie können Verhältnisse wie (häufigste Kategorie) / (am wenigsten häufigste Kategorie) oder (häufigste Kategorie Nr. 1) / (häufigste Kategorie Nr. 2) erstellen. Auch (häufigste Kategorie) / (alle anderen Kategorien), wie die 80/20-Regel.

Sie können Ihren Kategorien auch Zahlen zuweisen und die üblichen Statistiken verwenden. AA = 1, Hisp = 2 usw. Jetzt können Sie Mittelwert, Median, Modus, SD usw. berechnen.

Maddenker
quelle
0

Ich schätze die anderen Antworten, aber es scheint mir, dass ein topologischer Hintergrund den Antworten eine dringend benötigte Struktur verleihen würde.

Definitionen

Beginnen wir mit der Definition der Domänen:

  • Eine kategoriale Variable ist eine Variable, deren Domäne Elemente enthält, zwischen denen jedoch keine Beziehung bekannt ist (daher gibt es nur Kategorien). Beispiele hängen vom Kontext ab, aber ich würde im Allgemeinen sagen, es ist schwierig, die Wochentage zu vergleichen: ist Montag vor Sonntag, wenn ja, was ist mit dem nächsten Montag? Ein vielleicht einfacheres, aber weniger gebräuchliches Beispiel sind Kleidungsstücke: Ohne einen Kontext anzugeben, der für eine Bestellung sinnvoll wäre, ist es schwierig zu sagen, ob Hosen vor Pullovern kommen oder umgekehrt.

  • Ordnungsvariable ist eine Variable, deren Gesamtreihenfolge über die Domäne definiert ist, dh für jeweils zwei Elemente der Domäne können wir feststellen, dass sie entweder identisch sind oder eines größer als das andere ist. Eine Likert-Skala ist ein gutes Beispiel für die Definition einer Ordinalvariablen. "etwas zustimmen" ist definitiv näher an "stark zustimmen" als an "nicht zustimmen".

  • Die Intervallvariable ist eine Variable, deren Domäne die Abstände zwischen Elementen definiert (eine Metrik ), sodass wir Intervalle definieren können.

Domain-Beispiele

Als die am häufigsten verwendete Menge haben natürliche und reelle Zahlen die Standardgesamtreihenfolge und -metriken. Aus diesem Grund müssen wir vorsichtig sein, wenn wir unseren Kategorien Nummern zuweisen. Wenn wir nicht darauf achten, Reihenfolge und Entfernung zu ignorieren, konvertieren wir unsere kategorialen Daten praktisch in Intervalldaten. Wenn man einen Algorithmus für maschinelles Lernen verwendet, ohne zu wissen, wie er funktioniert, besteht die Gefahr, dass solche Annahmen unfreiwillig getroffen werden, wodurch möglicherweise die eigenen Ergebnisse ungültig werden. Zum Beispiel arbeiten die gängigsten Deep-Learning-Algorithmen mit reellen Zahlen und nutzen deren Intervall- und stetige Eigenschaften. Ein weiteres Beispiel, denken Sie an 5-Punkt - Likert Skalen und wie die Analyse , die wir auf sie anwenden geht davon aus, dass der Abstand zwischen stark zustimmen und vereinbarenist das gleiche wie nicht zustimmen und weder zustimmen noch nicht zustimmen . Es ist schwer, sich für eine solche Beziehung einzusetzen.

Ein weiteres Set, mit dem wir oft arbeiten, sind Streicher . Es gibt eine Reihe von Metriken zur Ähnlichkeit von Zeichenfolgen , die sich beim Arbeiten mit Zeichenfolgen als nützlich erweisen. Diese sind jedoch nicht immer nützlich. Bei Adressen sind beispielsweise die John Smith Street und die John Smith Road in Bezug auf die String-Ähnlichkeit ziemlich ähnlich, stellen jedoch offensichtlich zwei verschiedene Entitäten dar, die kilometerweit voneinander entfernt sein könnten.

Zusammengefasste Statistiken

Ok, jetzt wollen wir sehen, wie einige zusammenfassende Statistiken dazu passen. Da die Statistik mit Zahlen arbeitet, sind ihre Funktionen über Intervalle gut definiert. Aber sehen wir uns Beispiele an, ob / wie wir sie auf kategoriale oder ordinale Daten verallgemeinern könnten:

  • mode - sowohl bei der Arbeit mit kategorialen als auch mit ordinalen Daten können wir feststellen, welches Element am häufigsten verwendet wird. Also haben wir das. Dann können wir auch alle anderen Maßnahmen ableiten, die @Maddenker in ihrer Antwort aufführt. Das Konfidenzintervall von @ gung könnte ebenfalls nützlich sein.
  • Median - wie @ peter-flom sagt, können Sie Ihren Median ableiten, solange Sie eine Bestellung haben.
  • Mittelwert , aber auch Standardabweichung, Perzentile usw. - Sie erhalten diese nur mit Intervalldaten, da eine Abstandsmetrik erforderlich ist.

Beispiel für Datenkontextualität

Abschließend möchte ich noch einmal betonen, dass die Reihenfolge und Metriken, die Sie für Ihre Daten definieren, sehr kontextabhängig sind. Dies sollte jetzt offensichtlich sein, aber lassen Sie mich ein letztes Beispiel geben: Wenn wir mit geografischen Standorten arbeiten, haben wir viele verschiedene Möglichkeiten, um sie anzugehen:

  • Wenn wir an der Entfernung zwischen ihnen interessiert sind, können wir mit ihrer Geolokalisierung arbeiten, die uns im Grunde genommen einen zweidimensionalen numerischen Raum, also ein Intervall, gibt.
  • Wenn wir an ihrem Teil der Beziehung interessiert sind , können wir eine Gesamtreihenfolge definieren (z. B. eine Straße ist Teil einer Stadt, zwei Städte sind gleich, ein Kontinent enthält ein Land).
  • Wenn wir daran interessiert sind, ob zwei Zeichenfolgen dieselbe Adresse repräsentieren, könnten wir mit einem gewissen Zeichenfolgenabstand arbeiten, der Rechtschreibfehler und das Vertauschen von Wortpositionen toleriert, aber sicherstellen, dass unterschiedliche Begriffe und Namen unterschieden werden. Dies ist keine einfache Sache, sondern nur, um den Fall zu klären.
  • Es gibt viele andere Anwendungsfälle, denen wir alle täglich begegnen, bei denen dies alles keinen Sinn ergibt. In einigen Fällen reicht es nicht aus, die Adressen als unterschiedliche Kategorien zu behandeln, in anderen kommt es auf eine sehr intelligente Datenmodellierung und -vorverarbeitung an.
Karte zu
quelle