Um dies zu verdeutlichen, beziehe ich mich auf die Bereiche Mittelwert, Medianquartil, Varianz und Standardabweichung.
Ist es bei der Zusammenfassung einer kategorialen oder qualitativen Univariate unter Berücksichtigung von Nominal- und Ordinalfällen sinnvoll, den Mittelwert, den Median, die Quartilbereiche, die Varianz und die Standardabweichung zu ermitteln?
Wenn ja, ist es anders, als wenn Sie eine stetige Variable zusammenfassen, und wie?
Antworten:
Im Allgemeinen lautet die Antwort nein. Man könnte jedoch argumentieren, dass Sie den Median ordinaler Daten nehmen können, aber Sie werden natürlich eine Kategorie als Median haben, keine Zahl. Der Median teilt die Daten gleichmäßig auf: halb oben, halb unten. Ordnungsangaben sind nur von der Bestellung abhängig.
Ferner kann in einigen Fällen die Ordinalität in grobe Intervallebenendaten umgewandelt werden. Dies trifft zu, wenn die Ordnungsdaten gruppiert werden (z. B. werden häufig Fragen zum Einkommen auf diese Weise gestellt). In diesem Fall können Sie einen genauen Median finden und möglicherweise die anderen Werte approximieren, insbesondere wenn die Unter- und Obergrenze angegeben sind: Sie können eine gewisse Verteilung (z. B. einheitlich) innerhalb jeder Kategorie annehmen. Ein weiterer Fall von Ordnungsdaten, die zum Intervall gemacht werden können, ist, wenn den Pegeln numerische Äquivalente gegeben werden. Zum Beispiel: Nie (0%), manchmal (10-30%), ungefähr die Hälfte der Zeit (50%) und so weiter.
Um (noch einmal) David Cox zu zitieren:
quelle
Wie bereits erwähnt, sind Mittelwerte, SDs und Gelenkpunkte für kategoriale Daten nicht aussagekräftig. Gelenkpunkte (z. B. Median und Quartile) können für ordinale Daten von Bedeutung sein. In Ihrem Titel werden Sie auch gefragt, welche zusammenfassenden Statistiken zur Beschreibung kategorialer Daten verwendet werden sollen. Es ist Standard, kategoriale Daten durch Zählungen und Prozentsätze zu charakterisieren. (Möglicherweise möchten Sie auch ein Konfidenzintervall von 95% um die Prozentsätze einschließen.) Beispiel:
Sie könnten sie so zusammenfassen:
quelle
Wenn Sie nominelle Variablen haben, gibt es keine Ordnungs- oder Abstandsfunktion. Wie können Sie also eine der von Ihnen erwähnten zusammenfassenden Statistiken definieren? Ich glaube nicht, dass du kannst. Für Quartile und Bereiche ist mindestens eine Bestellung erforderlich, und für Mittelwerte und Abweichungen sind numerische Daten erforderlich. Ich denke, Balkendiagramme und Tortendiagramme sind typische Beispiele für die richtige Art und Weise, qualitative Variablen zusammenzufassen, die nicht ordinal sind.
quelle
Modus funktioniert immer noch! Ist das nicht eine wichtige zusammenfassende Statistik? (Was ist die häufigste Kategorie?) Ich denke, der Medianvorschlag hat als Statistik nur einen geringen bis keinen Wert, aber der Modus.
Auch count distinct wäre wertvoll. (Wie viele Kategorien hast du?)
Sie können Verhältnisse wie (häufigste Kategorie) / (am wenigsten häufigste Kategorie) oder (häufigste Kategorie Nr. 1) / (häufigste Kategorie Nr. 2) erstellen. Auch (häufigste Kategorie) / (alle anderen Kategorien), wie die 80/20-Regel.
Sie können Ihren Kategorien auch Zahlen zuweisen und die üblichen Statistiken verwenden. AA = 1, Hisp = 2 usw. Jetzt können Sie Mittelwert, Median, Modus, SD usw. berechnen.
quelle
Ich schätze die anderen Antworten, aber es scheint mir, dass ein topologischer Hintergrund den Antworten eine dringend benötigte Struktur verleihen würde.
Definitionen
Beginnen wir mit der Definition der Domänen:
Eine kategoriale Variable ist eine Variable, deren Domäne Elemente enthält, zwischen denen jedoch keine Beziehung bekannt ist (daher gibt es nur Kategorien). Beispiele hängen vom Kontext ab, aber ich würde im Allgemeinen sagen, es ist schwierig, die Wochentage zu vergleichen: ist Montag vor Sonntag, wenn ja, was ist mit dem nächsten Montag? Ein vielleicht einfacheres, aber weniger gebräuchliches Beispiel sind Kleidungsstücke: Ohne einen Kontext anzugeben, der für eine Bestellung sinnvoll wäre, ist es schwierig zu sagen, ob Hosen vor Pullovern kommen oder umgekehrt.
Ordnungsvariable ist eine Variable, deren Gesamtreihenfolge über die Domäne definiert ist, dh für jeweils zwei Elemente der Domäne können wir feststellen, dass sie entweder identisch sind oder eines größer als das andere ist. Eine Likert-Skala ist ein gutes Beispiel für die Definition einer Ordinalvariablen. "etwas zustimmen" ist definitiv näher an "stark zustimmen" als an "nicht zustimmen".
Die Intervallvariable ist eine Variable, deren Domäne die Abstände zwischen Elementen definiert (eine Metrik ), sodass wir Intervalle definieren können.
Domain-Beispiele
Als die am häufigsten verwendete Menge haben natürliche und reelle Zahlen die Standardgesamtreihenfolge und -metriken. Aus diesem Grund müssen wir vorsichtig sein, wenn wir unseren Kategorien Nummern zuweisen. Wenn wir nicht darauf achten, Reihenfolge und Entfernung zu ignorieren, konvertieren wir unsere kategorialen Daten praktisch in Intervalldaten. Wenn man einen Algorithmus für maschinelles Lernen verwendet, ohne zu wissen, wie er funktioniert, besteht die Gefahr, dass solche Annahmen unfreiwillig getroffen werden, wodurch möglicherweise die eigenen Ergebnisse ungültig werden. Zum Beispiel arbeiten die gängigsten Deep-Learning-Algorithmen mit reellen Zahlen und nutzen deren Intervall- und stetige Eigenschaften. Ein weiteres Beispiel, denken Sie an 5-Punkt - Likert Skalen und wie die Analyse , die wir auf sie anwenden geht davon aus, dass der Abstand zwischen stark zustimmen und vereinbarenist das gleiche wie nicht zustimmen und weder zustimmen noch nicht zustimmen . Es ist schwer, sich für eine solche Beziehung einzusetzen.
Ein weiteres Set, mit dem wir oft arbeiten, sind Streicher . Es gibt eine Reihe von Metriken zur Ähnlichkeit von Zeichenfolgen , die sich beim Arbeiten mit Zeichenfolgen als nützlich erweisen. Diese sind jedoch nicht immer nützlich. Bei Adressen sind beispielsweise die John Smith Street und die John Smith Road in Bezug auf die String-Ähnlichkeit ziemlich ähnlich, stellen jedoch offensichtlich zwei verschiedene Entitäten dar, die kilometerweit voneinander entfernt sein könnten.
Zusammengefasste Statistiken
Ok, jetzt wollen wir sehen, wie einige zusammenfassende Statistiken dazu passen. Da die Statistik mit Zahlen arbeitet, sind ihre Funktionen über Intervalle gut definiert. Aber sehen wir uns Beispiele an, ob / wie wir sie auf kategoriale oder ordinale Daten verallgemeinern könnten:
Beispiel für Datenkontextualität
Abschließend möchte ich noch einmal betonen, dass die Reihenfolge und Metriken, die Sie für Ihre Daten definieren, sehr kontextabhängig sind. Dies sollte jetzt offensichtlich sein, aber lassen Sie mich ein letztes Beispiel geben: Wenn wir mit geografischen Standorten arbeiten, haben wir viele verschiedene Möglichkeiten, um sie anzugehen:
quelle