Welches ist vom statistischen Standpunkt aus das beste Diagramm, um eine Kontingenztabelle anzuzeigen , die typischerweise durch einen Chi-Quadrat-Test analysiert wird? Handelt es sich um einen ausgeblendeten Barplot, einen gestapelten Barplot, eine Heatmap, einen Konturplot, einen Jitterred Scatterplot, einen Plot mit mehreren Linien oder etwas anderes? Sollte man absolute Werte oder Prozentsätze anzeigen?
Edit: Oder wie @forecaster in den Kommentaren vorschlägt, ist die Zahlentabelle selbst eine einfache Handlung und sollte ausreichen.
Antworten:
Hier wird es keine einheitliche Lösung geben. Wenn Sie eine sehr einfache Tabelle haben (z. B. ), ist es wahrscheinlich am besten, die Tabelle einfach zu präsentieren. Wenn Sie eine tatsächliche Zahl wünschen, sind Mosaik-Diagramme (wie @xan vorschlägt) wahrscheinlich ein guter Ausgangspunkt. Es gibt einige andere Optionen, die zu Mosaikplots analog sind, einschließlich Siebplots, Zuordnungsplots und Dynamikdruckplots (siehe meine Frage hier: Alternative zu Sieb- / Mosaikplots für Kontingenztabellen ); Das Buch Visualizing Categorical Data von Michael Friendly ist eine gute (SAS-basierte) Ressource für dieses Thema, und das vcd-Paket ist eine gute Ressource für die Implementierung dieser Ideen in R.2 × 2
Da Tabellen jedoch eine größere Anzahl von Zeilen und Spalten enthalten, wird die Verwendung meiner Meinung nach schwieriger. Eine andere Art der Visualisierung besteht darin, eine Korrespondenzanalyse durchzuführen / zu zeichnen . Eine Korrespondenzanalyse ist analog zu einer Hauptkomponentenanalyse sowohl für die Zeilen als auch für die Spalten der Kontingenztabelle. Dann werden beide zusammen mit einem Biplot geplottet. Hier ist ein R-basiertes Beispiel, das die Daten aus @ xans Antwort verwendet:
Je näher sich zwei Punkte desselben Typs befinden, desto ähnlicher sind sich die beiden Zeilen- / Spaltenprofile. Und je näher zwei Punkte unterschiedlichen Typs sind, desto größer ist ihre Wahrscheinlichkeitsmasse in der Zelle, die ihren Schnittpunkt darstellt.
In R steht das Paket ca ; auch diese vignette ( pdf ) kann hilfreich sein.
quelle
factor(vs)
) nur zwei Ebenen hat; du brauchst mindestens drei. Versuchen Sie esttt = with(mtcars, table(factor(gear), factor(cyl))); plot(ca(ttt))
.ca
Objekt herausholen soll, also habe ich es von Grund auf neu codiert. Wenn ich keinen Fehler gemacht habe, ordnen Sie die Zeilenc(1,3,2)
und Spalten neu anc(4,1,3,2)
. Danach bin ich mir nicht sicher, was ich hier sehen soll. Woran denkst du?Unterschiedliche Darstellungen heben verschiedene Features besser hervor, aber Mosaik-Diagramme eignen sich gut für eine allgemeine Ansicht (überprüfen Sie, ob etwas auffällt). Vielleicht meintest du das mit ausweichender Handlung in der Bar. Wie die meisten Optionen sind sie nicht symmetrisch, da sie relative Frequenzen in einer Dimension besser darstellen als in der anderen. Ein schönes Feature ist, dass auch die Grenzfrequenzen dargestellt werden.
quelle
Ich bin damit einverstanden, dass die "beste" Handlung nicht unabhängig von Datensatz, Leserschaft und Zweck existiert. Bei zwei gemessenen Variablen sind Streudiagramme wahrscheinlich das Design, bei dem alle anderen außer für bestimmte Zwecke im Nachhinein verbleiben. Für kategoriale Daten ist jedoch kein solcher Marktführer erkennbar.
Ich möchte hier nur eine einfache Methode erwähnen, die oft wiederentdeckt oder neu erfunden, aber auch oft übersehen wird, selbst in Monographien oder Lehrbüchern über statistische Grafiken.
Beispiel zuerst, mit denselben Daten wie von xan:
Wenn ein Name gewünscht wird, ist dies, wie so oft, ein Zwei-Wege-Balkendiagramm (in diesem Fall). Ich werde hier keine anderen Begriffe katalogisieren, außer dass mehrere Balkendiagramme eine häufige Alternative mit ähnlichem Geschmack sind. (Mein kleiner Einwand gegen "mehrere Balkendiagramme" ist, dass "mehrere" die sehr häufig gestapelten oder nebeneinander angeordneten Balkendiagramme nicht ausschließt, wohingegen "zwei" für mich klarer ein Zeilen- und Spaltenlayout impliziert, obwohl dies wiederum der Fall ist kann Beispiele nehmen, um das zu verdeutlichen.)
Vor- und Nachteile für diese Art von Handlung sind ebenfalls einfach, aber ich werde einige darlegen. Da ich diesen Entwurf (der mindestens bis in die 1930er Jahre zurückreicht) sehr mag, möchten andere vielleicht schärfere Kritik üben.
+1. Die Idee ist auch für nicht-technische Gruppen leicht zu verstehen . Balkenhöhen oder Balkenlängen codieren in diesem Beispiel Frequenzen. In anderen Beispielen können sie nach Belieben berechnete Prozente, Residuen usw. codieren.
+2. Die Zeilen- und Spaltenstruktur entspricht der einer Tabelle . Sie können auch numerische Werte hinzufügen. Sehr kleine Mengen und sogar implizite Nullen sind deutlich zu erkennen, was bei anderen Designs (z. B. gestapelten Balkendiagrammen, Mosaikplots) nicht immer der Fall ist. Die Beschriftung von Zeilen und Spalten ist in der Regel effizienter als das Hinzufügen eines Schlüssels oder einer Legende mit dem dazu erforderlichen mentalen "Hin und Her". Auf diese Weise kombiniert dieses Design Grafik- und Tabellenideen, was einige Leser anscheinend beunruhigt. Umgekehrt würde ich behaupten, dass starke Unterschiede zwischen Abbildungen und Tabellen nur historische Kater sind, die jetzt überholt sind, da Forscher ihre eigenen Dokumente erstellen können und nicht mehr auf Designer, Komponisten und Drucker angewiesen sind.
+3. Erweiterungen auf Dreiwege-Bauformen und höhere Bauformen sind prinzipiell einfach . Platzieren Sie zwei oder mehr Variablen als zusammengesetzte Variablen auf einer oder beiden Achsen oder geben Sie ein Array solcher Diagramme an. Natürlich ist die Interpretation umso komplizierter, je komplizierter das Design ist.
+4. Das Design erlaubt eindeutig ordinale Variablen auf jeder Achse. Die Reihenfolge kann (z. B.) durch geeignete Schattierung sowie durch die Reihenfolge der Kategorien auf dieser Achse ausgedrückt werden. Die Kategoriereihenfolge der Achsen kann durch ihre Bedeutung oder besser durch die Häufigkeit bestimmt werden. Die alphabetische Reihenfolge nach Textbezeichnungen ist möglicherweise eine Vorgabe, sollte jedoch niemals die einzige in Betracht gezogene Wahl sein.
-1. Durch die allgemeine Gestaltung kann das Diagramm bestimmte Arten von Beziehungen weniger effizient darstellen . Insbesondere ein Mosaikplot kann Abweichungen von der Unabhängigkeit sehr deutlich machen. Wenn umgekehrt die Beziehungen zwischen kategorialen Variablen kompliziert oder unklar sind, kann in der Regel kein Diagramm mehr als diese schwache Tatsache anzeigen.
-2. In gewisser Weise ist das Design ineffizient bei der Raumnutzung , da für jede Kreuzkombination Platz bleibt, unabhängig davon, ob oder wie häufig sie auftritt. Dies ist das Laster des gleichen Prinzips, das als Tugend angesehen wird. Das besondere Design über Räumen kategorisiert gleichermaßen unabhängig von ihrer Häufigkeit; das opfern opfert oft lesbare randbeschriftungen, die ich sehr schätze. In diesem Beispiel sind die Beschriftungen sehr kurz, aber das ist alles andere als typisch.
Hinweis: Die Daten von xan scheinen nur erfunden zu sein, daher werde ich nicht mehr eine Interpretation versuchen, als in anderen Antworten versucht wird. Aber einige hausgemachte Weisheiten verdienen hier das letzte Wort: Das beste Design für Sie ist eines, das Ihnen und Ihren Lesern die Struktur einiger realer Daten, die Sie interessieren, am besten vermittelt.
Andere Beispiele schließen ein
Wie können Sie die Beziehung zwischen 3 kategorialen Variablen visualisieren?
Diagramm für die Beziehung zwischen zwei Ordnungsvariablen
quelle
tabplot
von SSC. Die Höhe der Balken entspricht notwendigerweise einem Bruchteil der Höhe des höchsten oder längsten Balkens. Der dafür verfügbare Platz wird durch die Anzahl der angezeigten Zeilen bestimmt. Der Benutzer kann die Standardlückengröße überschreiben, riskiert dann jedoch, dass sich die Balken berühren oder verschließen. Wenn Balken sowohl negativ als auch positiv sein können, sind die Dinge nicht einfacher. Ich stelle mir vor, dass die gleiche Einschränkung bei jedem anderen Programm auftritt. Kurz gesagt, Balken, die sich nicht berühren, implizieren Leerraum!Als Ergänzung zu den Antworten von @ gung und @ xan finden Sie hier ein Beispiel für Mosaik- und Assoziationsdiagramme
vcd
in R.So erhalten Sie die Grundstücke:
Beide stellen intuitiv Abweichungen von den erwarteten Frequenzen dar ... Die Standardeinstellung ist das Modell der gegenseitigen Unabhängigkeit , kann jedoch über das Argument geändert werden (z. B. in gemeinsame Unabhängigkeit, wenn eine eindeutige Antwortvariable vorhanden ist)
expected
.Siehe auch:
quelle