Alternative zu Sieb- / Mosaikplots für Notfalltabellen

17

Ich bin einmal auf eine Art Plot für kategoriale Daten (dh Kontingenztabellen) im Internet gestoßen, die mir sehr gut gefallen hat, die ich aber nie wieder gefunden habe, und ich weiß nicht einmal, wie sie heißen. Es war im Wesentlichen wie ein Siebdiagramm, in dem die Zeilenhöhen und Spaltenbreiten relativ zu den Grenzwahrscheinlichkeiten skaliert wurden. Somit wurde jedes Kästchen auf die relative Häufigkeit skaliert, die unter Unabhängigkeit erwartet wurde. Es unterschied sich jedoch von einem Siebdiagramm darin, dass anstelle einer Kreuzschraffur in jedem Kästchen ein Punkt (wie in einem Streudiagramm) an einer Stelle aufgezeichnet wurde, die zufällig aus einer bivariaten Uniform für jede Beobachtung ausgewählt wurde. Auf diese Weise spiegelt die Dichte der Punkte wider, wie gut die beobachteten Zählungen mit den erwarteten Zählungen übereinstimmen. Das heißt, wenn die Dichte in jeder Box ähnlich wäre, ist das Nullmodell vernünftig. ) ist unter dem Nullmodell möglicherweise nicht sehr wahrscheinlich. Da Punkte anstelle von Schraffuren gezeichnet werden, besteht eine einfache und intuitive Entsprechung zwischen dem gezeichneten Element und der beobachteten Anzahl, was bei Siebzeichnungen nicht unbedingt der Fall ist (siehe unten). Darüber hinaus verleiht die zufällige Platzierung der Punkte der Handlung ein "organisches" Gefühl. Darüber hinaus könnte Farbe verwendet werden, um Felder / Zellen hervorzuheben, die stark vom Nullmodell abweichen, und eine Diagrammmatrix könnte verwendet werden, um paarweise Beziehungen zwischen vielen verschiedenen Variablen zu untersuchen, sodass die Vorteile ähnlicher Diagramme berücksichtigt werden können. ich,j

  • Weiß jemand, wie diese Handlung heißt?
  • Gibt es ein Paket / eine Funktion, die dies problemlos in R oder einer anderen Software (z. B. Mondrian) erledigt? Ich kann so etwas nicht in VCD finden . Natürlich könnte es von Grund auf hart codiert werden, aber das wäre ein Schmerz.

Hier ist ein einfaches Beispiel für eine Siebkurve. Beachten Sie, dass es leicht zu erkennen ist, wie sich die erwarteten Zählwerte für die verschiedenen Kategorien unter dem Nullmodell auswirken sollten. Es ist jedoch schwierig, die Schraffur mit den tatsächlichen Zahlen in Einklang zu bringen, was zu einer nicht zutreffenden Kurve führt ganz so einfach und ästhetisch scheußlich zu lesen:

    B ~B
 A 38  4
~A  3 19

Bildbeschreibung hier eingeben
Für das, was es wert ist, hat ein Mosaik-Plot das umgekehrte Problem: Obwohl es einfacher ist zu erkennen, welche Zellen zu viele oder zu wenige Zählungen haben (im Vergleich zum Nullmodell), ist es schwieriger, die Beziehungen zwischen den Zellen zu erkennen erwartete Anzahl wäre gewesen. Insbesondere werden die Spaltenbreiten relativ zur Grenzwahrscheinlichkeit skaliert, die Zeilenhöhen jedoch nicht. Dadurch ist es nahezu unmöglich, diese Informationen zu extrahieren.
Bildbeschreibung hier eingeben
und jetzt etwas ganz anderes...

  • Weiß jemand, woher die Konvention kommt, Blau für "zu viele" und Rot für "zu wenige" zu verwenden? Das war für mich immer uninteressant. Es scheint mir, dass außergewöhnlich hohe Dichte (oder zu viele Beobachtungen) mit heiß und niedrige Dichte mit kalt einhergeht und dass (zumindest bei Bühnenbeleuchtung) Rotweine wärmen und Blauweine kühlen .

Update: Wenn ich mich richtig erinnere, war die Handlung, die ich sah, in einem PDF eines Kapitels (Einleitung oder Kapitel 1) aus einem Buch, das online als Marketing-Teaser frei verfügbar gemacht wurde. Hier ist eine grobe Version der Idee, die ich von Grund auf neu codiert habe:
Bildbeschreibung hier eingeben
Selbst mit dieser groben Version ist sie meiner Meinung nach einfacher zu lesen als die Siebdarstellung und in gewisser Weise einfacher als die Mosaikdarstellung (z. B. ist es einfacher, die Zusammenhänge zu erkennen zwischen den Zellfrequenzen würde unter Unabhängigkeit sein). Es wäre schön, eine Funktion zu haben, die: a. würde dies automatisch mit jeder Kontingenztabelle tun, b. könnte als Baustein einer Plotmatrix verwendet werden, und c. Hätte die netten Features, die mit den obigen Plots kommen (wie die standardisierte Residuenlegende auf dem Mosaikplot).

gung - Wiedereinsetzung von Monica
quelle
Sie möchten also im Wesentlichen eine Mosaikdarstellung mit einer anderen Art von Füllung? Kommt die RFunktion dem assocplotnahe, was Sie meinen? Wenn nicht, Rkönnte ein Programmierer entweder das ändern oder mosaicplottun, was Sie wollen.
Peter Flom - Wiedereinsetzung von Monica
1
Verwandte interessante Referenzen, Residual-basierte Schattierungen zur Visualisierung der (bedingten) Unabhängigkeit ( Zeileis et al. 2007 ), PDF hier und ein weiterer Thread zur Visualisierung von Kontingenztabellen mit einigen Referenzen hier. Ich glaube, der Zeileis-Artikel hat eine nette Diskussion über Farben, die Ihre letzte Frage beantworten kann (es kann gut sein, die Referenzen zu lesen, um zu sehen, ob sie auch die Tabelle zitieren, über die Sie sprechen).
Andy W
Es ist das Gegenteil, @PeterFlom, ich möchte im Wesentlichen ein Sieb mit einer anderen Art von Füllung. Alternativ könnte man sagen, dass ich ein Mosaikdiagramm möchte, in dem die angezeigten Kästchen relativ zu den erwarteten Frequenzen in Abhängigkeit von der Unabhängigkeit skaliert sind (und möglicherweise auch eine andere Art der Füllung).
gung - Wiedereinsetzung von Monica
"Weiß jemand, woher die Konvention kommt, Blau für 'zu viele' und Rot für 'zu wenige' zu verwenden? Das war für mich immer uninteressant." Guter Punkt. Es ist in der Tat kontraintuitiv. Das Lichtspektrum reicht ungefähr von links blau (bei kleineren Wellenlängen) bis rechts rot (bei größeren Wellenlängen). Mosaik-Displays scheinen dies auf den Kopf zu stellen ...
Landroni
Die Idee des Siebdiagramms ist, dass die Anzahl der Kästchen in jeder Zelle proportional zur beobachteten Häufigkeit ist, sodass die relative Dichte größer oder kleiner als die erwartete Häufigkeit ist. Wenn Sie die Farben nicht mögen, können Sie sie von den Standardeinstellungen leicht ändern. Wenn Ihnen die standardmäßige shading.points()Siebschattierungsfunktion nicht gefällt, können Sie innerhalb des oben genannten Strucplot-Frameworks, das als Vignette in der vcdPackung verfügbar ist, ganz einfach Ihre eigene schreiben, z. B. um das zu tun, was Sie wollen .
user101089

Antworten:

15

Das Buch, das Sie beschrieben haben, klingt wie "Visualisierung kategorialer Daten", Michael Friendly. Das im ersten Kapitel beschriebene Diagramm, das Ihrer Anfrage zu entsprechen scheint, wurde als eine Art konzeptionelles Modell zur Visualisierung von Kontingenztabellendaten beschrieben (vom Autor lose als dynamisches Druckmodell mit Beobachtungsdichte beschrieben) und kann in der Google-Vorschau angezeigt werden für Kapitel 1. Das Buch richtet sich an SAS-Benutzer.

Ein Artikel zum Thema wird hier referenziert: Artikel www.datavis.ca/papers/koln/kolnpapr.pdf

"Konzeptionelle Modelle zur Visualisierung von Kontingenztabellendaten", Michael Friendly.

http://i47.tinypic.com/148n5n7.jpg

Bildbeschreibung hier eingeben

* Übrigens, der Autor wird auch als einer der Autoren des vcd-Pakets aufgeführt (da es speziell von seinem oben erwähnten Buch inspiriert wurde). Vielleicht können Sie ihn direkt fragen, ob es eine einfache Änderung an einer der eingebauten Funktionen gibt, die es gibt nicht ohne weiteres ersichtlich.

** Das Farbschema scheint die Farbe Blau mit positiven Abweichungen von der Unabhängigkeit und Rot für negative Abweichungen in Beziehung zu setzen. Obwohl das rote Schema in diesem Zusammenhang Sinn macht, wäre es vielleicht geeigneter gewesen, grün zu verwenden, um positive Abweichungen darzustellen.

http://www.datavis.ca/papers/asa92.html

klopfen
quelle
2
Gute Arbeit, das Rätsel ist gelöst! Ich muss das Buch tatsächlich kaufen, anstatt es in verschiedenen Details zu betrachten und mir von meiner Bibliothek ab und zu Kapitel zusenden zu lassen. IMO erinnert mich diese Form der Visualisierung sehr an das, was Kartografen "Punktkarten" nennen, und man könnte Literatur von dort heranziehen, um zu rechtfertigen, wie Punkte ein besseres Visualisierungswerkzeug sind als Linien und Schraffuren. Es ist auch eine gute Literatur in Bezug auf bevorzugte Platzierungen der Punkte.
Andy W
Das gibt mir einen guten Start. Danke für Ihre Hilfe.
gung - Wiedereinstellung von Monica
1

Vielleicht nicht das, was Sie gesehen haben, aber für die Visualisierung der erwarteten Abfahrten im Rahmen der Unabhängigkeit sind Korrespondenzpläne gut motiviert.

http://www.jstatsoft.org/v20/i03/

(Nebenbei bemerkt, in SAS und M Friendlys Buch wurde die empfohlene Anpassung falsch angegeben, und viele der Darstellungen wiesen Artefakte auf, die möglicherweise von ihrem wahrgenommenen Wert abgelenkt wurden.)

Phaneron
quelle
Vielen Dank für Ihre Hilfe, ich mag Korrespondenzpläne. Können Sie mehr über diese empfohlene Einstellung sagen, die falsch war? Welche Anpassung war es? Wie war es ungenau? Und was war los mit den Grundstücken?
gung - Wiedereinsetzung von Monica