Ich bin einmal auf eine Art Plot für kategoriale Daten (dh Kontingenztabellen) im Internet gestoßen, die mir sehr gut gefallen hat, die ich aber nie wieder gefunden habe, und ich weiß nicht einmal, wie sie heißen. Es war im Wesentlichen wie ein Siebdiagramm, in dem die Zeilenhöhen und Spaltenbreiten relativ zu den Grenzwahrscheinlichkeiten skaliert wurden. Somit wurde jedes Kästchen auf die relative Häufigkeit skaliert, die unter Unabhängigkeit erwartet wurde. Es unterschied sich jedoch von einem Siebdiagramm darin, dass anstelle einer Kreuzschraffur in jedem Kästchen ein Punkt (wie in einem Streudiagramm) an einer Stelle aufgezeichnet wurde, die zufällig aus einer bivariaten Uniform für jede Beobachtung ausgewählt wurde. Auf diese Weise spiegelt die Dichte der Punkte wider, wie gut die beobachteten Zählungen mit den erwarteten Zählungen übereinstimmen. Das heißt, wenn die Dichte in jeder Box ähnlich wäre, ist das Nullmodell vernünftig. ) ist unter dem Nullmodell möglicherweise nicht sehr wahrscheinlich. Da Punkte anstelle von Schraffuren gezeichnet werden, besteht eine einfache und intuitive Entsprechung zwischen dem gezeichneten Element und der beobachteten Anzahl, was bei Siebzeichnungen nicht unbedingt der Fall ist (siehe unten). Darüber hinaus verleiht die zufällige Platzierung der Punkte der Handlung ein "organisches" Gefühl. Darüber hinaus könnte Farbe verwendet werden, um Felder / Zellen hervorzuheben, die stark vom Nullmodell abweichen, und eine Diagrammmatrix könnte verwendet werden, um paarweise Beziehungen zwischen vielen verschiedenen Variablen zu untersuchen, sodass die Vorteile ähnlicher Diagramme berücksichtigt werden können.
- Weiß jemand, wie diese Handlung heißt?
- Gibt es ein Paket / eine Funktion, die dies problemlos in R oder einer anderen Software (z. B. Mondrian) erledigt? Ich kann so etwas nicht in VCD finden . Natürlich könnte es von Grund auf hart codiert werden, aber das wäre ein Schmerz.
Hier ist ein einfaches Beispiel für eine Siebkurve. Beachten Sie, dass es leicht zu erkennen ist, wie sich die erwarteten Zählwerte für die verschiedenen Kategorien unter dem Nullmodell auswirken sollten. Es ist jedoch schwierig, die Schraffur mit den tatsächlichen Zahlen in Einklang zu bringen, was zu einer nicht zutreffenden Kurve führt ganz so einfach und ästhetisch scheußlich zu lesen:
B ~B
A 38 4
~A 3 19
Für das, was es wert ist, hat ein Mosaik-Plot das umgekehrte Problem: Obwohl es einfacher ist zu erkennen, welche Zellen zu viele oder zu wenige Zählungen haben (im Vergleich zum Nullmodell), ist es schwieriger, die Beziehungen zwischen den Zellen zu erkennen erwartete Anzahl wäre gewesen. Insbesondere werden die Spaltenbreiten relativ zur Grenzwahrscheinlichkeit skaliert, die Zeilenhöhen jedoch nicht. Dadurch ist es nahezu unmöglich, diese Informationen zu extrahieren.
und jetzt etwas ganz anderes...
- Weiß jemand, woher die Konvention kommt, Blau für "zu viele" und Rot für "zu wenige" zu verwenden? Das war für mich immer uninteressant. Es scheint mir, dass außergewöhnlich hohe Dichte (oder zu viele Beobachtungen) mit heiß und niedrige Dichte mit kalt einhergeht und dass (zumindest bei Bühnenbeleuchtung) Rotweine wärmen und Blauweine kühlen .
Update: Wenn ich mich richtig erinnere, war die Handlung, die ich sah, in einem PDF eines Kapitels (Einleitung oder Kapitel 1) aus einem Buch, das online als Marketing-Teaser frei verfügbar gemacht wurde. Hier ist eine grobe Version der Idee, die ich von Grund auf neu codiert habe:
Selbst mit dieser groben Version ist sie meiner Meinung nach einfacher zu lesen als die Siebdarstellung und in gewisser Weise einfacher als die Mosaikdarstellung (z. B. ist es einfacher, die Zusammenhänge zu erkennen zwischen den Zellfrequenzen würde unter Unabhängigkeit sein). Es wäre schön, eine Funktion zu haben, die: a. würde dies automatisch mit jeder Kontingenztabelle tun, b. könnte als Baustein einer Plotmatrix verwendet werden, und c. Hätte die netten Features, die mit den obigen Plots kommen (wie die standardisierte Residuenlegende auf dem Mosaikplot).
quelle
R
Funktion demassocplot
nahe, was Sie meinen? Wenn nicht,R
könnte ein Programmierer entweder das ändern odermosaicplot
tun, was Sie wollen.shading.points()
Siebschattierungsfunktion nicht gefällt, können Sie innerhalb des oben genannten Strucplot-Frameworks, das als Vignette in dervcd
Packung verfügbar ist, ganz einfach Ihre eigene schreiben, z. B. um das zu tun, was Sie wollen .Antworten:
Das Buch, das Sie beschrieben haben, klingt wie "Visualisierung kategorialer Daten", Michael Friendly. Das im ersten Kapitel beschriebene Diagramm, das Ihrer Anfrage zu entsprechen scheint, wurde als eine Art konzeptionelles Modell zur Visualisierung von Kontingenztabellendaten beschrieben (vom Autor lose als dynamisches Druckmodell mit Beobachtungsdichte beschrieben) und kann in der Google-Vorschau angezeigt werden für Kapitel 1. Das Buch richtet sich an SAS-Benutzer.
Ein Artikel zum Thema wird hier referenziert: Artikel www.datavis.ca/papers/koln/kolnpapr.pdf
"Konzeptionelle Modelle zur Visualisierung von Kontingenztabellendaten", Michael Friendly.
* Übrigens, der Autor wird auch als einer der Autoren des vcd-Pakets aufgeführt (da es speziell von seinem oben erwähnten Buch inspiriert wurde). Vielleicht können Sie ihn direkt fragen, ob es eine einfache Änderung an einer der eingebauten Funktionen gibt, die es gibt nicht ohne weiteres ersichtlich.
** Das Farbschema scheint die Farbe Blau mit positiven Abweichungen von der Unabhängigkeit und Rot für negative Abweichungen in Beziehung zu setzen. Obwohl das rote Schema in diesem Zusammenhang Sinn macht, wäre es vielleicht geeigneter gewesen, grün zu verwenden, um positive Abweichungen darzustellen.
http://www.datavis.ca/papers/asa92.html
quelle
Vielleicht nicht das, was Sie gesehen haben, aber für die Visualisierung der erwarteten Abfahrten im Rahmen der Unabhängigkeit sind Korrespondenzpläne gut motiviert.
http://www.jstatsoft.org/v20/i03/
(Nebenbei bemerkt, in SAS und M Friendlys Buch wurde die empfohlene Anpassung falsch angegeben, und viele der Darstellungen wiesen Artefakte auf, die möglicherweise von ihrem wahrgenommenen Wert abgelenkt wurden.)
quelle