Wie skaliere ich Geigenpläne für Vergleiche?

Ich versuche, Geigenpläne zu zeichnen, und frage mich, ob es eine bewährte Methode gibt, um sie gruppenübergreifend zu skalieren. Hier sind drei Optionen, die ich mit dem R- mtcarsDatensatz ausprobiert habe (Motor Trend Cars von 1973, hier zu finden ).

Gleiche Breiten

Scheint zu sein, was das Originalpapier * macht und was R vioplotmacht ( Beispiel ). Gut zum Formvergleich.

Geigengrundstücke mit gleicher Fläche

Gleiche Gebiete

Fühlt sich richtig an, da jedes Diagramm ein Wahrscheinlichkeitsdiagramm ist, und daher sollte die Fläche jedes Diagramms in einem Koordinatenraum gleich 1,0 sein. Gut für den Vergleich der Dichte innerhalb jeder Gruppe, erscheint jedoch angemessener, wenn die Diagramme überlagert sind.

Violine mit gleicher Breite

Gewichtete Bereiche

Wie gleiche Fläche, jedoch gewichtet nach Anzahl der Beobachtungen. 6-Zyl wird relativ dünner, da es weniger dieser Autos gibt. Gut für den Vergleich der Dichte zwischen Gruppen.

Gewichteter Bereich Violine Plots

* Violin-Plots: Ein Box-Plot-Density-Trace-Synergis (DOI: 10.2307 / 2685478)

distributions data-visualization nonparametric xan
quelle

Der Zweck der Diagramme bestimmt in hohem Maße, welche Lösungen angemessen sind. Was versuchst du dann, mit ihnen zu zeigen?

Whuber

@whuber Gute Frage, obwohl ich keine direkte Antwort habe. Ich versuche, eine Grafik für EDA bereitzustellen, und suche nach einer guten allgemeinen Standardeinstellung (und ob die anderen Optionen nützlich genug sind, um angezeigt zu werden).

xan

Ich möchte vorschlagen, dass Sie die Diagramme so steuern , dass sie Ihren Zwecken entsprechen, anstatt eine Standardeinstellung zu akzeptieren.

Whuber

Ich würde vorschlagen, dass Ihre "gewichtete Flächen" -Version "Gut zum Vergleichen von Untergruppen einer Population" war, da es möglicherweise sinnvoll ist, die Breiten zu addieren, um die Form der gesamten Population zu erhalten.

Henry

Ich bevorzuge gleiche Bereiche, um die visuelle Wirkung der Verteilungsform zu bewahren. Ergänzen Sie das Diagramm dann mit Thermometern, die die Stichprobengröße anzeigen, oder verwenden Sie nur Textdarstellungen der Stichprobengröße neben Violinen.

Frank Harrell

Antworten:

Box-Plots werden für schematische Zusammenfassungen einer Verteilung verwendet. Bei den Geigenplots handelt es sich nur um Box-Plots, bei denen die Boxen Q1, Q2 und Q3 durch eine Vielzahl von Quantilen ersetzt werden. Aus diesem Grund denke ich, dass die akzeptierte Praxis darin besteht, eine einheitliche Breite über Gruppen hinweg zu verwenden.

Sie sprechen jedoch einen guten Punkt an: Wie sollten die Dichten zwischen den Gruppen verglichen werden? Die Antwort hängt davon ab, ob Sie jede Gruppe als eigene Population oder als Teilpopulation betrachten.

$\Sigma_i P_i = 1$

Rick
quelle

Ursprünglich wurden Violin-Diagramme eingeführt und als Hybrid-Box-Diagramm und Dichtespur definiert. Ein kurzes Google zeigt, dass in der Praxis viele als Geigenhandlungen veröffentlichte Handlungen das Kästchen weglassen und viele keine Quantile als solche zeigen. Die Definitionen sind hier also weit offen.

Nick Cox

Ehrlich gesagt denke ich, dass Sie es aus der falschen Richtung nähern. Alle drei Diagramme enthalten eindeutige Informationen mit Wert. Andernfalls würden Sie nicht überlegen, welches Diagramm verwendet werden soll. Bei der explorativen Datenanalyse geht es darum, Ihre Daten zu verstehen. Wo es den Erwartungen entspricht. Wo es nicht geht. Wie ist es über mehrere Variablen geformt.

Der springende Punkt der Durchführung von EDA ist die Bewertung, ob unsere Standardeinstellungen, seien es Verteilungs- oder Kolinearitätsannahmen, das verwendete statistische Modell usw., gut begründet sind. Daher ist das Konzept eines "Standard" -EDA etwas mangelhaft.

Schauen Sie sich alle an - oder zumindest alle Handlungen, die sich auf die Frage beziehen, die Sie stellen möchten. Es gibt keinen Grund, sich in der EDA-Phase auf "Was ist interessant" und "Was werde ich ignorieren" zu beschränken. Und wenn wir die Daten nur über die Standardeinstellungen einspeisen, ist dies in erster Linie nicht wirklich EDA.

Fomite
quelle

+1 für aufschlussreiche Bemerkungen zu EDA, obwohl mir immer noch nicht klar ist, ob das OP nach EDA ist oder nicht ...

chl

@chl Einige der Kommentare des OP deuten darauf hin, dass er danach strebt. Wenn es nur "welches von diesen ist nützlicher" ist, wird die Antwort, die ich fürchte, noch mehrdeutiger. "Nun, was willst du zeigen?"

Fomite

Ah, ich habe diesen Kommentar verpasst ... Ihre Antwort ist also wieder +1 wert, aber ich kann nicht :(

chl

Und was ist mit der Bandbreite? Hast du darüber nachgedacht?

Wenn Sie die Standardeinstellungen Ihrer Software verwenden, um das PDF zu erhalten, verwenden Sie höchstwahrscheinlich die Faustregel für die optimale Bandbreite eines Gaußschen Kernels. Diese "optimale Bandbreite" kann dann für jede Teilmenge unterschiedlich sein. Fragen Sie sich jetzt, sind die Formen noch vergleichbar? Es könnte sein, dass man dieselbe Variable (Schätzung der Kerneldichte) mit Doppelstandards misst.

Für die Schätzung der Kerneldichte wurden klare Regeln entwickelt, um die richtige Bandbreite zu erhalten (eine Art Kreuzvalidierung), aber für Violin-Diagramme werden sie meist ignoriert. Könnte wichtig sein, wenn sich die Stichprobengrößen stark unterscheiden.

Ich habe gerade dieses Problem. Was denkst du darüber? Wie löst du das? Alle Kommentare werden sehr geschätzt.

Holger Hoffmann
quelle