Ich versuche, Geigenpläne zu zeichnen, und frage mich, ob es eine bewährte Methode gibt, um sie gruppenübergreifend zu skalieren. Hier sind drei Optionen, die ich mit dem R- mtcars
Datensatz ausprobiert habe (Motor Trend Cars von 1973, hier zu finden ).
Gleiche Breiten
Scheint zu sein, was das Originalpapier * macht und was R vioplot
macht ( Beispiel ). Gut zum Formvergleich.
Gleiche Gebiete
Fühlt sich richtig an, da jedes Diagramm ein Wahrscheinlichkeitsdiagramm ist, und daher sollte die Fläche jedes Diagramms in einem Koordinatenraum gleich 1,0 sein. Gut für den Vergleich der Dichte innerhalb jeder Gruppe, erscheint jedoch angemessener, wenn die Diagramme überlagert sind.
Gewichtete Bereiche
Wie gleiche Fläche, jedoch gewichtet nach Anzahl der Beobachtungen. 6-Zyl wird relativ dünner, da es weniger dieser Autos gibt. Gut für den Vergleich der Dichte zwischen Gruppen.
* Violin-Plots: Ein Box-Plot-Density-Trace-Synergis (DOI: 10.2307 / 2685478)
Antworten:
Box-Plots werden für schematische Zusammenfassungen einer Verteilung verwendet. Bei den Geigenplots handelt es sich nur um Box-Plots, bei denen die Boxen Q1, Q2 und Q3 durch eine Vielzahl von Quantilen ersetzt werden. Aus diesem Grund denke ich, dass die akzeptierte Praxis darin besteht, eine einheitliche Breite über Gruppen hinweg zu verwenden.
Sie sprechen jedoch einen guten Punkt an: Wie sollten die Dichten zwischen den Gruppen verglichen werden? Die Antwort hängt davon ab, ob Sie jede Gruppe als eigene Population oder als Teilpopulation betrachten.
quelle
Ehrlich gesagt denke ich, dass Sie es aus der falschen Richtung nähern. Alle drei Diagramme enthalten eindeutige Informationen mit Wert. Andernfalls würden Sie nicht überlegen, welches Diagramm verwendet werden soll. Bei der explorativen Datenanalyse geht es darum, Ihre Daten zu verstehen. Wo es den Erwartungen entspricht. Wo es nicht geht. Wie ist es über mehrere Variablen geformt.
Der springende Punkt der Durchführung von EDA ist die Bewertung, ob unsere Standardeinstellungen, seien es Verteilungs- oder Kolinearitätsannahmen, das verwendete statistische Modell usw., gut begründet sind. Daher ist das Konzept eines "Standard" -EDA etwas mangelhaft.
Schauen Sie sich alle an - oder zumindest alle Handlungen, die sich auf die Frage beziehen, die Sie stellen möchten. Es gibt keinen Grund, sich in der EDA-Phase auf "Was ist interessant" und "Was werde ich ignorieren" zu beschränken. Und wenn wir die Daten nur über die Standardeinstellungen einspeisen, ist dies in erster Linie nicht wirklich EDA.
quelle
Und was ist mit der Bandbreite? Hast du darüber nachgedacht?
Wenn Sie die Standardeinstellungen Ihrer Software verwenden, um das PDF zu erhalten, verwenden Sie höchstwahrscheinlich die Faustregel für die optimale Bandbreite eines Gaußschen Kernels. Diese "optimale Bandbreite" kann dann für jede Teilmenge unterschiedlich sein. Fragen Sie sich jetzt, sind die Formen noch vergleichbar? Es könnte sein, dass man dieselbe Variable (Schätzung der Kerneldichte) mit Doppelstandards misst.
Für die Schätzung der Kerneldichte wurden klare Regeln entwickelt, um die richtige Bandbreite zu erhalten (eine Art Kreuzvalidierung), aber für Violin-Diagramme werden sie meist ignoriert. Könnte wichtig sein, wenn sich die Stichprobengrößen stark unterscheiden.
Ich habe gerade dieses Problem. Was denkst du darüber? Wie löst du das? Alle Kommentare werden sehr geschätzt.
quelle