Ich schreibe meine Doktorarbeit und habe festgestellt, dass ich mich zu sehr auf Boxplots verlasse, um Verteilungen zu vergleichen. Welche anderen Alternativen mögen Sie, um diese Aufgabe zu erfüllen?
Ich möchte auch fragen, ob Sie eine andere Ressource als die R-Galerie kennen, in der ich mich mit verschiedenen Ideen zur Datenvisualisierung inspirieren kann.
r
distributions
data-visualization
boxplot
relative-distribution
pedrosaurio
quelle
quelle
hist
; geglättete Dichtendensity
; QQ-Plotsqqplot
; Stängel-Blatt-Parzellen (etwas altertümlich)stem
. Darüber hinaus könnte der Kolmogorov-Smirnov-Test eine gute Ergänzung seinks.test
.Antworten:
Ich werde meinen Kommentar ausarbeiten, wie von @gung vorgeschlagen. Der Vollständigkeit halber werde ich auch die von @Alexander vorgeschlagene Geigenhandlung hinzufügen. Einige dieser Tools können zum Vergleichen von mehr als zwei Stichproben verwendet werden.
Ich hoffe das hilft.
quelle
Nachdem ich ein bisschen mehr über Ihre Vorschläge nachgedacht hatte, fand ich diese Art von Handlung, um die Antwort von @Procastinator zu ergänzen. Es heißt "Bienenschwarm" und ist eine Mischung aus Boxplot mit Geigenplot mit der gleichen Detailstufe wie Scatterplot.
Bienenwarmes R-Paket
quelle
beanplot
.Eine Notiz:
Sie möchten Fragen zu Ihren Daten beantworten und keine Fragen zur Visualisierungsmethode selbst erstellen. Oft ist langweilig besser. Es macht Vergleiche von Vergleichen auch leichter verständlich.
Eine Antwort:
Die Notwendigkeit einer einfachen Formatierung über das Basispaket von R hinaus erklärt wahrscheinlich die Beliebtheit von Hadleys ggplot-Paket in R.
Schließlich habe ich festgestellt, dass das Hinzufügen eines einfachen Hintergrunds hilft. Deshalb habe ich "bgfun" geschrieben, das von panel.first aufgerufen werden kann
quelle
alpha=0.5
zum ersten Plot (togeom_density()
) hinzufügen , damit die überlappenden Teile nicht ausgeblendet werden.Hier ist ein nettes Tutorial aus Nathan Yaus Flowing Data-Blog , in dem Daten zu Verbrechen auf R- und US-Bundesstaatsebene verwendet werden. Es zeigt:
In letzter Zeit zeichne ich CDFs viel mehr als Histogramme.
quelle
Es gibt ein spezielles Konzept zum Vergleichen von Verteilungen, das besser bekannt sein sollte: die relative Verteilung.
Schauen wir uns ein Beispiel an. Die Website http://www.math.hope.edu/swanson/data/cellphone.txt gibt Auskunft über die Dauer des letzten Anrufs von männlichen und weiblichen Studenten. Lassen Sie uns die Verteilung der Anruflänge für männliche Studenten mit Studentinnen als Referenz ausdrücken.
Wir können das gleiche Diagramm auch mit punktweisen Konfidenzintervallen um die relative Dichtekurve erstellen:
Die breiten Konfidenzbänder spiegeln in diesem Fall die geringe Stichprobengröße wider.
Es gibt ein Buch über diese Methode: Handcock
Der R-Code für die Handlung ist hier:
Für die letzte Handlung wechseln Sie zu:
Es ist zu beachten, dass die Diagramme unter Verwendung einer Schätzung der Kerneldichte erstellt werden, wobei der Grad der Glätte über gcv (generalisierte Kreuzvalidierung) ausgewählt wird.
quelle
Ich möchte nur die Dichten schätzen und sie zeichnen,
quelle