Ich habe einen kleinen Datensatz von 14 verschiedenen Zeiten, um eine Aufgabe abzuschließen. Ich habe jedoch Schwierigkeiten, ein geeignetes Diagramm zu finden, um die Daten grafisch darzustellen. Wenn die Stichprobe größer wäre, würde ich einen Boxplot oder ein Histogramm verwenden, aber ich bin nicht sicher, ob es in diesem Fall angemessen wäre, wenn die Stichprobe so klein ist.
Update: Die Zeiten sind 5.2.3.9.5.6.4.2.3.8.4.1.6.0.5.6.4.4.4.5.4.9.4.5.4.4.2
Antworten:
Ich denke, das Grundprinzip hier ist, dass Sie alle einzelnen Werte zeigen können und sollten. Auch wenn das Detail offensichtlich nicht interessant oder nützlich ist, gibt es keinen Grund, es nicht zu zeigen oder den Leser zu verpflichten, ein Histogramm zu decodieren (sagen wir), in dem die Balken möglicherweise nur einen oder zwei Werte darstellen.
Ich biete hier einen kleinen Composite an. Oben links ist ein Punkt- oder Streifendiagramm (mindestens 20 andere Namen wurden für dieselbe Idee verwendet), das horizontal und oben rechts dieselbe Idee, die vertikal dargestellt wird. Instanzen mit demselben Wert werden durch Stapeln abgeglichen.
Unten ist ein Quantil-Box-Plot im Sinne von Parzen zu sehen, in dem die implizite horizontale Skala die kumulative Wahrscheinlichkeit (Plotposition in einem gemeinsamen Jargon) ist und die konventionelle Median-und-Quartil-Box so gezeichnet werden kann, dass (im Prinzip) die Hälfte Die Werte befinden sich wie immer in der Box und die Hälfte der Werte außerhalb der Box. Die zusätzliche horizontale Linie repräsentiert hier den Mittelwert. Einige Leute fügen den Boxplots Mittel als zusätzliches Punkt- oder Markierungssymbol hinzu. Ich finde, das kann mit der Anzeige der Daten selbst in Konflikt geraten, und ich bevorzuge eine zusätzliche Zeile. Wenn die Linie für den Median und die Linie für den Mittelwert übereinzustimmen scheinen, müssten Sie überlegen, was Sie tun sollen. Fast immer sind Mittelwert und Median erkennbar unterschiedlich.
Es ist wohl Standard, die Maßeinheiten in der Grafik explizit anzugeben, aber ich verstehe nicht, was sie sind.
(Ich habe hier absichtlich einen zusätzlichen Punkt hervorgehoben, nämlich, dass Grafiken sehr klein, aber dennoch informativ sein können. In der Praxis würde ich sie nicht so klein machen.)
BEARBEITEN:
Querverweise zu Quantil-Box-Plots im weitesten Sinne von Parzen hinzugefügt (weitere Verweise in der zweiten unten; andere Verwendungen von "Quantil-Box-Plots" existieren)
Wie kann ich die Differenz zwischen nicht parametrischen Daten mit vielen Nullen messen?
Wie können Boxplots verwendet werden, um den Punkt zu ermitteln, an dem Werte mit größerer Wahrscheinlichkeit von unterschiedlichen Bedingungen stammen?
Wie visualisiere ich einen unabhängigen T-Test mit zwei Stichproben?
Wie finde ich heraus, welches Experiment mit dem Mann-Whitney-U-Test besser abschneidet?
Shera, DM 1991. Einige Anwendungen von Quantil-Plots zur Verbesserung der Datenpräsentation. Informatik und Statistik 23: 50-53.
Militký, J. und M. Meloun. 1993. Einige grafische Hilfsmittel für die univariate explorative Datenanalyse. Analytica Chimica Acta 277: 215 & ndash; 221.
Meloun, M. und J. Militký. 1994. Computergestützte Datenverarbeitung in der analytischen Chemometrie. I. Explorative Analyse univariater Daten. Chemical Papers 48: 151 & ndash; 157.
EDIT 2:
In diesen Beiträgen geht es nicht nur darum, die unmittelbare Frage zu beantworten, sondern auch darum, ähnliche Fragen anzusprechen, die andere interessieren könnten.
Einige andere Diagrammdesigns in anderen Antworten hier zeigen Bezeichner, die agnostisch mit 1 ... 14 bezeichnet sind, wenn keine anderen Details vorliegen. Angenommen, diese und andere Bezeichner wären für die Interpretation von Nutzen, so ist ein (Cleveland) -Punktdiagramm ein einfaches Design, um sie anzuzeigen. Hier sind zwei von mehreren Möglichkeiten, in denen die Bezeichnerreihenfolge wörtlich respektiert wird (links) und in denen die Werte sortiert werden (rechts). Bei Bedarf ist viel Platz für längere Etiketten.
Ein Vorteil dieses Entwurfs gegenüber Balkendiagrammen besteht darin, dass die Antwort- oder Ergebnisachse bei einem Wert ungleich Null beginnen kann, wenn dies eine bessere Wahl zu sein scheint.
Man kann sich auch leicht vorstellen, die Diagramme so zu drehen, dass die Antwortachse vertikal ist.
quelle
@ Nick Cox hat bereits einige gute Beispiele gegeben, zwei andere Optionen, die ich etwas häufig verwende, sind das Boxdiagramm mit überlagerten oder leicht zitternden Punkten.
Mit R-Code
EDIT: Sie könnten auch eine Geigenhandlung verwenden, wenn Sie dies wünschen
quelle
Ihre Frage erinnerte mich an die in diesem Blog-Beitrag beschriebene Technik . Es geht um die Visualisierung diskreter Ereignisse.
Der Kerntrick besteht darin,
the time before an event
x zu zeichnenthe time after an event
.Dies mag zufällig sein, aber im oberen mittleren Bereich befinden sich keine Daten. Es ist also eine Struktur sichtbar.
Der schnelle und schmutzige
R
Code.quelle
text
nimmt vektorargumente -text(x, y, 1:12)
sollte funktionieren.Eine andere Idee, da Sie Zeit verwenden.
Ein Rennstreckenplot - ein Barplot mit Polarkoordinaten - hat den gleichen Effekt wie eine Stoppuhr:
Idealerweise würden die Beobachtungsetiketten auf den Balken oder zumindest auf dem anderen Ende liegen. Im Moment hat der Betrachter die zusätzliche Anstrengung, zu verfolgen, welche Beobachtung welche ist (auf / ab), wenn er irgendwelche Vergleiche vornimmt.
quelle