Kleine Beispiele grafisch darstellen

13

Ich habe einen kleinen Datensatz von 14 verschiedenen Zeiten, um eine Aufgabe abzuschließen. Ich habe jedoch Schwierigkeiten, ein geeignetes Diagramm zu finden, um die Daten grafisch darzustellen. Wenn die Stichprobe größer wäre, würde ich einen Boxplot oder ein Histogramm verwenden, aber ich bin nicht sicher, ob es in diesem Fall angemessen wäre, wenn die Stichprobe so klein ist.

Update: Die Zeiten sind 5.2.3.9.5.6.4.2.3.8.4.1.6.0.5.6.4.4.4.5.4.9.4.5.4.4.2

Eamonn
quelle
4
Es gibt nichts Schöneres als die tatsächlichen Daten, die Ihnen wichtig sind, als ein konkretes Beispiel, um die Menschen zu ermutigen, unterschiedliche Lösungen zu veröffentlichen. Im Voraus schlage ich Punkt- oder Stripplots und Quantil-Plots mit überlagerter Box vor.
Nick Cox

Antworten:

16

Ich denke, das Grundprinzip hier ist, dass Sie alle einzelnen Werte zeigen können und sollten. Auch wenn das Detail offensichtlich nicht interessant oder nützlich ist, gibt es keinen Grund, es nicht zu zeigen oder den Leser zu verpflichten, ein Histogramm zu decodieren (sagen wir), in dem die Balken möglicherweise nur einen oder zwei Werte darstellen.

Ich biete hier einen kleinen Composite an. Oben links ist ein Punkt- oder Streifendiagramm (mindestens 20 andere Namen wurden für dieselbe Idee verwendet), das horizontal und oben rechts dieselbe Idee, die vertikal dargestellt wird. Instanzen mit demselben Wert werden durch Stapeln abgeglichen.

Unten ist ein Quantil-Box-Plot im Sinne von Parzen zu sehen, in dem die implizite horizontale Skala die kumulative Wahrscheinlichkeit (Plotposition in einem gemeinsamen Jargon) ist und die konventionelle Median-und-Quartil-Box so gezeichnet werden kann, dass (im Prinzip) die Hälfte Die Werte befinden sich wie immer in der Box und die Hälfte der Werte außerhalb der Box. Die zusätzliche horizontale Linie repräsentiert hier den Mittelwert. Einige Leute fügen den Boxplots Mittel als zusätzliches Punkt- oder Markierungssymbol hinzu. Ich finde, das kann mit der Anzeige der Daten selbst in Konflikt geraten, und ich bevorzuge eine zusätzliche Zeile. Wenn die Linie für den Median und die Linie für den Mittelwert übereinzustimmen scheinen, müssten Sie überlegen, was Sie tun sollen. Fast immer sind Mittelwert und Median erkennbar unterschiedlich.

Es ist wohl Standard, die Maßeinheiten in der Grafik explizit anzugeben, aber ich verstehe nicht, was sie sind.

Bildbeschreibung hier eingeben

(Ich habe hier absichtlich einen zusätzlichen Punkt hervorgehoben, nämlich, dass Grafiken sehr klein, aber dennoch informativ sein können. In der Praxis würde ich sie nicht so klein machen.)

BEARBEITEN:

Querverweise zu Quantil-Box-Plots im weitesten Sinne von Parzen hinzugefügt (weitere Verweise in der zweiten unten; andere Verwendungen von "Quantil-Box-Plots" existieren)

Wie kann ich die Differenz zwischen nicht parametrischen Daten mit vielen Nullen messen?

Wie können Boxplots verwendet werden, um den Punkt zu ermitteln, an dem Werte mit größerer Wahrscheinlichkeit von unterschiedlichen Bedingungen stammen?

Wie visualisiere ich einen unabhängigen T-Test mit zwei Stichproben?

Wie finde ich heraus, welches Experiment mit dem Mann-Whitney-U-Test besser abschneidet?

Shera, DM 1991. Einige Anwendungen von Quantil-Plots zur Verbesserung der Datenpräsentation. Informatik und Statistik 23: 50-53.

Militký, J. und M. Meloun. 1993. Einige grafische Hilfsmittel für die univariate explorative Datenanalyse. Analytica Chimica Acta 277: 215 & ndash; 221.

Meloun, M. und J. Militký. 1994. Computergestützte Datenverarbeitung in der analytischen Chemometrie. I. Explorative Analyse univariater Daten. Chemical Papers 48: 151 & ndash; 157.

EDIT 2:

In diesen Beiträgen geht es nicht nur darum, die unmittelbare Frage zu beantworten, sondern auch darum, ähnliche Fragen anzusprechen, die andere interessieren könnten.

Einige andere Diagrammdesigns in anderen Antworten hier zeigen Bezeichner, die agnostisch mit 1 ... 14 bezeichnet sind, wenn keine anderen Details vorliegen. Angenommen, diese und andere Bezeichner wären für die Interpretation von Nutzen, so ist ein (Cleveland) -Punktdiagramm ein einfaches Design, um sie anzuzeigen. Hier sind zwei von mehreren Möglichkeiten, in denen die Bezeichnerreihenfolge wörtlich respektiert wird (links) und in denen die Werte sortiert werden (rechts). Bei Bedarf ist viel Platz für längere Etiketten.

Ein Vorteil dieses Entwurfs gegenüber Balkendiagrammen besteht darin, dass die Antwort- oder Ergebnisachse bei einem Wert ungleich Null beginnen kann, wenn dies eine bessere Wahl zu sein scheint.

Man kann sich auch leicht vorstellen, die Diagramme so zu drehen, dass die Antwortachse vertikal ist.

Bildbeschreibung hier eingeben

Nick Cox
quelle
(+1) Ich habe manchmal das Punkt- oder Streifendiagramm gesehen, insbesondere wenn es vertikal ausgerichtet ist und die "gestapelten" Punkte nicht linksbündig, sondern zentral ausgerichtet sind (dh wenn drei gestapelte Punkte vorhanden sind, stimmt der mittlere Punkt mit dem überein ungestapelte Punkte). Dies ergibt eine Symmetrielinie, die ästhetisch ansprechend ist, aber ich bin nicht sicher, wie nützlich sie praktisch ist. Vielleicht ist es einfacher, eine Box zu überlagern. Hat das einen eigenen Namen, weißt du? Und hat es einen Rat gegeben, dies zu vermeiden / zu übernehmen?
Silverfish
1
Gibt es eine Chance, dass Sie eine Referenz für Parzen geben? Ich habe diese Handlungen immer gemocht, aber nie eine richtige Referenz für sie gelesen.
Silberfischchen
@Silverfish Centered (Centered) -Varianten sind sicherlich beliebt und werden häufig diskutiert. Die kleinen Probleme scheinen, wie Sie bereits erwähnt haben, ein Wunsch nach Symmetrie zu sein, im Gegensatz zu einem Design, das dem Histogramm-Stil ähnelt, den ich leicht bevorzuge, aber es ist eine Frage des Geschmacks und der Umstände. Ich habe Querverweise hinzugefügt und würde im Gegenzug andere begrüßen.
Nick Cox
3

@ Nick Cox hat bereits einige gute Beispiele gegeben, zwei andere Optionen, die ich etwas häufig verwende, sind das Boxdiagramm mit überlagerten oder leicht zitternden Punkten.

Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben

Mit R-Code

times<-c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
boxplot(times)
points(rep(1,length(times)),times,cex = 3, pch = 'x')

boxplot(times)
points(jitter(rep(1,length(times)),amount = 0.1),times,cex = 3, pch = 'x')

EDIT: Sie könnten auch eine Geigenhandlung verwenden, wenn Sie dies wünschen

ggplot(data.frame(times), aes(x = rep(0,length(times)), y = times)) + geom_violin() + geom_jitter()

Bildbeschreibung hier eingeben

aeongrail
quelle
1
Vielen Dank für die Antwort. Aufgrund der Größe der Stichprobe wollte ich ursprünglich keine Box-Plots in meinen Analysen verwenden. Aber nachdem ich mir verschiedene Lehrbücher angesehen habe, scheint meine Stichprobengröße ausreichend zu sein.
Eamonn
1

Ihre Frage erinnerte mich an die in diesem Blog-Beitrag beschriebene Technik . Es geht um die Visualisierung diskreter Ereignisse.

Der Kerntrick besteht darin, the time before an eventx zu zeichnen the time after an event.

Ihre Daten visualisiert [1]

Dies mag zufällig sein, aber im oberen mittleren Bereich befinden sich keine Daten. Es ist also eine Struktur sichtbar.


Der schnelle und schmutzige RCode.

data <- c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
x=data[1:12]
y=data[2:13]
plot(x,y, col="white", xlab="Time before an event", ylab="Time after an event"  )
for (i in 1:12) {
    text(x[i],y[i], i)
}
Harald Thomson
quelle
OP sagte 14 verschiedene Male. Ich habe das so gelesen, dass dies keine Serie ist. Wenn es sich um eine Serie handelt, ist Ihre Idee sicherlich relevant.
Nick Cox
Du hast vermutlich recht. Aber selbst wenn sie nicht eine Serie, die Grafik würde Abhängigkeiten zwischen den Zeiten zeigen. Offensichtlich sind die Achsenbeschriftungen dann falsch.
Harald Thomson
2
Nur das OP kann genau klären, was die Daten sind, aber ich glaube nicht, dass diese Grafik so oder so gewinnt. Wenn es sich bei den Daten um getrennte Zeiten handelt, ist das Diagramm bedeutungslos, es sei denn, die Reihenfolge, in der die Werte angegeben werden, hat eine Bedeutung.
Nick Cox
fyi textnimmt vektorargumente - text(x, y, 1:12)sollte funktionieren.
MichaelChirico
1

Eine andere Idee, da Sie Zeit verwenden.

Ein Rennstreckenplot - ein Barplot mit Polarkoordinaten - hat den gleichen Effekt wie eine Stoppuhr:

Rennstrecke

Idealerweise würden die Beobachtungsetiketten auf den Balken oder zumindest auf dem anderen Ende liegen. Im Moment hat der Betrachter die zusätzliche Anstrengung, zu verfolgen, welche Beobachtung welche ist (auf / ab), wenn er irgendwelche Vergleiche vornimmt.

neerajt
quelle
2
Ich muss das als einen Exzentriker betrachten, um ehrlich zu sein, als eine absolut perverse Graphentechnik. Das Auge sieht nicht einmal die Bogenlänge, sondern einen Bereich, der als solcher dekodiert werden soll, aber das Gehirn muss eingreifen und unterstreichen, dass nur der Drehwinkel aussagekräftig ist. Es ist schwierig, genau zu bestimmen, welche Werte kleiner, gleich oder größer sind, was in jedem akzeptablen Diagrammstil unmittelbar der Fall ist.
Nick Cox
Das einzige Plus, das ich für diesen Entwurf sehen kann, ist, dass die Bezeichner Nr. 1 bis Nr. 14 in diesem Entwurf unmittelbar sind, es sei denn, die Bewertung ist für einen ungewöhnlichen Entwurf. Ich habe diesen Punkt in einer Bearbeitung meiner eigenen Antwort aufgegriffen.
Nick Cox