In der boxplot()
Funktion in R gibt es das log =
Argument, um anzugeben, ob sich eine Achse auf der Protokollskala befinden soll oder nicht.
Wenn ich diese Option wähle ( log = "y"
als Argument angeben ), sollte die Form des Box-Plots für mich so aussehen, als würde ich die Daten zuerst manuell mit dem Protokoll transformieren und dann diese log-transformierten Daten zeichnen (ich erkenne die Beschriftungen auf der Achse wird anders sein, aber ich beziehe mich auf die Form des Diagramms). Dies ist jedoch nicht der Fall.
Hier ist ein einfaches Arbeitsbeispiel:
set.seed(923489)
data <- rlnorm(300, meanlog = 0, sdlog = 1)
boxplot(data) # Highly skewed right raw data
boxplot(data, log="y") # Data on log scale; less right-skewed
boxplot(log10(data)) # Log base 10-transform data; shape not the same as when specify log="y"
boxplot(log(data)) # Natural log and base 10 give same shape plot (just different axis labels)
Warum ist das so?
Antworten:
Offensichtlich sieht die Box mit dem mittleren "Gürtel" gleich aus. Der Unterschied sind die Schnurrhaare.
?boxplot
Sagt uns das in den Standardeinstellungenrange
ist positiv, nämlich 1,5 in der Standardeinstellung. Verlängern sich die Schnurrhaare also um das 1,5-fache der Schachtel, aber in welcher Größenordnung? Wenn Sie anrufenboxplot(data, log="y")
, beträgt der Wert für die nicht skalierten Daten 1,5. somit wird der untere Whisker länger. Wenn Sie anrufen, sindboxplot(log(data))
die Whisker notwendigerweise symmetrisch.quelle
Aus
?boxplot
können Sie lesen:Die Standardeinstellung beim Zeichnen eines Boxplots
range=1.5
bedeutet, dass die Whisker das 1,5-fache des Interquartilbereichs über dem dritten Quartil und unter dem ersten Quartil verlängern. Alle anderen Punkte werden als Ausreißer gekennzeichnet.Die Unterschiede, die Sie sehen, basieren auf der Tatsache, dass die Protokolltransformation der Daten nicht den normalisierten Abstand eines Punkts vom dritten oder ersten Quartil beibehält. Wie bei Ihren Daten erwartet, haben Sie nach der Protokolltransformation weniger Ausreißer mit sehr hohen Werten und mehr Ausreißer mit niedrigen Werten.
quelle