Finden von Quartilen in R

33

Ich arbeite gerade an einem Statistiklehrbuch, während ich R lerne, und bin auf ein Stolperstein im folgenden Beispiel gestoßen:

Bildbeschreibung hier eingeben

Nach dem Betrachten habe ?quantileich versucht, dies in R mit den folgenden neu zu erstellen:

> nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104)
> quantile(nuclear)
   0%   25%   50%   75%  100% 
  6.0   9.5  16.0  28.0 104.0 

Angesichts der Tatsache, dass der Text und R unterschiedliche Ergebnisse haben, gehe ich davon aus, dass R den Median für die Berechnung des ersten und dritten Quartils verwendet.

Frage:

Sollte ich den Median in die Berechnung des ersten und dritten Quartils einbeziehen?

Genauer gesagt, hat das Lehrbuch oder R dies richtig? Wenn das Lehrbuch dies richtig hat, gibt es eine Möglichkeit, dies in R richtig zu erreichen?

Danke im Voraus.


quelle
6
In einigen Diskussionsfäden wird erläutert, auf welche Weise Quantile berechnet oder geschätzt werden können. Hier ist eine mit einer maßgeblichen Antwort , aber andere finden Sie auf unserer Website. Kurz gesagt, Ihr Lehrbuch scheint eine nicht standardmäßige Methode zur Berechnung von Quartilen darzustellen, die quantileTypen 1, 2 und 6 reproduzieren sie jedoch für einen Datensatz dieser bestimmten Größe . Keine der RMethoden entspricht Ihrem Lehrbuch. (Man wundert sich über die Qualität dieses Textes ...)
whuber
@whuber Danke für diesen Kommentar, es hat sehr geholfen, da ich befürchte, ich habe noch nicht den technischen Hintergrund, um genau zu unterscheiden, was die verschiedenen Typen in quantiletun.
@whuber: es ist eindeutig nicht standard (was wahrscheinlich irgendwo im buch erwähnt wird), aber nicht unintuitiv. Denken Sie, dass es mathematisch falsch ist?
Michael M
6
n
1
R verwendet neun verschiedene Definitionen von Quantilen (standardmäßig wird Definition 7 verwendet). See?quantile
Glen_b -Reinstate Monica

Antworten:

43

Ihr Lehrbuch ist verwirrt. Nur sehr wenige Menschen oder Software definieren Quartile auf diese Weise. (Es neigt dazu, das erste Quartil zu klein und das dritte Quartil zu groß zu machen.)

Die quantileFunktion Rimplementiert neun verschiedene Methoden zur Berechnung von Quantilen! Um festzustellen, welche davon dieser Methode entsprechen, implementieren wir sie zunächst. Aus der Beschreibung können wir einen Algorithmus schreiben, zuerst mathematisch und dann in R:

  1. x1x2xn

  2. Für jeden Datensatz ist der Median der mittlere Wert, wenn eine ungerade Anzahl von Werten vorliegt. Andernfalls ist es der Durchschnitt der beiden Mittelwerte, wenn eine gerade Anzahl von Werten vorliegt. R‚s - medianFunktion berechnet diese.

    m=(n+1)/2(xl+xu)/2lummxml=m1u=m+1lu

  3. xiil(xi)iu

Hier ist eine Implementierung. Es kann Ihnen helfen, Ihre Übungen in diesem Lehrbuch zu machen.

quart <- function(x) {
  x <- sort(x)
  n <- length(x)
  m <- (n+1)/2
  if (floor(m) != m) {
    l <- m-1/2; u <- m+1/2
  } else {
    l <- m-1; u <- m+1
  }
  c(Q1=median(x[1:l]), Q3=median(x[u:n]))
}

Beispielsweise quart(c(6,7,8,9,10,15,16,16,20,20,23,33,50,58,104))stimmt die Ausgabe von mit dem Text überein:

Q1 Q3 
 9 33 

Berechnen wir mit allen zehn Methoden Quartile für einige kleine Datensätze: die neun in Rund die Lehrbücher:

y <- matrix(NA, 2, 10)
rownames(y) <- c("Q1", "Q3")
colnames(y) <- c(1:9, "Quart")
for (n in 3:5) {
  j <- 1
  for (i in 1:9) {
    y[, i] <- quantile(1:n, probs=c(1/4, 3/4), type=i)
  }
  y[, 10] <- quart(1:n)
  cat("\n", n, ":\n")
  print(y, digits=2)
}

Wenn Sie dies ausführen und prüfen, werden Sie feststellen, dass die Lehrbuchwerte mit keiner der RAusgaben für alle drei Stichprobengrößen übereinstimmen . (Das Muster der Meinungsverschiedenheiten setzt sich in den Zyklen der dritten Periode fort und zeigt, dass das Problem weiterhin besteht, egal wie groß die Stichprobe sein mag.)

9.528

whuber
quelle
3
Ein großes Dankeschön für diese detaillierte Antwort und die Bereitstellung der Tools, mit denen ich selbstständig arbeiten und die verschiedenen Methoden bewerten kann. Ich werde sie jetzt starten und die Dinge genauer durchgehen.
2

Im Bereich der Statistik (die ich unterrichte, in der ich aber nicht forsche) sind Quartilberechnungen besonders vieldeutig (in einer Weise, die nicht unbedingt für Quantile im Allgemeinen gilt). Dies hat eine Menge Geschichte hinter sich, unter anderem aufgrund der Verwendung (und möglicherweise des Missbrauchs) des Interquartilbereichs (IQR), der für Ausreißer unempfindlich ist, als Kontrolle oder Alternative zur Standardabweichung. Es bleibt ein offener Wettbewerb, bei dem drei unterschiedliche Methoden zur Berechnung von Q1 und Q3 kokanonisch sind.

Wie so oft hat der Wikipedia-Artikel eine angemessene Zusammenfassung: https://en.m.wikipedia.org/wiki/Quartile Der Larson- und der Farber-Text verwenden wie die meisten elementaren statistischen Texte das, was in dem Wikipedia-Artikel beschrieben wird als " Methode 1." Wenn ich den obigen Beschreibungen folge, wendet r "Methode 3" an. Sie müssen selbst entscheiden, was in Ihrem Bereich kanonisch angemessen ist.

James Klock
quelle
Sie machen gute Punkte (+1). Angesichts der Tatsache, dass die Referenzen für "Methode 1" der TI-83-Taschenrechner und Excel sind (dessen mangelnde Glaubwürdigkeit bekannt ist), dass diese Methode nachweislich voreingenommen ist und nicht schwieriger zu berechnen ist als Tukeys Scharniere, wäre dies der Fall Es scheint schwierig zu sein, seine Verwendung zu rechtfertigen oder zu empfehlen.
Whuber