Ich arbeite gerade an einem Statistiklehrbuch, während ich R lerne, und bin auf ein Stolperstein im folgenden Beispiel gestoßen:
Nach dem Betrachten habe ?quantile
ich versucht, dies in R mit den folgenden neu zu erstellen:
> nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104)
> quantile(nuclear)
0% 25% 50% 75% 100%
6.0 9.5 16.0 28.0 104.0
Angesichts der Tatsache, dass der Text und R unterschiedliche Ergebnisse haben, gehe ich davon aus, dass R den Median für die Berechnung des ersten und dritten Quartils verwendet.
Frage:
Sollte ich den Median in die Berechnung des ersten und dritten Quartils einbeziehen?
Genauer gesagt, hat das Lehrbuch oder R dies richtig? Wenn das Lehrbuch dies richtig hat, gibt es eine Möglichkeit, dies in R richtig zu erreichen?
Danke im Voraus.
quantile
Typen 1, 2 und 6 reproduzieren sie jedoch für einen Datensatz dieser bestimmten Größe . Keine derR
Methoden entspricht Ihrem Lehrbuch. (Man wundert sich über die Qualität dieses Textes ...)quantile
tun.?quantile
Antworten:
Ihr Lehrbuch ist verwirrt. Nur sehr wenige Menschen oder Software definieren Quartile auf diese Weise. (Es neigt dazu, das erste Quartil zu klein und das dritte Quartil zu groß zu machen.)
Die
quantile
FunktionR
implementiert neun verschiedene Methoden zur Berechnung von Quantilen! Um festzustellen, welche davon dieser Methode entsprechen, implementieren wir sie zunächst. Aus der Beschreibung können wir einen Algorithmus schreiben, zuerst mathematisch und dann inR
:Für jeden Datensatz ist der Median der mittlere Wert, wenn eine ungerade Anzahl von Werten vorliegt. Andernfalls ist es der Durchschnitt der beiden Mittelwerte, wenn eine gerade Anzahl von Werten vorliegt.
R
‚s -median
Funktion berechnet diese.Hier ist eine Implementierung. Es kann Ihnen helfen, Ihre Übungen in diesem Lehrbuch zu machen.
Beispielsweise
quart(c(6,7,8,9,10,15,16,16,20,20,23,33,50,58,104))
stimmt die Ausgabe von mit dem Text überein:Berechnen wir mit allen zehn Methoden Quartile für einige kleine Datensätze: die neun in
R
und die Lehrbücher:Wenn Sie dies ausführen und prüfen, werden Sie feststellen, dass die Lehrbuchwerte mit keiner der
R
Ausgaben für alle drei Stichprobengrößen übereinstimmen . (Das Muster der Meinungsverschiedenheiten setzt sich in den Zyklen der dritten Periode fort und zeigt, dass das Problem weiterhin besteht, egal wie groß die Stichprobe sein mag.)quelle
Im Bereich der Statistik (die ich unterrichte, in der ich aber nicht forsche) sind Quartilberechnungen besonders vieldeutig (in einer Weise, die nicht unbedingt für Quantile im Allgemeinen gilt). Dies hat eine Menge Geschichte hinter sich, unter anderem aufgrund der Verwendung (und möglicherweise des Missbrauchs) des Interquartilbereichs (IQR), der für Ausreißer unempfindlich ist, als Kontrolle oder Alternative zur Standardabweichung. Es bleibt ein offener Wettbewerb, bei dem drei unterschiedliche Methoden zur Berechnung von Q1 und Q3 kokanonisch sind.
Wie so oft hat der Wikipedia-Artikel eine angemessene Zusammenfassung: https://en.m.wikipedia.org/wiki/Quartile Der Larson- und der Farber-Text verwenden wie die meisten elementaren statistischen Texte das, was in dem Wikipedia-Artikel beschrieben wird als " Methode 1." Wenn ich den obigen Beschreibungen folge, wendet r "Methode 3" an. Sie müssen selbst entscheiden, was in Ihrem Bereich kanonisch angemessen ist.
quelle