Gibt es 99 Perzentile oder 100 Perzentile? Und sind es Gruppen von Zahlen oder Trennlinien oder Zeiger auf einzelne Zahlen?
Ich nehme an, die gleiche Frage würde für Quartile oder jedes Quantil gelten.
Ich habe gelesen, dass der Index einer Zahl bei einem bestimmten Perzentil (p) bei n Elementen ist i = (p / 100) * n
Das deutet darauf hin, dass es 100 Perzentile gibt. Angenommen, Sie haben 100 Zahlen (i = 1 bis i = 100), dann hätte jede einen Index (1 bis 100).
Wenn Sie 200 Zahlen hätten, gäbe es 100 Perzentile, die sich jedoch jeweils auf eine Gruppe von zwei Zahlen beziehen. Oder 100 Teiler ohne den ganz linken oder den ganz rechten Teiler, sonst würden Sie 101 Teiler erhalten. Oder Zeiger auf einzelne Zahlen, sodass sich das erste Perzentil auf die zweite Zahl bezieht (1/100) * 200 = 2 und das hundertste Perzentil auf die 200. Zahl (100/100) * 200 = 200
Ich habe manchmal davon gehört, dass es 99 Perzentile gibt.
Google zeigt das Oxford-Wörterbuch, das von Perzentil sagt: "Jede der 100 gleichen Gruppen, in die eine Population gemäß der Verteilung der Werte einer bestimmten Variablen unterteilt werden kann." und "jeder der 99 Zwischenwerte einer Zufallsvariablen, die eine Häufigkeitsverteilung in 100 solcher Gruppen unterteilen."
Wikipedia sagt, dass "das 20. Perzentil der Wert ist, unter dem 20% der Beobachtungen gefunden werden können". Bedeutet dies aber tatsächlich "der Wert, unter dem 20% der Beobachtungen gefunden werden können" oder "der Wert, für den 20% gefunden werden können" % der Werte sind <= dazu ". Wenn es nur <und nicht <= wäre, dann wäre nach dieser Überlegung das 100. Perzentil der Wert, unter dem 100% der Werte gefunden werden können. Ich habe das als Argument gehört, dass es kein 100. Perzentil geben kann, weil man keine Zahl haben kann, bei der 100% der Zahlen darunter sind. Aber ich denke, vielleicht ist das Argument, dass Sie kein 100. Perzentil haben können, falsch und basiert auf einem Fehler, den die Definition eines Perzentils mit <= nicht <einschließt. (oder> = nicht>). Das hundertste Perzentil wäre also die endgültige Zahl und wäre>
Antworten:
Beide Sinne von Perzentil , Quartil usw. sind weit verbreitet. Am einfachsten lässt sich der Unterschied mit Quartilen veranschaulichen:
der "Teiler" Sinn - es gibt 3 Quartile, die die Verteilung (oder Stichprobe) in 4 gleiche Teile teilen:
(Manchmal wird dies mit Max- und Min-Werten verwendet, sodass es 5 Quartile mit den Nummern 0 bis 4 gibt. Beachten Sie, dass dies nicht mit der obigen Nummerierung in Konflikt steht, sondern diese lediglich erweitert.)
Der Bin-Sinn: Es gibt 4 Quartile, die Teilmengen, in die diese 3 Werte die Verteilung (oder Stichprobe) unterteilen.
Keiner der beiden Begriffe kann vernünftigerweise als „falsch“ bezeichnet werden: Beide werden von vielen erfahrenen Praktikern verwendet und erscheinen in zahlreichen maßgeblichen Quellen (Lehrbücher, technische Wörterbücher und dergleichen).
Bei Quartilen wird der verwendete Sinn in der Regel aus dem Kontext deutlich: Wenn von einem Wert im dritten Quartil die Rede ist, kann dies nur der bin-Sinn sein, und wenn von allen Werten unter dem dritten Quartil die Rede ist, ist dies höchstwahrscheinlich der divider-Sinn. Bei Perzentilen ist die Unterscheidung häufig unklar, für die meisten Zwecke jedoch auch nicht so bedeutend, da 1% einer Verteilung so klein ist - ein schmaler Streifen ist ungefähr eine Linie. Wenn von jedem über dem 80. Perzentil gesprochen wird, kann dies die oberen 20% oder die oberen 19% bedeuten, aber in einem informellen Kontext, der keinen großen Unterschied darstellt, und bei strengen Arbeiten sollte die erforderliche Bedeutung vermutlich durch den Rest des Kontexts geklärt werden.
(Teile dieser Antwort sind angepasst von https://math.stackexchange.com/questions/1419609/are-there-3-or-4-quartiles-99-or-100-percentiles , die auch Zitate + Referenzen enthalten.)
quelle
Nehmen Sie diese Antwort mit einem Körnchen Salz - es begann ziemlich falsch und ich entscheide immer noch, was ich damit anfangen soll.
Die Frage dreht sich zum Teil um Sprache und Gebrauch, während sich diese Antwort auf die Mathematik konzentriert. Ich hoffe, dass die Mathematik einen Rahmen für das Verständnis unterschiedlicher Verwendungen bietet.
Eine gute Möglichkeit, dies zu behandeln, besteht darin, mit einfacher Mathematik zu beginnen und den komplizierteren Fall realer Daten rückgängig zu machen. Beginnen wir mit PDFs, CDFs und inversen CDFs (auch als Quantilfunktionen bezeichnet). Das te Quantil einer Distribution mit pdf und cdf ist . Angenommen, das te Perzentil ist . Dies bietet eine Möglichkeit, die von Ihnen identifizierte Mehrdeutigkeit einzugrenzen: Wir können Situationen betrachten, in denen 1) nicht invertierbar ist, 2) nur in einer bestimmten Domäne invertierbar ist oder 3) invertierbar ist, seine Inverse jedoch niemals bestimmte Werte erreicht.x f F F- 1( x ) z F- 1( z/ 100) F
Beispiel 1): Ich lasse dies zum Schluss; weiter lesen.
Beispiel 2): Für eine gleichmäßige 0,1-Verteilung ist der CDF invertierbar, wenn er auf [0, 1] beschränkt ist, sodass das 100. und 0. Perzentil als und angesichts dieser Einschränkung. Andernfalls sind sie falsch definiert, da (zum Beispiel) ebenfalls 0 ist.F- 1( 1 ) F- 1( 0 ) F( - 0,5 )
Ein weiteres Beispiel für 2): Für eine gleichmäßige Verteilung auf die beiden disjunkten Intervalle von 0 bis 1 und 2 bis 3 sieht die CDF folgendermaßen aus.
Die meisten Quantile dieser Verteilung existieren und sind eindeutig, aber der Median (50. Perzentil) ist von Natur aus mehrdeutig. In R gehen sie auf halbem Weg:
quantile(c(runif(100), runif(100) + 2), 0.5)
ergibt ungefähr 1,5.Beispiel 3): Für eine Normalverteilung existieren das 100. und das 0. Perzentil nicht (oder sie sind "" ). Dies liegt daran, dass die normale CDF niemals 0 oder 1 erreicht.±∞
Diskussion von 1): Für "nette" CDs, wie zum Beispiel mit nicht-extremen Quantilen oder kontinuierlichen Verteilungen, existieren die Perzentile und sind einzigartig. Für eine diskrete Verteilung wie die Poisson-Verteilung ist meine Definition jedoch nicht eindeutig, da für die meisten kein mit . Für eine Poisson-Verteilung mit Erwartung 1 sieht die CDF folgendermaßen aus.z/100 y F(y)=z/100
Für das 60. Perzentil gibt R 1 (
quantile(c(rpois(lambda = 1, n = 1000) ), 0.60)
) zurück. Für das 65. Perzentil gibt R ebenfalls 1 zurück. Sie können sich das so vorstellen, dass Sie 100 Beobachtungen zeichnen, diese niedrig bis hoch einstufen und das 60. oder 65. Element zurückgeben. Wenn Sie dies tun, erhalten Sie am häufigsten 1.Wenn es um echte Daten geht, sind alle Verteilungen diskret. (Die empirische CDF von
runif(100)
odernp.random.random(100)
hat 100 Inkremente, die um 0,5 gruppiert sind.) Aber anstatt sie als diskretquantile
zu behandeln, scheint die Funktion von R sie als Stichproben aus kontinuierlichen Verteilungen zu behandeln. Beispielsweise wird der Median (das 50. Perzentil oder 0,5-Quantil) der Probe 3,4, 5, 6, 7, 8 mit 5,5 angegeben. Wenn Sie 2n Samples aus einer Unif (3,8) -Verteilung ziehen und eine beliebige Zahl zwischen dem n-ten und (n + 1) -ten Sample nehmen, konvergieren Sie mit zunehmendem n gegen 5.5.Es ist interessant, auch die diskrete Gleichverteilung mit der gleichen Wahrscheinlichkeit zu betrachten, 3,4,5,6,7,8 zu treffen. (Ein Würfelwurf plus zwei.) Wenn Sie für die Poisson-Verteilung den oben beschriebenen Ansatz von Stichprobe und Rang wählen, erhalten Sie normalerweise 5 oder 6. Wenn die Stichproben größer werden, konvergiert die Verteilung für die Zahl auf halber Höhe zur Hälfte fünf und halb sechs. 5.5 scheint auch hier ein vernünftiger Kompromiss zu sein.
quelle
R
beispielsweise Folgendes einquantile(0)
.Mir wurde beigebracht, dass eine Beobachtung im n-ten Perzentil größer als n% der Beobachtungen im betrachteten Datensatz war. Was für mich bedeutet, dass es kein 0. oder 100. Perzentil gibt. Keine Beobachtung kann größer als 100% der Beobachtungen sein, da sie Teil dieser 100% ist (und eine ähnliche Logik gilt für den Fall von 0).
Bearbeiten: Für das, was es wert ist, ist dies auch im Einklang mit der nicht-akademischen Verwendung des Begriffs, den ich angetroffen habe: "X ist im n-ten Perzentil " impliziert, dass das Perzentil die Gruppe ist, keine Grenze.
Ich habe leider keine Quelle dafür, auf die ich Sie verweisen kann.
quelle
Es gibt andere Möglichkeiten, um Perzentile zu berechnen, was folgt, ist nicht die einzige. Aus dieser Quelle entnommen .
Die Bedeutung von Perzentil kann erfasst werden, indem angegeben wird, dass das te Perzentil einer Verteilung eine Zahl istp , bei der ungefähr Prozent ( ) der Werte in der Verteilung gleich oder kleiner als diese Zahl sind. Wenn das Perzentil einer größeren Anzahl von Zahlen ist, sind % dieser Zahlen kleiner oder gleich . p p % 28 80 80 28 p p% 28 80 80 28
Um Perzentile zu berechnen, sortieren Sie die Daten so, dass der kleinste und der größte Wert ist.x1 xn
Beispiel aus den gleichen Notizen zur Veranschaulichung:
Nein.
ergebend
quelle
Hinweis: Ich akzeptiere die Antwort eines anderen als meine. Aber ich sehe einige nützliche Kommentare, also schreibe ich nur eine Antwort, die diese erwähnt.
Basierend auf Nicks Antwort "-iles" Terminologie für das obere halbe Prozent
es scheint, dass die Ausdrücke mehrdeutig sind, und ich nehme an (basierend auf meinem Verständnis dieses Beitrags), dass eine bessere Terminologie X% Punkt und X% -Y% Gruppe wäre; also Quantilpunkt (also für Quartilpunkte, die zwischen 0 und 4 liegen können); Quantilgruppe von X-Quantilpunkt bis Y-Quantilpunkt.
So oder so würde man 101 für Perzentile erhalten, obwohl ein Kommentar andeutet, dass man sich auf 101 Punkte beziehen könnte (ich nehme an, wenn man Perzentilpunkte und nur ganze Zahlen zählt), aber selbst dann, wenn man von 1., 2., 3., Perzentil oder spricht Quantil, es zählt und man kann das erste nicht als 0 zählen, und Sie können zB nicht mehr als 4 Quartile oder mehr als 100 Perzentile haben. Wenn man also von 1., 2., 3. spricht, kann sich diese Terminologie nicht wirklich auf Punkt 0 beziehen. Wenn jemand den 0. Punkt gesagt hat, dann sollte er, obwohl klar ist, Punkt 0 bedeuten, wirklich Quantilpunkt 0 sagen. Oder Quantilgruppe an Punkt 0. Sogar Informatiker würden nicht 0 sagen. Selbst wenn sie das erste Element als 1 zählen und es als 0 bezeichnen, ist dies eine Indizierung von 0, keine Zählung.
Ein Kommentar erwähnt "Es kann nicht 100 geben. Entweder 99 oder 101, je nachdem, ob Sie Maximum und Minimum zählen". Ich denke, es gibt einen Fall für 99 oder 101, wenn es eher um Quantilpunkte als um Gruppen geht, obwohl ich nicht 0 sagen würde. Für n Elemente kann ein Index von 0 ... n-1 gehen, und man würde das / st, z. B. 1st, 2nd usw., nicht in einen Index schreiben (es sei denn, der Index indiziert das erste Element möglicherweise als 1). Ein Index, der mit dem ersten Element mit dem Index 0 beginnt, ist jedoch keine 1., 2., 3. Zählung. Beispiel: Artikel mit dem Index 0 ist der 1. Artikel, man würde nicht 0 sagen und den 2. Artikel als 1. bezeichnen.
quelle