Ist die Berechnung eines Perzentils gleichbedeutend mit der Bewertung einer kumulativen Dichtefunktion?

8

Ich versuche, den Sprung von der Idee eines Perzentils zu machen, beispielsweise über die reelle Zahlenlinie (wobei das n-te Perzentil einfach die Position ist, an der n% der Datenpunkte darunter und 100-n% darüber liegen ) auf die Idee des Gebiets unter einer Wahrscheinlichkeitsdichtefunktion.

Wenn ich das 50% -Perzentil aus einer Reihe von Zahlen wissen möchte, finde ich den Punkt, an dem die Hälfte der Zahlen unten und die Hälfte der Zahlen oben liegt. Das ist das 50% -Perzentil, und ich bin fertig.

Wenn ich das 50% -Perzentil aus einer Verteilung, beispielsweise einem Z-Score, wissen möchte, bewerte ich das PDF von 0 bis 50 und bin fertig. Sage ich das richtig?

Das fühlt sich intuitiv richtig an, aber ich brauche eine Diskussion, um es nach Hause zu bringen. Oder ich könnte völlig aus sein ...

Matt O'Brien
quelle

Antworten:

5

Sie sind nah dran, aber nicht genau richtig. Denken Sie daran, dass die Fläche unter einer Wahrscheinlichkeitsverteilung zu 1 summieren muss. Die kumulative Dichtefunktion (CDF) ist eine Funktion mit Werten in [0,1], da CDF definiert ist als wobei f (x) die Wahrscheinlichkeitsdichtefunktion ist. Dann ist das 50. Perzentil die Gesamtwahrscheinlichkeit von 50% der Proben, was den Punkt bedeutet, an dem CDF 0,5 erreicht. Allgemeiner ausgedrückt ist das p-te Perzentil der Punkt, an dem die CDF p / 100 erreicht.

F(a)=af(x)dx
Goker
quelle
3
Vielleicht lohnt es sich darauf hinzuweisen, wie nahe das OP gekommen ist - anstatt "eine CDF zu bewerten ", sollten sie eine inverse CDF bewerten .
Silverfish
1
so nah und doch so fern ... :)
Matt O'Brien
Im Allgemeinen kann die Umkehrung einer CDF (im üblichen Sinne, dh die Umkehrung einer Funktion) nicht existieren. Wir sollten die sogenannte generalisierte Inverse (oder Pseudo-Inverse) einer CDF betrachten.
Danny Pak-Keung Chan
1

Nein. Im Wesentlichen entspricht die Berechnung eines Perzentils (oder eines p-Quantils) dem Auffinden der Inversen einer CDF.

Beachten Sie, dass die Umkehrung einer CDF im üblichen Sinne möglicherweise nicht existiert und der Begriff der verallgemeinerten Umkehrung eingeführt werden sollte. Um die Diskussion zu präzisieren, klären wir alle Definitionen.

Definition: Eine CDF ist eine Funktion , die die folgenden Bedingungen erfüllt:F:[,][0,1]

  1. (Zunehmend) Für jedes , wenn , dann ,x < y F ( x ) F ( y )x,y[,]x<yF(x)F(y)

  2. (Rechtskontinuität) Für jedes haben wir ,aRF(a)=limxa+F(x)

  3. F()=limxF(x)=0 und

  4. F()=limxF(x)=1 .

Wir haben mindestens zwei Versionen der verallgemeinerten Inversen von , die mit und bezeichnet sind und wie folgt definiert sind.FInv1FInv2F

Inv1F:[0,1][,] , definiert durchInv1F(x)=inf{yF(y)x},

Inv2F:[0,1][,] , definiert durch .Inv2F(x)=inf{yF(y)>x}

Hier übernehmen wir die Konvention .inf()=

Wenn ich mich richtig erinnere, wird bei das einfach als .p[0,1]pInv1F(p)

Wenn streng ansteigt und stetig ist, sind natürlich beide Versionen der verallgemeinerten Inversen gleich und reduzieren sich auf die übliche Inverse der FunktionFF1:[0,1][,].

Für weitere Informationen: https://people.math.ethz.ch/~embrecht/ftp/generalized_inverse.pdf

Danny Pak-Keung Chan
quelle