Ich versuche, den Sprung von der Idee eines Perzentils zu machen, beispielsweise über die reelle Zahlenlinie (wobei das n-te Perzentil einfach die Position ist, an der n% der Datenpunkte darunter und 100-n% darüber liegen ) auf die Idee des Gebiets unter einer Wahrscheinlichkeitsdichtefunktion.
Wenn ich das 50% -Perzentil aus einer Reihe von Zahlen wissen möchte, finde ich den Punkt, an dem die Hälfte der Zahlen unten und die Hälfte der Zahlen oben liegt. Das ist das 50% -Perzentil, und ich bin fertig.
Wenn ich das 50% -Perzentil aus einer Verteilung, beispielsweise einem Z-Score, wissen möchte, bewerte ich das PDF von 0 bis 50 und bin fertig. Sage ich das richtig?
Das fühlt sich intuitiv richtig an, aber ich brauche eine Diskussion, um es nach Hause zu bringen. Oder ich könnte völlig aus sein ...
quelle
Nein. Im Wesentlichen entspricht die Berechnung eines Perzentils (oder eines p-Quantils) dem Auffinden der Inversen einer CDF.
Beachten Sie, dass die Umkehrung einer CDF im üblichen Sinne möglicherweise nicht existiert und der Begriff der verallgemeinerten Umkehrung eingeführt werden sollte. Um die Diskussion zu präzisieren, klären wir alle Definitionen.
Definition: Eine CDF ist eine Funktion , die die folgenden Bedingungen erfüllt:F:[−∞,∞]→[0,1]
(Zunehmend) Für jedes , wenn , dann ,x < y F ( x ) ≤ F ( y )x,y∈[−∞,∞] x<y F(x)≤F(y)
(Rechtskontinuität) Für jedes haben wir ,a∈R F(a)=limx→a+F(x)
Wir haben mindestens zwei Versionen der verallgemeinerten Inversen von , die mit und bezeichnet sind und wie folgt definiert sind.F Inv1F Inv2F
Hier übernehmen wir die Konvention .inf(∅)=∞
Wenn ich mich richtig erinnere, wird bei das einfach als .p∈[0,1] p Inv1F(p)
Wenn streng ansteigt und stetig ist, sind natürlich beide Versionen der verallgemeinerten Inversen gleich und reduzieren sich auf die übliche Inverse der FunktionF F−1:[0,1]→[−∞,∞].
Für weitere Informationen: https://people.math.ethz.ch/~embrecht/ftp/generalized_inverse.pdf
quelle