Warum verwendet ecdf eine Sprungfunktion und keine lineare Interpolation?

12

Empirische CDF-Funktionen werden üblicherweise durch eine Sprungfunktion geschätzt. Gibt es einen Grund, warum dies so gemacht wird und nicht durch Verwendung einer linearen Interpolation? Hat die Stufenfunktion interessante theoretische Eigenschaften, die uns bevorzugen?

Hier ist ein Beispiel für die beiden:

ecdf2 <- function (x) {
  x <- sort(x)
  n <- length(x)
  if (n < 1) 
    stop("'x' must have 1 or more non-missing values")
  vals <- unique(x)
  rval <- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, 
                    method = "linear", yleft = 0, yright = 1, f = 0, ties = "ordered")
  class(rval) <- c("ecdf", class(rval))
  assign("nobs", n, envir = environment(rval))
  attr(rval, "call") <- sys.call()
  rval
}


set.seed(2016-08-18)
a <- rnorm(10)
a2 <- ecdf(a)
a3 <- ecdf2(a)

par(mfrow = c(1,2))
curve(a2, -2,2, main = "step function ecdf")
curve(a3, -2,2, main = "linear interpolation function ecdf")

Bildbeschreibung hier eingeben

Tal Galili
quelle
Related ...................................
8
"... geschätzt durch eine Schrittfunktion" widerlegt ein subtiles Missverständnis: Der ECDF wird nicht nur durch eine Schrittfunktion geschätzt ; es ist per definitionem eine solche Funktion. Sie ist identisch mit der CDF einer Zufallsvariablen. Definieren Sie bei einer beliebigen endlichen Folge von Zahlen einen Wahrscheinlichkeitsraum ( Ω , S , P ) mit Ω = { 1 , 2 , ... , n } , S diskret und Px1,x2,,xn(Ω,S,P)Ω={1,2,,n}SPUniform. Sei die Zufallsvariable, die x i zu i zuordnet . Die ECDF ist der CDF von X . Diese enorme konzeptionelle Vereinfachung ist ein überzeugendes Argument für die Definition. XxiiX
Whuber

Antworten:

21

Es ist per Definition.

Die empirische Verteilungsfunktion einer Menge von Beobachtungen ist definiert durch(Xn)

Fe(t)=#{XnXnt}n

Wobei die eingestellte Kardinalität ist. Dies ist von Natur aus eine Sprungfunktion. Es konvergiert fast sicher mit der tatsächlichen CDF# .

Beachten Sie auch, dass für jede Verteilung mit für mindestens zwei x (insbesondere nicht entartete diskrete Verteilungen) Ihre ECDF-Variante nicht zur tatsächlichen CDF konvergiert. Betrachten Sie zum Beispiel eine Bernoulli-Distribution mit CDFP(X=x)0x

ist dies eine Schrittfunktion während ecdf2 konvergieren zu χ x 0( p + ( 1 - p ) min ( x , 1 ) ) (eine stückweise lineare Funktion, die ( 0 , p ) und ( 1 , 1 ) verbindet

FX(x)=pχx0+(1p)χx1
χx0(p+(1p)min(x,1))(0,p)(1,1).
AlexR
quelle
Danke Alex. Gibt es einen anderen Namen für die Funktion, die ich geschrieben habe? (weil ich vermute, dass es auch zur tatsächlichen CDF konvergiert)
Tal Galili
5
@ TalGalili Das tut es nicht. Betrachten Sie eine Bernoulli-Verteilung. Dein ecdf2 konvergiert in diesem Fall nicht. Man könnte es ein geglättetes ecdf nennen. Ich vermute, es wird zur tatsächlichen CDF konvergieren, wenn die tatsächliche CDF keine Punkte mit einer Wahrscheinlichkeit ungleich Null außer für extreme Punkte (wo Sie nicht glätten) hat
AlexR
@AlexR Sie können Ihre Antwort bearbeiten, um diesen Kommentar hinzuzufügen, da diskrete Verteilungen der Grund für diese eindeutige Antwort sind.
Tim
1
@ Tim Fertig.
AlexR
Vielen Dank. Gibt es eine Möglichkeit, eine stetige empirische Funktion zu definieren, die zur Sprungfunktion konvergiert, aber vollständig monoton ist (dh ohne scharfe "Sprünge")?
Tal Galili