Wie man die Definition der empirischen Verteilungsfunktion versteht

Ich lese die All of Nonparametric Statistics von Larry Wasserman. Auf Seite 12 definiert er die empirische Verteilungsfunktion als:

Die empirische Verteilungsfunktion $\hat{F_n}$ ist die CDF, die Masse setzt $\frac{1}{n}$ an jedem Datenpunkt $X_i$ . Formal,

\hat{F_{n}} (x) = \frac{1}{n} \sum_{i = 1}^{n} I (X_{i} \leq x)

$\hat{F_n}(x)=\frac{1}{n}\sum^{n}_{i=1}I(X_i\le x)$

I (X_{i} \leq x) = {\begin{matrix} 1 & i f X_{i} \leq x \\ 0 & i f X_{i} > x \end{matrix}

$I(X_i\le x)=\left\{\begin{matrix} 1& if\ X_i \le x\\ 0 & if \ X_i>x \end{matrix}\right.$

Meine Fragen sind:

Warum ist $\frac{1}{n}$ Masse genannt?
Die CDF setzt Masse $\frac{1}{n}$ zu jedem Datenpunkt $X_i$ dann sollte es nach meinem Verständnis sein $\frac{1}{n}X_1+\frac{1}{n}X_2+...+\frac{1}{n}X_n$ .

Warum ist es $\hat{F_n}(x)=\frac{1}{n}\sum^{n}_{i=1}I(X_i\le x)$ ? Ich denke, diese Formel bringt Masse $\frac{1}{n}$ auf jeder Anzeigefunktion $I(X_i \le x)$ aber nicht $X_i$ .

Was bedeutet "setzt" an jedem Datenpunkt etwas?

distributions nonparametric Tiefer Norden
quelle

Warum ist $\frac{1}{n}$ Masse genannt?

Der Begriff "Masse" bezieht sich auf einen Wahrscheinlichkeitsbetrag an einem einzelnen diskreten Punkt, der sich von "Dichte" in Bezug auf kontinuierliche Verteilungen unterscheidet.

Die CDF setzt Masse $\frac{1}{n}$ zu jedem Datenpunkt $X_i$ dann sollte es nach meinem Verständnis sein $\frac{1}{n}X_1+\frac{1}{n}X_2+...+\frac{1}{n}X_n$ .

Das ist keine Frage, es ist eine Aussage - aber Ihr Verständnis ist in vielerlei Hinsicht gleichzeitig falsch, also kann ich das diskutieren.

Zuerst der Ausdruck $\frac{1}{n}X_1+\frac{1}{n}X_2+...+\frac{1}{n}X_n$ ist eigentlich ein Ausdruck für den Stichprobenmittelwert (als Zufallsvariable) - es bedeutet wörtlich, die Werte zu mitteln . Ich nehme an, Sie wollten hier stattdessen einen Ausdruck für die empirische Wahrscheinlichkeitsfunktion schreiben - aber denken Sie daran, dass es sich um eine Verteilungsfunktion handelt , nicht um die Wahrscheinlichkeitsfunktion, also müssen Sie den Anteil der empirischen Funktion ermitteln Wahrscheinlichkeit, die bei oder links von jedem möglichen Wert von liegt $x$ - So repräsentiert eine Verteilungsfunktion die Wahrscheinlichkeit 1 / n an jedem Punkt:

Dies sind zwei verschiedene Darstellungen desselben zugrunde liegenden Objekts. Sie können sehen, dass das empirische pmf bei jedem beobachteten Wert eine Masse von 1 / n zeigt, während das ecdf bei jedem beobachteten Wert eine Höhe zeigt, die um 1 / n zunimmt (und dass dies dem 1 / n-fachen der Summe der Indikatorfunktionen entspricht du erwähntest)

Was bedeutet "setzt" an jedem Datenpunkt etwas?

Ich bin mir nicht ganz sicher, was genau die Schwierigkeit hier verursacht. Die Wörter haben im Wesentlichen ihre gewöhnliche Bedeutung. siehe die Bilder oben, die einen Anteil von zeigen $1/n$ bei jedem beobachteten Wert $x_i$ ;; Wenn Sie die epmf und die ecdf als pmf bzw. cdf behandeln, sind dies Wahrscheinlichkeiten. Möglicherweise behandelt es $\hat{F}$ Als aktive Entität (eine, die Dinge irgendwo "platzieren" kann), die Sie verwirrt - wäre es einfacher zu verstehen, wenn sie "hat" statt "setzt" sagt? Wenn das nicht hilft, müssen Sie klarer machen, was Sie dort erklären müssen.

Glen_b -State Monica
quelle

Wie man die Definition der empirischen Verteilungsfunktion versteht

Antworten: