Wie man die Definition der empirischen Verteilungsfunktion versteht

7

Ich lese die All of Nonparametric Statistics von Larry Wasserman. Auf Seite 12 definiert er die empirische Verteilungsfunktion als:

Die empirische Verteilungsfunktion Fn^ ist die CDF, die Masse setzt 1n an jedem Datenpunkt Xi. Formal,

Fn^(x)=1ni=1nI(Xix)

wo

I(Xix)={1if Xix0if Xi>x

Meine Fragen sind:

  1. Warum ist 1n Masse genannt?

  2. Die CDF setzt Masse 1n zu jedem Datenpunkt Xidann sollte es nach meinem Verständnis sein 1nX1+1nX2+...+1nXn.

Warum ist es Fn^(x)=1ni=1nI(Xix)? Ich denke, diese Formel bringt Masse1n auf jeder Anzeigefunktion I(Xix) aber nicht Xi.

Was bedeutet "setzt" an jedem Datenpunkt etwas?

Tiefer Norden
quelle

Antworten:

9

Warum ist 1n Masse genannt?

Der Begriff "Masse" bezieht sich auf einen Wahrscheinlichkeitsbetrag an einem einzelnen diskreten Punkt, der sich von "Dichte" in Bezug auf kontinuierliche Verteilungen unterscheidet.

Die CDF setzt Masse 1n zu jedem Datenpunkt Xidann sollte es nach meinem Verständnis sein 1nX1+1nX2+...+1nXn.

Das ist keine Frage, es ist eine Aussage - aber Ihr Verständnis ist in vielerlei Hinsicht gleichzeitig falsch, also kann ich das diskutieren.

Zuerst der Ausdruck 1nX1+1nX2+...+1nXnist eigentlich ein Ausdruck für den Stichprobenmittelwert (als Zufallsvariable) - es bedeutet wörtlich, die Werte zu mitteln . Ich nehme an, Sie wollten hier stattdessen einen Ausdruck für die empirische Wahrscheinlichkeitsfunktion schreiben - aber denken Sie daran, dass es sich um eine Verteilungsfunktion handelt , nicht um die Wahrscheinlichkeitsfunktion, also müssen Sie den Anteil der empirischen Funktion ermitteln Wahrscheinlichkeit, die bei oder links von jedem möglichen Wert von liegtx - So repräsentiert eine Verteilungsfunktion die Wahrscheinlichkeit 1 / n an jedem Punkt:

empirische Wahrscheinlichkeitsfunktion und empirisches cdf

Dies sind zwei verschiedene Darstellungen desselben zugrunde liegenden Objekts. Sie können sehen, dass das empirische pmf bei jedem beobachteten Wert eine Masse von 1 / n zeigt, während das ecdf bei jedem beobachteten Wert eine Höhe zeigt, die um 1 / n zunimmt (und dass dies dem 1 / n-fachen der Summe der Indikatorfunktionen entspricht du erwähntest)

Was bedeutet "setzt" an jedem Datenpunkt etwas?

Ich bin mir nicht ganz sicher, was genau die Schwierigkeit hier verursacht. Die Wörter haben im Wesentlichen ihre gewöhnliche Bedeutung. siehe die Bilder oben, die einen Anteil von zeigen1/n bei jedem beobachteten Wert xi;; Wenn Sie die epmf und die ecdf als pmf bzw. cdf behandeln, sind dies Wahrscheinlichkeiten. Möglicherweise behandelt es F^Als aktive Entität (eine, die Dinge irgendwo "platzieren" kann), die Sie verwirrt - wäre es einfacher zu verstehen, wenn sie "hat" statt "setzt" sagt? Wenn das nicht hilft, müssen Sie klarer machen, was Sie dort erklären müssen.

Glen_b -State Monica
quelle