Schätzung des Parameters der Exponentialverteilung mit gruppierten Daten

8

Ich habe die folgenden Daten, die durch Exponentialverteilung modelliert werden können

Time        0-20  20-40    40-60  60-90   90-120    120-inf
Frequency   41     19       16      13        9        2

Um zu testen, ob die Daten der Exponentialverteilung folgen, verwende ich eine Chi-Quadrat-Teststatistik. Dafür muss ich aber auch Lambda berechnen ( ). $MLE = \frac{1}{\bar X}$

Meine Frage lautet also: Wie sollen wir den Mittelpunkt des Intervalls wählen, wenn das letzte Intervall zwischen 120 und unendlich liegt?

estimation chi-squared mean exponential binning Daniel Yefimov
quelle

10

Ich würde den Mittelpunkt für keines dieser Intervalle verwenden (vielleicht als erste Vermutung für ein iteratives Verfahren).

Wenn die Daten tatsächlich aus einer Exponentialverteilung stammen, sollten die Werte in jedem Bin rechtwinklig sein. Es wird erwartet, dass der Mittelwert vom Durchschnitt der Behältergrenzen übrig bleibt.

Beachten Sie, dass die Gleichung geeignet ist, wenn Sie alle Daten haben. Bei gruppierten Daten müssen Sie die Wahrscheinlichkeit für ein gruppiertes (dh intervallzensiertes) Exponential maximieren. $\hat{\lambda}=\frac{1}{\bar{X}}$

[Der Beitrag zur log-Wahrscheinlichkeit der Beobachtungen in bin - jene zwischen und - ist (wobei die beiden Terme in Funktionen des Parameters sind (s) der Verteilung).] $n_i$ $i$ $l_i$ $u_i$ $n_i \log(F(l_i)-F(u_i))$ $F$

Wegen des Fehlens von Speichereigenschaft der exponentiellen, wenn Sie eine gute Näherung für den Mittelwert der exponentiellen haben haben Sie auch eine gute Annäherung des Betrages , um den der Mittelwert der Verteilung über eine bestimmten Wert übersteigt . $x_0$ $x_0$

Wenn Sie also nicht direkt die Wahrscheinlichkeit * für die vom Intervall zensierten Daten maximieren, wie ich vorgeschlagen habe), können Sie mit einer ungefähren Schätzung des Mittelwerts ( sagen) beginnen und als "Zentrum" des oberen Schwanzes. $m^{(0)}$ $120+m^{(0)}$

Dies könnte dann verwendet werden, um eine bessere Schätzung des Parameters (und damit des Mittelwerts) zu erhalten und so eine verbesserte Schätzung des bedingten Mittelwerts in jedem Behälter einschließlich des obersten zu erhalten. [Wenn Sie einen solchen Ansatz wollen, würde ich mich vielleicht dazu neigen, EM direkt zu machen.]

Mehrere einfache Schätzungen des Mittelwerts können schnell erhalten werden. Da beispielsweise 41% der Werte unter 20 liegen, ist , was einer Schätzung des mittleren entspricht bis . Alternativ kann man eine schnelle Augapfelschätzung des Medians erhalten (etwas weniger als 30, vielleicht ungefähr 28), so dass der Mittelwert irgendwo in der Nähe von oder ungefähr . $\exp(-\frac{20}{\hat{\lambda}^{(0)}})=1-0.41$ $38$ $28/\log(2)$ $40$

Beides wäre sinnvoll, um zunächst zu erraten, wie weit über 120 eine Schätzung für den bedingten Mittelwert für den letzten Behälter liegt.

* Eine Alternative zur Maximierung der Wahrscheinlichkeit wäre die Minimierung der Chi-Quadrat-Statistik. In diesem Fall würde dieselbe Anpassung an df verwendet. Die Chi-Quadrat-Statistik ist relativ einfach zu berechnen und für einen einzelnen Parameter recht einfach zu optimieren:

Glen_b -State Monica
quelle

8

Aus theoretischer Sicht würde die Wahrscheinlichkeit der Stichprobe, die Sie erhalten haben, wie geschrieben werden: wobei die Behältergrenzen sind (unter der Annahme, dass jeder Behälter die Wahrscheinlichkeit darstellt, ) und ist die Anzahl der Beobachtungen in bin . Hier haben Sie Bins mit und . Im Allgemeinen erfordert die Maximierung der Log-Wahrscheinlichkeit dieses Ausdrucks einen numerischen Ansatz. Verwenden von

L (λ ∣ x) = \prod_{j = 1}^{m} (e^{- λ x_{j - 1}} - e^{- λ x_{j}})^{n_{j}},

$\mathcal L(\lambda \mid \boldsymbol x) = \prod_{j=1}^m (e^{-\lambda x_{j-1}} - e^{-\lambda x_{j}})^{n_j},$

(x_{0}, x_{1}, \dots, x_{m})

$(x_0, x_1, \ldots, x_m)$

x_{j - 1} < X \leq x_{j}

$x_{j-1} < X \le x_j$

n_{j}

$n_j$

j

$j$

m = 6

$m = 6$

(x_{0}, x_{1}, \dots, x_{m}) = (0, 20, 40, 60, 90, 120, \infty)

$(x_0, x_1, \ldots, x_m) = (0, 20, 40, 60, 90, 120, \infty)$

(n_{1}, \dots, n_{m}) = (41, 19, 16, 13, 9, 2)

$(n_1, \ldots, n_m) = (41, 19, 16, 13, 9, 2)$ Mathematica , ich habe die Ableitung der log-Wahrscheinlichkeit als Dies ergibt die numerische Lösung

\frac{\partial ℓ}{\partial λ} = \frac{760}{\sinh 10 λ + \sinh 20 λ} + 1090 \coth 15 λ - 3940.

$\frac{\partial \ell}{\partial \lambda} = \frac{760}{\sinh 10 \lambda +\sinh 20 \lambda} + 1090 \coth 15 \lambda - 3940.$

\hat{λ} \approx 0.025562426096803193.

$\hat\lambda \approx 0.025562426096803193.$

Heropup
quelle

1

(+1) Also ein Mittelwert von "nahe 38" oder "um 40" :)

Scortchi - Reinstate Monica

1

Wenn Sie an einer geschlossenen, einfachen Schätzung interessiert sind, kann der UWSE (Unique Weight Space Estimator) hilfreich sein. Insbesondere wenn die relative Häufigkeit von Beobachtungen im Intervall , dann: $\ \hat{w_{[0,20]}}\$ $\ [0,20] \$

\hat{λ_{U W S E}} = - \frac{l n (1 - \hat{w_{[0, 20]}})}{20}

$\ \hat{\lambda_{UWSE}} = -\frac{ln(1-\hat{w_{[0,20]}})}{20} \$

In diesem Fall ist und damit $\ \hat{w_{[0,20]}} = 0.41\$

\hat{λ_{U W S E}} = 0.02638164

$\ \hat{\lambda_{UWSE}} = 0.02638164 \$

Alles, was von der UWSE gesagt werden kann, ist, dass es sich um eine konsistente Schätzung handelt. Hier ist ein Link zur vollständigen Erklärung des Schätzers: https://paradsp.wordpress.com/ - Scrollen Sie ganz nach unten.

CYP450
quelle

Dies ist eine interessante Idee, aber es sieht so aus, als ob sie nicht für Situationen gedacht war, in denen Sie weit mehr Informationen haben, als Sie tatsächlich verwenden. Im vorliegenden Fall gibt es sechs nicht überlappende Behälter. Es wäre eine Schande, fünf dieser Zählungen willkürlich zu ignorieren.

whuber

1

Du liegst absolut richtig. Die UWSE sollte nur minimale Informationen verarbeiten. Es wäre interessant zu sehen, welche anderen Anwendungen entstehen. In diesem Fall dachte ich, es wäre vorteilhaft für diejenigen, die nicht in die numerische Arbeit einsteigen wollen. @Glen_b erklärt dies oben, fällt aber letztendlich unter die Kategorie UWSE - was allgemeiner ist.

CYP450

Schätzung des Parameters der Exponentialverteilung mit gruppierten Daten

Antworten: