Ausreißererkennung in Beta-Distributionen

Angenommen, ich habe eine große Stichprobe von Werten in $[0,1]$ . Ich möchte die zugrunde liegende $\text{Beta}(\alpha, \beta)$ -Verteilung schätzen . Der Großteil der Proben stammt aus dieser angenommenen $\text{Beta}(\alpha, \beta)$ -Verteilung, während der Rest Ausreißer sind, die ich bei der Schätzung von $\alpha$ und ignorieren möchte $\beta$ .

Was ist ein guter Weg, um dies zu tun?

Wäre der Standard: $\text{Inliers} = \left\{x \in [Q1 - 1.5\, \text{IQR}, Q3 + 1.5 \,\text{IQR}] \right\}$ Formel in Boxplots verwendet eine schlechte Annäherung?

Was wäre ein prinzipiellerer Weg , dies zu lösen? Gibt es bestimmte Prioritäten für $\alpha$ und $\beta$ , die bei dieser Art von Problem gut funktionieren würden?

Geben Sie hier die Bildbeschreibung ein

outliers pymc beta-distribution Amelio Vazquez-Reina
quelle

Sehen Sie die Antwort gepostet hier . Sobald die Ausreißer markiert wurden, entfernen Sie sie und verwenden Sie die MLE-Verteilungsanpassung für die verbleibenden Beobachtungen. Es wird aus den unter dem Link erläuterten Gründen genauer sein.

Benutzer603

Antworten:

$\alpha$ $\beta$

$\phi$ $X_1, ..., X_n \sim \phi \cdot \text{U}(0, 1) + (1- \phi) \cdot \text{Beta}(\alpha, \beta)$

L_{x} (α, β, ϕ) = \prod_{i = 1}^{n} (ϕ + (1 - ϕ) \frac{Γ (α + β)}{Γ (α) Γ (β)} x_{i}^{α - 1} (1 - x_{i})^{β - 1}) .

$L_\boldsymbol{x}(\alpha, \beta, \phi) = \prod_{i=1}^n \left( \phi + (1 - \phi) \frac{\Gamma (\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)} x_i^{\alpha - 1} (1-x_i)^{\beta - 1} \right).$

Sie können von hier aus entweder mit der klassischen MLE- oder der Bayes'schen Schätzung fortfahren. Beides erfordert numerische Techniken. Nachdem Sie die drei Parameter im Modell geschätzt haben, erhalten Sie eine Schätzung von und , die automatisch die Möglichkeit von Ausreißern berücksichtigt. Sie hätten auch eine Schätzung des Anteils der Ausreißer aus dem Mischungsmodell. $\alpha$ $\beta$

Ben - Monica wieder einsetzen
quelle