Angenommen, ich habe eine große Stichprobe von Werten in . Ich möchte die zugrunde liegende -Verteilung schätzen . Der Großteil der Proben stammt aus dieser angenommenen -Verteilung, während der Rest Ausreißer sind, die ich bei der Schätzung von und ignorieren möchte .
Was ist ein guter Weg, um dies zu tun?
Wäre der Standard: Formel in Boxplots verwendet eine schlechte Annäherung?
Was wäre ein prinzipiellerer Weg , dies zu lösen? Gibt es bestimmte Prioritäten für und , die bei dieser Art von Problem gut funktionieren würden?
outliers
pymc
beta-distribution
Amelio Vazquez-Reina
quelle
quelle
Antworten:
Sie können von hier aus entweder mit der klassischen MLE- oder der Bayes'schen Schätzung fortfahren. Beides erfordert numerische Techniken. Nachdem Sie die drei Parameter im Modell geschätzt haben, erhalten Sie eine Schätzung von und , die automatisch die Möglichkeit von Ausreißern berücksichtigt. Sie hätten auch eine Schätzung des Anteils der Ausreißer aus dem Mischungsmodell.α β
quelle