Ich habe kleine Datensätze mit einer Größe von 40-50 Punkten. Ohne davon auszugehen, dass die Daten normal verteilt sind, wollte ich die Ausreißer mindestens mit 90% iger Sicherheit herausfinden. Ich dachte, Boxplot könnte ein guter Weg sein, aber ich bin mir nicht sicher.
Jede Hilfe geschätzt.
Auch bei Boxplot-Implementierungen konnte ich keine Implementierung finden, die neben dem Zeichnen des Plots die Ausreißer explizit ausspuckt.
Antworten:
Das liegt daran, dass ein solcher Algorithmus nicht existieren kann. Sie benötigen eine angenommene Verteilung, um etwas als außerhalb des Bereichs der erwarteten Werte liegend klassifizieren zu können.
Selbst wenn Sie von einer Normalverteilung ausgehen, ist es ein schwieriges Geschäft, Datenpunkte als Ausreißer zu deklarieren. Im Allgemeinen benötigen Sie nicht nur eine gute Schätzung der tatsächlichen Verteilung, die oft nicht verfügbar ist, sondern auch einen guten theoretisch unterstützten Grund für Ihre Entscheidung (dh das Subjekt hat den Versuchsaufbau irgendwie gebrochen). Ein solches Urteil ist normalerweise in einem Algorithmus nicht zu kodifizieren.
quelle
Dies beantwortet Ihre Frage nicht direkt, aber Sie können etwas lernen, indem Sie sich den
outliers
Datensatz imTeachingDemos
Paket für R ansehen und die Beispiele auf der Hilfeseite durcharbeiten. Dies kann Ihnen ein besseres Verständnis einiger Probleme bei der automatischen Ausreißererkennung geben.quelle
R spuckt die Ausreißer wie in aus
das wird das Boxplot zeichnen und geben
quelle
2*(1-pnorm(4*qnorm(.75)))
[1] 0.006976603
Set.seed(1); out = c();
for(i in 1:100)
x = rnorm(50)
y = boxplot(x, plot=F)
out[i] = length(y$out)>=1}
sum(out)/100
[1] 0.3
set.seed(1); out = c(); for(i in 1:100) {x = rnorm(500); y = boxplot(x, plot=F); out[i] = length(y$out)}; sum(out)/50000
gibt,0.00738
was näher an dem ist, was ich beschrieben habeWie andere gesagt haben, haben Sie die Frage in Bezug auf das Vertrauen schlecht gestellt. Es gibt statistische Tests für Ausreißer wie den Grubbs-Test und den Dixon-Ratio-Test, auf die ich in einem anderen Beitrag Bezug genommen habe. Sie gehen davon aus, dass die Bevölkerungsverteilung normal ist, obwohl der Dixon-Test gegenüber der Normalitätsannahme in kleinen Stichproben robust ist. Ein Boxplot ist eine nette informelle Möglichkeit, Ausreißer in Ihren Daten zu erkennen. Normalerweise werden die Whisker auf das 5. und 95. Perzentil eingestellt, und Beobachtungen, die über die Whisker hinaus aufgezeichnet werden, werden normalerweise als mögliche Ausreißer angesehen. Dies beinhaltet jedoch keine formalen statistischen Tests.
quelle