Nach meinem Verständnis misst Cooks Abstand den Einfluss jeder Beobachtung, indem Punkte bei der Anpassung eines Modells ausgeschlossen werden. Ich gehe also davon aus, dass dies ein vernünftiger Ansatz für die Erkennung von Ausreißern sein könnte.
Meine Fragen, vorausgesetzt, die Daten sind in Gruppen eingeteilt. Ist es möglich, Cooks Entfernung zum Erkennen der "Ausreißer" -Gruppe anstelle des Ausreißerpunkts zu verwenden? Ist Cooks Abstand eine gute Wahl für den Einfluss von Messgruppen?
influence()
. Ich habe noch eine Frage zur Schwelle. Da das übliche 4 / N "zu empfindlich" ist, erkennt man Ausreißer, während ich mich nur um extrem einflussreiche Gruppen / Punkte kümmere. @ JchaykowAntworten:
Wie Sie sagten, misst Cook's Distance die Änderung der Regression, indem jeder einzelne Punkt entfernt wird. Wenn sich die Dinge durch das Weglassen eines einzelnen Punktes erheblich ändern, hatte dieser Punkt großen Einfluss auf Ihr Modell. Definieren Sie als den angepassten Wert für die j-te Beobachtung, wenn die i-te Beobachtung aus dem Datensatz gelöscht wird. Cook's Distance misst, wie sehr alle Vorhersagen ändere.Y.^j ( i ) ich
Wenn , ist es extrem (für kleine bis mittlere Datensätze).D.ich≥ 1
Cook's Distance zeigt die Auswirkung des i-ten Falls auf alle angepassten Werte. Beachten Sie, dass der i-te Fall durch beeinflusst werden kann
großes und mäßigeseich hi i
mäßiges und großeseich hi i
big und bigeich hi i
Verwenden Sie in R das
influence.measures
Paket mitcooks.distance(model)
quelle
Cooks D ist bei der Erkennung von Ausreißerclustern unwirksam, da das Entfernen eines dieser Ausreißer das Modell nicht zu stark beeinflusst (es gibt noch andere Ausreißer).
Sie können den Rest als Maß verwenden, das für Cluster empfindlich ist. Eine einfache Implementierung von k-means ist ebenfalls effektiv.
quelle