Wie lese ich Cooks Entfernungsdiagramme?

40

Weiß jemand, wie man herausfindet, ob die Punkte 7, 16 und 29 Einflusspunkte sind oder nicht? Ich habe irgendwo gelesen, dass Cooks Entfernung kleiner als 1 ist, sie aber nicht. Habe ich recht?

Bildbeschreibung hier eingeben

Platypezid
quelle
1
Es gibt verschiedene Meinungen. Einige von ihnen beziehen sich auf die Anzahl der Beobachtungen oder auf die Anzahl der Parameter. Diese sind auf en.wikipedia.org/wiki/… skizziert .
whuber
@whuber Danke. Dies ist immer eine Grauzone, wenn ich Daten exploriere. Der obige Datenpunkt 16 beeinflusst die Modellergebnisse massiv und erhöht so die Typ-I-Fehler.
Platypezid
2
Man könnte argumentieren, dass es auch "Typ III" -Fehler erhöht, die (allgemein und informell) Fehler sind, die mit der Nichtanwendbarkeit des zugrunde liegenden Wahrscheinlichkeitsmodells zusammenhängen.
Whuber
@whuber ja, sehr wahr!
Platypezid

Antworten:

43

4/N4/(Nk1)Nk

John Fox (1) ist in seiner Broschüre zur Regressionsdiagnostik bei der Angabe numerischer Schwellenwerte eher vorsichtig. Er rät zur Verwendung von Grafiken und zur näheren Untersuchung der Punkte mit "Werten von D, die wesentlich größer sind als die übrigen". Laut Fox sollten Schwellenwerte nur zur Verbesserung der grafischen Darstellung verwendet werden.

In Ihrem Fall könnten die Beobachtungen 7 und 16 als einflussreich angesehen werden. Naja, ich würde sie mir wenigstens genauer ansehen. Die Beobachtung 29 unterscheidet sich nicht wesentlich von einigen anderen Beobachtungen.


(1) Fox, John. (1991). Regressionsdiagnose: Eine Einführung . Salbei Veröffentlichungen.


quelle
9
+1 Zusammenfassung löschen. Ich möchte hinzufügen , dass einflussreiche Fälle sind in der Regel nicht ein Problem , wenn ihre Entfernung aus dem Datensatz würde den Parameter verlassen im Wesentlichen unverändert schätzt: die , die wir zu kümmern, deren Präsenz sind wirklich nicht die Ergebnisse ändern.
whuber
1
@lejohn Sehr dankbar für deine Antwort. Whuber hat Recht, ausgezeichnete Klarheit in Ihrer Antwort. Das ist sehr informativ. Könnte ich vorschlagen, dass Sie Fox und Ihre Meinungen auf der Wikipedia-Seite hervorheben!
Platypezid
29

kk+1β0β

Es gibt noch einen weiteren Punkt, den Sie hier ansprechen sollten. In der Beobachtungsforschung ist es oft schwierig, eine einheitliche Stichprobe über den Prädiktorraum zu erstellen, und Sie haben möglicherweise nur wenige Punkte in einem bestimmten Bereich. Solche Punkte können vom Rest abweichen. Einige wenige Fälle zu haben, kann unangenehm sein, aber es lohnt sich, darüber nachzudenken, bevor man als Ausreißer absteigt. Es kann zu Recht eine Interaktion zwischen den Prädiktoren geben, oder das System kann sich anders verhalten, wenn die Prädiktorwerte extrem werden. Darüber hinaus können sie Ihnen möglicherweise dabei helfen, die Auswirkungen von kolinearen Prädiktoren zu entwirren. Einflusspunkte könnten ein Segen in der Verkleidung sein.

gung - Wiedereinsetzung von Monica
quelle
6
+1 "Cooks Distanz ist für Sie vermutlich wichtiger, wenn Sie Vorhersagemodelle durchführen, während dfbeta für erklärende Modelle wichtiger ist": Dies ist ein sehr nützlicher Rat.
Anne Z.
Hallo - interessante Diskussion. Aber kann es nicht sinnvoll sein, eine Dummy-Variable zu integrieren, um den Effekt beispielsweise aus Beobachtung 16 zu messen?
Pantera
@Pantera Ich entfernte 16 und verglich die Pre & Post-Kommissionsmodelle
Platypezid
Hallo - Wenn Sie Beobachtungen entfernen, sollten Sie sicherstellen, dass Sie ein "gutes" Argument dafür haben, zum Beispiel, dass die Beobachtung falsch gemessen wird. Wenn wir die Beobachtung ablehnen, weil sie nur statistische Probleme verursacht, dann stehen wir kurz vor dem Data-Mining.
Pantera