Genaue Bedeutung und Vergleich zwischen Einflusspunkt, High Leverage Point und Ausreißer?

15

Aus Wikipedia

Einflussreiche Beobachtungen sind Beobachtungen, die einen relativ großen Einfluss auf die Vorhersagen des Regressionsmodells haben.

Aus Wikipedia

Hebelpunkte sind die Beobachtungen, falls vorhanden, die bei extremen oder abweichenden Werten der unabhängigen Variablen gemacht wurden, so dass das angepasste Regressionsmodell aufgrund des Fehlens benachbarter Beobachtungen dieser bestimmten Beobachtung nahe kommt.

Warum ist der folgende Vergleich aus Wikipedia

Obwohl ein Einflusspunkt normalerweise einen hohen Hebel aufweist , ist ein hoher Hebel nicht unbedingt ein Einflusspunkt .

Tim
quelle
2
Die Antworten unten sind gut. Es kann auch hilfreich sein, meine Antwort hier zu lesen: plot.lm () interpretieren .
gung - Wiedereinsetzung von Monica

Antworten:

13

Stellen Sie sich eine Regressionslinie vor, die an einige Daten angepasst ist.

Stellen Sie sich nun einen zusätzlichen Datenpunkt vor, einen Ausreißer in einiger Entfernung vom Hauptteil der Daten, der jedoch irgendwo entlang dieser Regressionslinie liegt.

Wenn die Regressionsgerade angepasst würde, würden sich die Koeffizienten nicht ändern. Umgekehrt hätte das Löschen des zusätzlichen Ausreißers keinen Einfluss auf die Koeffizienten.

Ein Ausreißer oder Hebelpunkt hätte also keinen Einfluss, wenn er mit den übrigen Daten und dem Modell, das der Rest impliziert, in perfekter Übereinstimmung stünde.

Wenn gewünscht, lesen Sie für "Linie" "Ebene" oder "Hyperebene", aber das einfachste Beispiel von zwei Variablen und einem Streudiagramm ist hier ausreichend.

Da Sie jedoch gerne Definitionen verwenden - anscheinend wird häufig zu viel in sie hineingelesen -, sind hier meine bevorzugten Definitionen von Ausreißern:

"Ausreißer sind Stichprobenwerte, die in Bezug auf den Großteil der Stichprobe für Überraschungen sorgen" (WN Venables und BD Ripley. 2002. Moderne angewandte Statistik mit S. New York: Springer, S.119).

Entscheidend ist, dass der Betrachter an Überraschungen denkt und von einem stillschweigenden oder expliziten Modell der Daten abhängig ist. Es kann ein anderes Modell geben, bei dem der Ausreißer überhaupt nicht überrascht, wenn die Daten tatsächlich lognormal oder gamma sind und nicht normal.

PS Ich denke nicht, dass Hebelpunkte notwendigerweise benachbarte Beobachtungen vermissen lassen. Beispielsweise können sie paarweise auftreten.

Nick Cox
quelle
Vielen Dank! Sind Ausreißer und hohe Hebelpunkte dasselbe Konzept? Beachten Sie, dass "Der Hebel ist in der Regel als die Diagonale der Hutmatrix
Tim
1
Nein; Sie haben uns keine Definition von "Ausreißer" gezeigt, aber aus der Definition der Hebelpunkte folgt, dass es sich nicht um Ausreißer im Sinne von Venables und Ripley handeln muss. (Ich empfehle, dass Sie versuchen, sich von Wikipedia zu entwöhnen.) Siehe auch die Antwort von @ Gael.
Nick Cox
1
"Entscheidend ist, dass der Betrachter an Überraschungen denkt und diese von einem stillschweigenden oder expliziten Modell der Daten abhängen. Es kann auch ein anderes Modell geben, bei dem der Ausreißer überhaupt nicht überrascht, wenn die Daten tatsächlich lognormal oder gamma sind normal." So werden Ausreißer für ein bestimmtes Modell definiert, hohe Hebelpunkte und Einflusspunkte hingegen nicht?
Tim,
1
Venables und Ripley machten, wie ich es las, auf witzige Weise einen intelligenten Punkt und unterminierten die naive Vorstellung, dass Ausreißer durch exakte, formale Aussagen definiert werden können. Aber andere Behandlungen können in verschiedenen Stilen gefunden werden. Im Gegensatz dazu können Hebel und Einfluss formal definiert werden, indem man sie misst. Die beiden Arten der Terminologie sind nicht wirklich konsistent. Um eine bessere Vorstellung davon zu bekommen, was Ausreißer sind und was nicht, lehrt die Erfahrung der tatsächlichen Datenanalyse mehr als das Lesen von Enzyklopädieeinträgen.
Nick Cox
Gael verwies auf den Kommentar vom 29. Juli 2013 und verwendet nun die Kennung @Gala. Zum Zeitpunkt des Schreibens gibt es nur eine andere Antwort, aber das kann sich ändern.
Nick Cox
20

Es ist leicht zu veranschaulichen, wie ein hoher Hebelpunkt im Fall eines einfachen linearen Modells möglicherweise keinen Einfluss hat:

Hoher Hebel, aber nicht zu einflussreich

Die blaue Linie ist eine Regressionslinie, die auf allen Daten basiert. Die rote Linie ignoriert den Punkt oben rechts im Diagramm.

Dieser Punkt entspricht der Definition eines Punkts mit hohem Hebel, den Sie gerade angegeben haben, da er weit vom Rest der Daten entfernt ist. Aus diesem Grund muss die Regressionslinie (die blaue) nahe daran verlaufen. Da seine Position jedoch weitgehend mit dem in den übrigen Daten beobachteten Muster übereinstimmt, würde das andere Modell dies sehr gut vorhersagen (dh die rote Linie verläuft ohnehin schon in der Nähe) und ist daher nicht besonders einflussreich.

Vergleichen Sie dies mit dem folgenden Streudiagramm:

Hoher Hebel stark einflussreicher Punkt

Hier ist der Punkt auf der rechten Seite des Diagramms immer noch ein hoher Hebelpunkt, diesmal entspricht er jedoch nicht wirklich dem in den restlichen Daten beobachteten Muster. Die blaue Linie (die auf allen Daten basierende lineare Anpassung) verläuft sehr eng, die rote Linie jedoch nicht. Das Einbeziehen oder Ausschließen dieses einen Punktes ändert die Parameterschätzungen dramatisch: Es hat einen großen Einfluss.

Beachten Sie, dass die Definitionen, die Sie zitiert haben, und die Beispiele, die ich gerade gegeben habe, möglicherweise implizieren, dass hohe Hebel- / Einflusspunkte in gewissem Sinne univariate „Ausreißer“ sind und dass die angepasste Regressionslinie in der Nähe der Punkte mit dem höchsten Einfluss verläuft, den sie jedoch benötigt nicht der Fall sein.

Versteckter sehr einflussreicher Punkt

In diesem letzten Beispiel hat die Beobachtung unten rechts einen (relativ) großen Einfluss auf die Passform des Modells (wieder sichtbar durch den Unterschied zwischen der roten und der blauen Linie), scheint aber immer noch weit von der Regressionslinie entfernt zu sein in univariaten Distributionen nicht nachweisbar (hier durch die „Teppiche“ entlang der Achsen dargestellt).

Gala
quelle
Vielen Dank! Stimmt der hier verwendete hohe Hebelpunkt mit "der Hebel ist normalerweise als die Diagonale der Hutmatrix definiert" von en.wikipedia.org/wiki/Partial_leverage überein ?
Tim
Hervorragende Erklärung. Würde mich sehr freuen, wenn Sie auch die Daten für alle drei Fälle zur Verfügung stellen. Vielen Dank
MYaseen208