Einflussreiche Beobachtungen sind Beobachtungen, die einen relativ großen Einfluss auf die Vorhersagen des Regressionsmodells haben.
Hebelpunkte sind die Beobachtungen, falls vorhanden, die bei extremen oder abweichenden Werten der unabhängigen Variablen gemacht wurden, so dass das angepasste Regressionsmodell aufgrund des Fehlens benachbarter Beobachtungen dieser bestimmten Beobachtung nahe kommt.
Warum ist der folgende Vergleich aus Wikipedia
Obwohl ein Einflusspunkt normalerweise einen hohen Hebel aufweist , ist ein hoher Hebel nicht unbedingt ein Einflusspunkt .
Antworten:
Stellen Sie sich eine Regressionslinie vor, die an einige Daten angepasst ist.
Stellen Sie sich nun einen zusätzlichen Datenpunkt vor, einen Ausreißer in einiger Entfernung vom Hauptteil der Daten, der jedoch irgendwo entlang dieser Regressionslinie liegt.
Wenn die Regressionsgerade angepasst würde, würden sich die Koeffizienten nicht ändern. Umgekehrt hätte das Löschen des zusätzlichen Ausreißers keinen Einfluss auf die Koeffizienten.
Ein Ausreißer oder Hebelpunkt hätte also keinen Einfluss, wenn er mit den übrigen Daten und dem Modell, das der Rest impliziert, in perfekter Übereinstimmung stünde.
Wenn gewünscht, lesen Sie für "Linie" "Ebene" oder "Hyperebene", aber das einfachste Beispiel von zwei Variablen und einem Streudiagramm ist hier ausreichend.
Da Sie jedoch gerne Definitionen verwenden - anscheinend wird häufig zu viel in sie hineingelesen -, sind hier meine bevorzugten Definitionen von Ausreißern:
"Ausreißer sind Stichprobenwerte, die in Bezug auf den Großteil der Stichprobe für Überraschungen sorgen" (WN Venables und BD Ripley. 2002. Moderne angewandte Statistik mit S. New York: Springer, S.119).
Entscheidend ist, dass der Betrachter an Überraschungen denkt und von einem stillschweigenden oder expliziten Modell der Daten abhängig ist. Es kann ein anderes Modell geben, bei dem der Ausreißer überhaupt nicht überrascht, wenn die Daten tatsächlich lognormal oder gamma sind und nicht normal.
PS Ich denke nicht, dass Hebelpunkte notwendigerweise benachbarte Beobachtungen vermissen lassen. Beispielsweise können sie paarweise auftreten.
quelle
Es ist leicht zu veranschaulichen, wie ein hoher Hebelpunkt im Fall eines einfachen linearen Modells möglicherweise keinen Einfluss hat:
Die blaue Linie ist eine Regressionslinie, die auf allen Daten basiert. Die rote Linie ignoriert den Punkt oben rechts im Diagramm.
Dieser Punkt entspricht der Definition eines Punkts mit hohem Hebel, den Sie gerade angegeben haben, da er weit vom Rest der Daten entfernt ist. Aus diesem Grund muss die Regressionslinie (die blaue) nahe daran verlaufen. Da seine Position jedoch weitgehend mit dem in den übrigen Daten beobachteten Muster übereinstimmt, würde das andere Modell dies sehr gut vorhersagen (dh die rote Linie verläuft ohnehin schon in der Nähe) und ist daher nicht besonders einflussreich.
Vergleichen Sie dies mit dem folgenden Streudiagramm:
Hier ist der Punkt auf der rechten Seite des Diagramms immer noch ein hoher Hebelpunkt, diesmal entspricht er jedoch nicht wirklich dem in den restlichen Daten beobachteten Muster. Die blaue Linie (die auf allen Daten basierende lineare Anpassung) verläuft sehr eng, die rote Linie jedoch nicht. Das Einbeziehen oder Ausschließen dieses einen Punktes ändert die Parameterschätzungen dramatisch: Es hat einen großen Einfluss.
Beachten Sie, dass die Definitionen, die Sie zitiert haben, und die Beispiele, die ich gerade gegeben habe, möglicherweise implizieren, dass hohe Hebel- / Einflusspunkte in gewissem Sinne univariate „Ausreißer“ sind und dass die angepasste Regressionslinie in der Nähe der Punkte mit dem höchsten Einfluss verläuft, den sie jedoch benötigt nicht der Fall sein.
In diesem letzten Beispiel hat die Beobachtung unten rechts einen (relativ) großen Einfluss auf die Passform des Modells (wieder sichtbar durch den Unterschied zwischen der roten und der blauen Linie), scheint aber immer noch weit von der Regressionslinie entfernt zu sein in univariaten Distributionen nicht nachweisbar (hier durch die „Teppiche“ entlang der Achsen dargestellt).
quelle