Zunächst sollte ich angeben, dass ich auf dieser Website nach der Antwort gesucht habe. Entweder habe ich keine Frage gefunden, die meine Frage beantwortet hat, oder mein Wissensstand ist so niedrig, dass ich nicht bemerkt habe, dass ich die Antwort bereits gelesen habe.
Ich studiere für die AP Statistics Exam. Ich muss lineare Regression lernen und eines der Themen sind Residuen. Ich habe eine Kopie der Einführung in Statistik und Datenanalyse auf Seite 253, in der es heißt.
Ungewöhnliche Punkte in einem bivariaten Datensatz sind solche, die von den meisten anderen Punkten im Streudiagramm entweder in oder in Richtung abfalleny
Eine Beobachtung ist möglicherweise eine einflussreiche Beobachtung, wenn sie einen Wert hat, der weit vom Rest der Daten entfernt ist (vom Rest der Daten in Richtung getrennt). Um festzustellen, ob die Beobachtung tatsächlich Einfluss hat, bewerten wir, ob das Entfernen dieser Beobachtung einen großen Einfluss auf den Wert der Steigung oder den Schnittpunkt der kleinsten quadratischen Linie hat.x
Eine Beobachtung ist ein Ausreißer, wenn sie einen großen Rest aufweist. Die Ausreißerbeobachtung fällt weit von der Linie der kleinsten Quadrate in Richtung ab.
Stattreck.com gibt vier Methoden an, um einen Ausreißer aus Residuen zu bestimmen:
Datenpunkte, die stark vom Gesamtmuster abweichen, werden als Ausreißer bezeichnet. Es gibt vier Möglichkeiten, wie ein Datenpunkt als Ausreißer betrachtet werden kann.
- Es könnte einen extremen X-Wert im Vergleich zu anderen Datenpunkten haben.
- Es könnte einen extremen Y-Wert im Vergleich zu anderen Datenpunkten haben.
- Es könnte extreme X- und Y-Werte haben.
- Es kann auch ohne extreme X- oder Y-Werte vom Rest der Daten entfernt sein.
Diese beiden Quellen scheinen sich zu widersprechen. Könnte jemand helfen, meine Verwirrung zu beseitigen. Wie definiert man auch Extreme? Die AP-Statistik verwendet die Regel, wenn der Datenpunkt außerhalb von (Q1-1.5IQR, Q3 + 1.5IQR) liegt und es sich um einen Ausreißer handelt. Ich weiß nicht, wie ich das nur aus einem Diagramm der Residuen anwenden soll.
quelle
Ich stimme John zu. Hier noch ein paar Punkte. Eine einflussreiche Beobachtung ist (streng) eine, die die Parameterschätzungen beeinflusst. Eine kleine Abweichung des Y-Werts führt zu einer großen Änderung der geschätzten Beta-Parameter. Bei der einfachen Regression einer Variablen gegen eine andere sind einflussreiche Variablen genau diejenigen, deren X-Wert vom Mittelwert der X entfernt ist. Bei der multiplen Regression (mehrere unabhängige Variablen) ist die Situation komplexer. Sie müssen sich die Diagonale der sogenannten , und die Regressionssoftware gibt Ihnen dies. Google "Hebel".X(X′X)−1X′
Einfluss ist eine Funktion der Entwurfspunkte (der X-Werte), wie in Ihrem Lehrbuch angegeben.
Beachten Sie, dass Einfluss Macht ist. In einem entworfenen Experiment möchten Sie einflussreiche X-Werte, vorausgesetzt, Sie können den entsprechenden Y-Wert genau messen. Auf diese Weise bekommen Sie mehr Geld.
Für mich ist ein Ausreißer im Grunde ein Fehler - das heißt eine Beobachtung, die nicht dem gleichen Modell wie die übrigen Daten folgt. Dies kann aufgrund eines Datenerfassungsfehlers auftreten oder weil dieses bestimmte Thema in irgendeiner Weise ungewöhnlich war.
Ich mag stattreks Definition eines Ausreißers aus mehreren Gründen nicht sehr. Die Regression ist in Y und X nicht symmetrisch. Y wird als Zufallsvariable modelliert und die X werden als fest und bekannt angenommen. Verrücktheit in den Ys ist nicht dasselbe wie Verrücktheit in den X's. Einfluss und Ausreißer bedeuten verschiedene Dinge. Der Einfluss bei der multiplen Regression wird nicht anhand der verbleibenden Diagramme erkannt. Eine gute Beschreibung der Ausreißer und des Einflusses für den Einzelvariablenfall sollte Sie so einrichten, dass Sie auch den Mehrfachfall verstehen.
Ich mag dein Lehrbuch aus den von John angegebenen Gründen noch mehr nicht.
Unter dem Strich sind einflussreiche Ausreißer gefährlich. Sie müssen genau untersucht und behandelt werden.
quelle