Einflussreiche Residuen vs. Ausreißer

10

Zunächst sollte ich angeben, dass ich auf dieser Website nach der Antwort gesucht habe. Entweder habe ich keine Frage gefunden, die meine Frage beantwortet hat, oder mein Wissensstand ist so niedrig, dass ich nicht bemerkt habe, dass ich die Antwort bereits gelesen habe.

Ich studiere für die AP Statistics Exam. Ich muss lineare Regression lernen und eines der Themen sind Residuen. Ich habe eine Kopie der Einführung in Statistik und Datenanalyse auf Seite 253, in der es heißt.

Ungewöhnliche Punkte in einem bivariaten Datensatz sind solche, die von den meisten anderen Punkten im Streudiagramm entweder in oder in Richtung abfallenyxy

Eine Beobachtung ist möglicherweise eine einflussreiche Beobachtung, wenn sie einen Wert hat, der weit vom Rest der Daten entfernt ist (vom Rest der Daten in Richtung getrennt). Um festzustellen, ob die Beobachtung tatsächlich Einfluss hat, bewerten wir, ob das Entfernen dieser Beobachtung einen großen Einfluss auf den Wert der Steigung oder den Schnittpunkt der kleinsten quadratischen Linie hat.xxx

Eine Beobachtung ist ein Ausreißer, wenn sie einen großen Rest aufweist. Die Ausreißerbeobachtung fällt weit von der Linie der kleinsten Quadrate in Richtung ab.y

Stattreck.com gibt vier Methoden an, um einen Ausreißer aus Residuen zu bestimmen:

Datenpunkte, die stark vom Gesamtmuster abweichen, werden als Ausreißer bezeichnet. Es gibt vier Möglichkeiten, wie ein Datenpunkt als Ausreißer betrachtet werden kann.

  1. Es könnte einen extremen X-Wert im Vergleich zu anderen Datenpunkten haben.
  2. Es könnte einen extremen Y-Wert im Vergleich zu anderen Datenpunkten haben.
  3. Es könnte extreme X- und Y-Werte haben.
  4. Es kann auch ohne extreme X- oder Y-Werte vom Rest der Daten entfernt sein.

Diese beiden Quellen scheinen sich zu widersprechen. Könnte jemand helfen, meine Verwirrung zu beseitigen. Wie definiert man auch Extreme? Die AP-Statistik verwendet die Regel, wenn der Datenpunkt außerhalb von (Q1-1.5IQR, Q3 + 1.5IQR) liegt und es sich um einen Ausreißer handelt. Ich weiß nicht, wie ich das nur aus einem Diagramm der Residuen anwenden soll.

MaoYiyi
quelle

Antworten:

5

Die stattrek-Site scheint eine viel bessere Beschreibung von Ausreißern und Einflusspunkten zu haben als Ihr Lehrbuch, aber Sie haben nur eine kurze Passage zitiert, die möglicherweise irreführend ist. Ich habe dieses spezielle Buch nicht, daher kann ich es nicht im Kontext untersuchen. Beachten Sie jedoch, dass in der von Ihnen zitierten Lehrbuchpassage "potenziell" steht. Es ist auch nicht exklusiv. Unter Berücksichtigung dieser Punkte sind stattrek und Ihr Buch nicht unbedingt anderer Meinung. Es scheint jedoch, dass Ihr Buch in dem Sinne irreführend ist, dass es (aus dieser kurzen Passage) impliziert, dass der einzige Unterschied zwischen Ausreißern und Einflusspunkten darin besteht, ob sie auf der x- oder y-Achse abweichen. Das ist falsch.

Die "Regel" für Ausreißer variiert je nach Kontext. Die Regel, die Sie zitieren, ist nur eine Faustregel und ja, nicht wirklich für die Regression ausgelegt. Es gibt verschiedene Möglichkeiten, es zu verwenden. Es ist möglicherweise einfacher zu visualisieren, wenn Sie sich mehrere y-Werte an jedem x vorstellen und die Residuen untersuchen. Typische Beispiele für die Regression von Lehrbüchern sind zu einfach, um zu sehen, wie diese Ausreißerregel funktionieren könnte, und in den meisten realen Fällen ist sie ziemlich nutzlos. Hoffentlich sammeln Sie im wirklichen Leben viel mehr Daten. Wenn es erforderlich ist, dass Sie die Quantilregel für Ausreißer auf ein Regressionsproblem anwenden, sollten diese Daten bereitstellen, für die sie geeignet sind.

John
quelle
Vielen Dank für die Antwort, es wird nur ärgerlich, dass verschiedene Bücher versuchen, diese Regeln zu formulieren, ohne wirklich zu sagen, dass es ehrlich von den Daten abhängt, wie Sie sagen.
MaoYiyi
1
Eigentlich habe ich es auch falsch angegeben ... es hängt von Theorie, Methode und Daten ab ... der gesamten Studie.
John
5

Ich stimme John zu. Hier noch ein paar Punkte. Eine einflussreiche Beobachtung ist (streng) eine, die die Parameterschätzungen beeinflusst. Eine kleine Abweichung des Y-Werts führt zu einer großen Änderung der geschätzten Beta-Parameter. Bei der einfachen Regression einer Variablen gegen eine andere sind einflussreiche Variablen genau diejenigen, deren X-Wert vom Mittelwert der X entfernt ist. Bei der multiplen Regression (mehrere unabhängige Variablen) ist die Situation komplexer. Sie müssen sich die Diagonale der sogenannten , und die Regressionssoftware gibt Ihnen dies. Google "Hebel".X(XX)1X

Einfluss ist eine Funktion der Entwurfspunkte (der X-Werte), wie in Ihrem Lehrbuch angegeben.

Beachten Sie, dass Einfluss Macht ist. In einem entworfenen Experiment möchten Sie einflussreiche X-Werte, vorausgesetzt, Sie können den entsprechenden Y-Wert genau messen. Auf diese Weise bekommen Sie mehr Geld.

Für mich ist ein Ausreißer im Grunde ein Fehler - das heißt eine Beobachtung, die nicht dem gleichen Modell wie die übrigen Daten folgt. Dies kann aufgrund eines Datenerfassungsfehlers auftreten oder weil dieses bestimmte Thema in irgendeiner Weise ungewöhnlich war.

Ich mag stattreks Definition eines Ausreißers aus mehreren Gründen nicht sehr. Die Regression ist in Y und X nicht symmetrisch. Y wird als Zufallsvariable modelliert und die X werden als fest und bekannt angenommen. Verrücktheit in den Ys ist nicht dasselbe wie Verrücktheit in den X's. Einfluss und Ausreißer bedeuten verschiedene Dinge. Der Einfluss bei der multiplen Regression wird nicht anhand der verbleibenden Diagramme erkannt. Eine gute Beschreibung der Ausreißer und des Einflusses für den Einzelvariablenfall sollte Sie so einrichten, dass Sie auch den Mehrfachfall verstehen.

Ich mag dein Lehrbuch aus den von John angegebenen Gründen noch mehr nicht.

Unter dem Strich sind einflussreiche Ausreißer gefährlich. Sie müssen genau untersucht und behandelt werden.

Placidia
quelle
Ihre Abneigung gegen die Erklärung der stattrek-Regression ist angemessen, wenn Sie aus einem Umfeld stammen, in dem echte Experimente die Norm sind. Ihre Gründe gelten alle dort. Wenn Sie jedoch aus einem Umfeld stammen, in dem quasi-experimentelle Designs häufiger vorkommen, ist die Website stattrek relevanter. In diesen Fällen sind sowohl x- als auch y-Werte oft nur Zufallsstichproben.
John
@ John wie wäre es mit dem Hintergrund, die AP Statistics Exam bestehen zu wollen? Was ist quasi-experimentelles Design? Verwendet das eine Zufallszahlentabelle für eine Simulation?
MaoYiyi
1
Ich weiß nichts über die AP-Statistikprüfung. Echte Experimente sind solche, bei denen Sie die Prädiktorvariable manipulieren und Gruppen bilden, um mehrere Hypothesen oder Kontroll- und Versuchsgruppen usw. zu testen. Quasi-experimentelle Entwürfe sind so ziemlich alles andere, was wie ein Experiment aussieht. Stellen Sie sich also eine Regression vor, bei der der x-Wert das Gewicht und der y-Wert eine sportliche Fähigkeit ist. Sie manipulieren keine der Variablen, sondern probieren zufällig beide aus. Placidias Kritik an stattrek gilt also durchaus für echte Experimente, aber nicht so sehr für quasi.
John
@ John ... Ich komme aus einem Umfeld, in dem entworfene Experimente als Goldstandard angesehen werden. In der Praxis weiß ich, dass X und Y oft beide Zufallsstichproben sind, was die Frage aufwirft, warum Regression verwendet wird, und nicht irgendeine Form der Analyse latenter Variablen.
Placidia
Wenn Sie nur zwei Variablen haben ... :) Manchmal haben Sie eine gute Theorie, um vorzuschlagen, dass eine Sache eine andere vorhersagt, zum Beispiel Höhe und Wahrscheinlichkeit, in die NBA zu gelangen ... beide Zufallsstichproben. In Fällen mit einer oder wenigen (insbesondere nicht korrelierten) linearen Beziehungen ist die Regression gut.
John