In einem Blogbeitrag schreibt Andrew Gelman :
Die schrittweise Regression ist eines dieser Dinge, wie die Erkennung von Ausreißern und Kreisdiagramme, die bei Nicht-Statistikern beliebt zu sein scheinen, von Statistikern jedoch als Scherz angesehen werden.
Ich verstehe den Verweis auf Kreisdiagramme, aber warum wird laut Gelman die Statistik der Ausreißer von Statistikern abgelehnt? Ist es nur so, dass die Leute ihre Daten möglicherweise zu stark beschneiden?
Antworten:
@ Jerome Baums Kommentar ist genau richtig. Um das Gelman-Zitat hierher zu bringen:
Um ein bisschen mehr hinzuzufügen, wie wäre es, wenn wir zuerst Ausreißer definieren . Versuchen Sie dies rigoros, ohne sich auf etwas Visuelles wie "sieht so aus, als wäre es weit von anderen Punkten entfernt" zu beziehen. Es ist eigentlich ziemlich schwer.
Ich würde sagen, dass ein Ausreißer ein Punkt ist, der angesichts eines Modells, wie Punkte generiert werden, höchst unwahrscheinlich ist. In den meisten Situationen haben die Leute kein Modell dafür, wie die Punkte generiert werden, oder wenn sie dies tun, ist es so stark vereinfacht, dass es die meiste Zeit falsch ist. Also, wie Andrew sagt, werden die Leute Dinge wie die Annahme machen, dass eine Art Gaußscher Prozess Punkte erzeugt. Wenn also ein Punkt mehr als eine bestimmte Anzahl von SDs vom Mittelwert entfernt ist, ist es ein Ausreißer. Mathematisch praktisch, nicht so prinzipiell.
Und wir haben noch nicht einmal verstanden, was Menschen mit Ausreißern machen, wenn sie identifiziert sind. Die meisten Menschen möchten diese unbequemen Punkte zum Beispiel wegwerfen. In vielen Fällen sind es die Ausreißer, die zu Durchbrüchen und Entdeckungen führen, nicht die Nicht-Ausreißer!
Es gibt eine Menge Ad-hoc-Probleme bei der Erkennung von Ausreißern, wie sie von Nicht-Statistikern praktiziert werden, und Andrew ist damit unzufrieden.
quelle
Dies zeigt das klassische Tauziehen zwischen den beiden Arten von Zielen für statistische Analysen wie die Regression: deskriptiv vs. prädiktiv. (Verzeihen Sie die Verallgemeinerungen in meinen Kommentaren unten.)
Aus Sicht des Statistikers ist die Beschreibung normalerweise wichtiger als die Vorhersage. Daher sind sie von Natur aus "voreingenommen" gegenüber Erklärungen. Warum gibt es einen Ausreißer? Ist es wirklich ein Fehler bei der Dateneingabe (zusätzliche Nullen am Ende eines Wertes) oder ist es ein gültiger Datenpunkt, der zufällig extrem ist? Dies sind wichtige Fragen für einen Statistiker.
OTOH, die Datenwissenschaftler interessieren sich eher für Vorhersage als für Beschreibung. Ihr Ziel ist es, ein starkes Modell zu entwickeln, mit dem sich zukünftige Ergebnisse (z. B. Kauf, Abrieb) hervorragend vorhersagen lassen. Wenn es in einem der Felder einen Extremwert gibt, würde ein Datenwissenschaftler diesen Wert gerne auf den Wert des 98. Perzentils begrenzen, wenn dies zur Verbesserung der Vorhersagegenauigkeit des Modells beiträgt.
Ich habe keine generelle Neigung zu einem dieser beiden Ansätze. Ob die Methoden / Ansätze wie schrittweise Regression und Ausreißerbehandlung "ein Witz" sind oder nicht, hängt jedoch davon ab, auf welcher Seite des Zauns Sie stehen.
quelle