Ausreißer basierend auf dem 2,5-fachen des RMSE fallen lassen

13

In Kahneman und Deaton (2010) schreiben die Autoren Folgendes:

Diese Regression erklärt 37% der Varianz mit einem quadratischen mittleren Fehler (RMSE) von 0,67852. Um Ausreißer und unplausible Einkommensberichte zu eliminieren, haben wir Beobachtungen fallen gelassen, bei denen der absolute Wert der Differenz zwischen dem Log-Einkommen und seiner Vorhersage das 2,5-fache des RMSE überschritt.

Ist das gängige Praxis? Was ist die Intuition dahinter? Es scheint etwas seltsam, einen Ausreißer auf der Grundlage eines Modells zu definieren, das möglicherweise überhaupt nicht genau spezifiziert ist. Sollte die Ermittlung von Ausreißern nicht auf theoretischen Gründen für einen plausiblen Wert beruhen, anstatt wie gut Ihr Modell die tatsächlichen Werte vorhersagt?


: Daniel Kahneman, Angus Deaton (2010): Ein hohes Einkommen verbessert die Bewertung des Lebens, aber nicht das emotionale Wohlbefinden. Verfahren der Nationalen Akademie der Wissenschaften Sep 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107

Zunge
quelle
1
Geben Sie immer einen Verweis mit der Seitenzahl an, wenn Sie ein Zitat aus einem Papier geben .
Setzen Sie Monica
7
Ich kann nicht sagen, ob dies "gängige Praxis" ist, aber ich hoffe nicht. Automatisiertes Entfernen von "Ausreißern" ist grundsätzlich eine schlechte Idee. Vielleicht ist Ihr Modell oder Entfernungskriterium nicht gut, vielleicht ist etwas Neues im Gange (Beginn des Abschwungs, neue Möglichkeiten eröffnen sich), das Sie nicht ignorieren sollten. // Es ist anders, wenn Sie einen verdächtigen Wert für einen Dateneingabefehler oder einen Geräteausfall nachverfolgen können oder wenn der Wert einfach absurd ist (16'2 "großer Mann, Typ mit 61 abrechenbaren Stunden am vergangenen Dienstag, 25-minütiger Flug) SFO-ORD)
.Aber
7
Die statistische Validität dieses Ansatzes spiegelt sich in der absurden Anzahl von Dezimalstellen wider, die sie für den RMSE melden.
Frans Rodenburg
Dies fühlt sich an wie eine grobe / heroische Lösung für eine Frage, die ich vor ein paar Monaten gestellt habe: stats.stackexchange.com/questions/390051/…
Adrian

Antworten:

30

Der Grund für das Löschen dieser Daten ist genau dort im Zitat angegeben: nämlich um "Ausreißer und unplausible Einkommensberichte zu beseitigen". Die Tatsache, dass sie sich auf beide Dinge in Verbindung beziehen, bedeutet, dass sie zugeben, dass zumindest einige ihrer Ausreißer keine unplausiblen Werte sind, und in jedem Fall geben sie kein Argument dafür an, warum Werte mit einem hohen Residuum als "unplausibel" betrachtet werden sollten "einkommenswerte. Auf diese Weise werden Datenpunkte effektiv entfernt, da die Residuen höher sind als in ihrem Regressionsmodell erwartet. Wie ich bereits in anderen Antworten ausgeführt habe , bedeutet dies, dass die Realität Ihren Modellannahmen entsprechen und Teile der Realität ignoriert werden müssen, die diesen Annahmen nicht entsprechen.

Egal, ob dies eine gängige Praxis ist oder nicht, es ist eine schreckliche Praxis. Dies liegt daran, dass die abgelegenen Datenpunkte nur schwer zu handhaben sind und der Analyst nicht bereit ist, sie richtig zu modellieren (z. B. durch Verwendung eines Modells, das eine höhere Kurtosis in Bezug auf Fehler zulässt), sodass nur Teile der Realität entfernt werden, die dies nicht tun ihrer Fähigkeit entsprechen, statistische Modelle zu erstellen. Diese Vorgehensweise ist statistisch unerwünscht und führt zu Schlussfolgerungen, die Varianz und Kurtosis in Bezug auf Fehler systematisch unterschätzen. Die Autoren dieses Papiers berichten, dass sie aufgrund der Entfernung dieser Ausreißer 3,22% ihrer Daten verloren haben (S. 16490). Da die meisten dieser Datenpunkte sehr hohe Einkommen gehabt hätten, wirft dies erhebliche Zweifel an ihrer Fähigkeit auf, belastbare Schlussfolgerungen über die Auswirkungen hoher Einkommen zu ziehen (was das Ziel ihrer Arbeit ist).

Setzen Sie Monica wieder ein
quelle
Wie kannst du es wagen, den Daniel Kahneman zu kritisieren ! Spaß beiseite, das sind sehr gute Punkte +1.
Tim
11
Kahneman ist ein sehr guter Psychologe, dessen Bücher ich im Allgemeinen genossen und für hilfreich befunden habe. Sie könnten jeweils fünfzig Nobelpreise erhalten - es würde nichts an der Tatsache ändern, dass die Massenentfernung von "Ausreißern" eine schreckliche statistische Praxis ist.
Setzen Sie Monica
3
Natürlich stimme ich Ihnen zu. Ich dachte nicht, dass das gesagt werden müsste.
Nick Cox
1
@NickCox Du meinst den sogenannten "Nobel Memorial Prize" : Wie du sicher weißt, wurde er nicht von Nobel ins Leben gerufen und hat eigentlich nichts mit ihm zu tun. Der offizielle Name lautet anscheinend "Der Sveriges Riksbank Preis für Wirtschaftswissenschaften zum Gedenken an Alfred Nobel".
Amöbe sagt Reinstate Monica
1
Sie sind sicher, dass ich das weiß und Sie sind in der Tat richtig. Das immer maßgebliche EJMR trug einmal diesen Beitrag über mich: "Nein, er wird niemals den Nobelpreis gewinnen", was diesen Preis bedeutet.
Nick Cox