In Kahneman und Deaton (2010) † schreiben die Autoren Folgendes:
Diese Regression erklärt 37% der Varianz mit einem quadratischen mittleren Fehler (RMSE) von 0,67852. Um Ausreißer und unplausible Einkommensberichte zu eliminieren, haben wir Beobachtungen fallen gelassen, bei denen der absolute Wert der Differenz zwischen dem Log-Einkommen und seiner Vorhersage das 2,5-fache des RMSE überschritt.
Ist das gängige Praxis? Was ist die Intuition dahinter? Es scheint etwas seltsam, einen Ausreißer auf der Grundlage eines Modells zu definieren, das möglicherweise überhaupt nicht genau spezifiziert ist. Sollte die Ermittlung von Ausreißern nicht auf theoretischen Gründen für einen plausiblen Wert beruhen, anstatt wie gut Ihr Modell die tatsächlichen Werte vorhersagt?
: Daniel Kahneman, Angus Deaton (2010): Ein hohes Einkommen verbessert die Bewertung des Lebens, aber nicht das emotionale Wohlbefinden. Verfahren der Nationalen Akademie der Wissenschaften Sep 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107
quelle
Antworten:
Der Grund für das Löschen dieser Daten ist genau dort im Zitat angegeben: nämlich um "Ausreißer und unplausible Einkommensberichte zu beseitigen". Die Tatsache, dass sie sich auf beide Dinge in Verbindung beziehen, bedeutet, dass sie zugeben, dass zumindest einige ihrer Ausreißer keine unplausiblen Werte sind, und in jedem Fall geben sie kein Argument dafür an, warum Werte mit einem hohen Residuum als "unplausibel" betrachtet werden sollten "einkommenswerte. Auf diese Weise werden Datenpunkte effektiv entfernt, da die Residuen höher sind als in ihrem Regressionsmodell erwartet. Wie ich bereits in anderen Antworten ausgeführt habe , bedeutet dies, dass die Realität Ihren Modellannahmen entsprechen und Teile der Realität ignoriert werden müssen, die diesen Annahmen nicht entsprechen.
Egal, ob dies eine gängige Praxis ist oder nicht, es ist eine schreckliche Praxis. Dies liegt daran, dass die abgelegenen Datenpunkte nur schwer zu handhaben sind und der Analyst nicht bereit ist, sie richtig zu modellieren (z. B. durch Verwendung eines Modells, das eine höhere Kurtosis in Bezug auf Fehler zulässt), sodass nur Teile der Realität entfernt werden, die dies nicht tun ihrer Fähigkeit entsprechen, statistische Modelle zu erstellen. Diese Vorgehensweise ist statistisch unerwünscht und führt zu Schlussfolgerungen, die Varianz und Kurtosis in Bezug auf Fehler systematisch unterschätzen. Die Autoren dieses Papiers berichten, dass sie aufgrund der Entfernung dieser Ausreißer 3,22% ihrer Daten verloren haben (S. 16490). Da die meisten dieser Datenpunkte sehr hohe Einkommen gehabt hätten, wirft dies erhebliche Zweifel an ihrer Fähigkeit auf, belastbare Schlussfolgerungen über die Auswirkungen hoher Einkommen zu ziehen (was das Ziel ihrer Arbeit ist).
quelle