Bootstrapping - Muss ich zuerst Ausreißer entfernen?

Wir haben einen Split-Test für eine neue Produktfunktion durchgeführt und möchten messen, ob die Umsatzsteigerung erheblich ist. Unsere Beobachtungen sind definitiv nicht normal verteilt (die meisten unserer Benutzer geben nichts aus, und innerhalb derer, die dies tun, ist es stark verzerrt in Richtung vieler kleiner und einiger sehr großer Geldgeber).

Wir haben beschlossen, Bootstrapping zu verwenden, um die Mittel zu vergleichen und das Problem der nicht normal verteilten Daten zu umgehen. (Nebenfrage: Ist dies eine legitime Verwendung von Bootstrapping?)

Meine Frage ist, muss ich Ausreißer aus dem Datensatz entfernen (z. B. die wenigen sehr großen Ausgaben), bevor ich das Bootstrapping durchführe, oder spielt das keine Rolle?

bootstrap outliers user31228
quelle

Gute Frage: Ich kann mich wohl für und gegen das Entfernen von Ausreißern aussprechen. Warum nicht Mediane verwenden, wenn Sie sich Sorgen um Ausreißer machen und das, was Sie suchen, nur eine "zentrale Tendenz" ist? In Anbetracht dessen, dass geldbezogene Variablen häufig eine stark verzerrte Verteilung aufweisen (z. B. Pareto), die in erster Linie nicht unangemessen sein kann.

usεr11852 sagt Reinstate Monic

@ user11852 Mediane geben nur wenig Auskunft über den Mittelwert, der für den Umsatz relevant ist. Es wäre interessant, Ihr Argument für die Beseitigung der "Ausreißer" zu sehen, insbesondere wenn diese wahrscheinlich den größten Beitrag zum Gesamtumsatz leisten.

Whuber

Leider wäre der Median immer Null, da <10% der Benutzer überhaupt ausgeben

user31228

@ user11852 Ihr allgemeines Argument, dass Ausreißer legitim sind, ist hilfreich. In Bezug auf die Möglichkeit der Verstärkung scheint mir das Gegenteil der Fall zu sein: Bootstrapping funktioniert nur, wenn das gesamte Sample verwendet wird. Ansonsten handelt es sich um ein Märchen, das uns sagt, wie es wäre, wenn es keine Ausreißer gäbe - aber offensichtlich tun sie es. Das größere Problem besteht darin, dass Bootstrapping bei kleinen Stichproben nur eine geringe theoretische Berechtigung hat: Es handelt sich um eine asymptotische Theorie .

Whuber

Dies ist eine wichtige Frage (+1). Können Sie eine kleine Stichprobe Ihres Datensatzes oder eine simulierte Stichprobe hinzufügen, die der Frage ähnelt? Ich denke, eine Illustration ist in diesem Fall fruchtbarer.

user603

Antworten:

Bevor wir uns damit befassen, ist es wichtig anzuerkennen, dass der statistische Fehler des "Entfernens von Ausreißern" in einem Großteil der angewandten statistischen Pädagogik fälschlicherweise verbreitet wurde. Ausreißer werden traditionell als Beobachtungen mit hohem Hebel und hohem Einfluss definiert. Man kann und sollte solche Beobachtungen bei der Analyse von Daten identifizieren, aber diese Bedingungen allein rechtfertigen nicht das Entfernen dieser Beobachtungen. Ein "echter Ausreißer" ist eine Beobachtung mit hoher Hebelwirkung und hohem Einfluss, die nicht mit den Wiederholungen des experimentellen Designs vereinbar ist. Um eine Beobachtung als solche zu betrachten, sind spezielle Kenntnisse dieser Population und der Wissenschaft hinter dem "Datenerzeugungsmechanismus" erforderlich. Der wichtigste Aspekt ist, dass Sie potenzielle Ausreißer von vornherein identifizieren können .

Was den Bootstrap-Aspekt betrifft, so soll der Bootstrap unabhängige, wiederholte Ziehungen aus der Stichprobenpopulation simulieren. Wenn Sie Ausschlusskriterien in Ihrem Analyseplan vorab angeben, sollten Sie die ausgeschlossenen Werte weiterhin in der referenzierten Bootstrap-Stichprobenverteilung belassen . Dies liegt daran, dass Sie den Stromausfall aufgrund von Ausschlüssen nach dem Abtasten Ihrer Daten berücksichtigen. Wenn es jedoch keine vordefinierten Ausschlusskriterien gibt und Ausreißer mithilfe der Post-Hoc- Entscheidung entfernt werden , wie ich offensichtlich ablehne, werden durch das Entfernen dieser Werte dieselben Fehler in der Folgerung übertragen, die durch das Entfernen von Ausreißern verursacht werden.

Betrachten Sie eine Studie über Wohlstand und Glück in einer nicht geschichteten einfachen Zufallsstichprobe von 100 Personen. Wenn wir die Aussage "1% der Bevölkerung hält 90% des Weltvermögens" wörtlich nehmen, dann würden wir im Durchschnitt einen sehr einflussreichen Wert beobachten. Nehmen wir weiter an, dass es nicht nur eine Grundlebensqualität gibt, sondern auch kein übermäßiges Glück, das auf ein höheres Einkommen zurückzuführen ist (nicht konstanter linearer Trend). Diese Person hat also auch eine hohe Hebelwirkung.

Der Regressionskoeffizient der kleinsten Quadrate, der auf unverfälschte Daten passt, schätzt einen bevölkerungsgemittelten Trend erster Ordnung in diesen Daten. Es wird von unserer 1 Person in der Stichprobe stark abgeschwächt, deren Zufriedenheit mit dem mittleren Einkommensniveau übereinstimmt. Wenn wir dieses Individuum entfernen, ist die Regressionssteigung der kleinsten Quadrate viel größer, aber die Varianz des Regressors ist verringert, weshalb die Schlussfolgerung über die Assoziation ungefähr gleich ist. Die Schwierigkeit dabei ist, dass ich keine Bedingungen festgelegt habe, unter denen Einzelpersonen ausgeschlossen wären. Wenn ein anderer Forscher dieses Studiendesign nachahmte, ermittelte er durchschnittlich eine einkommensstarke, mäßig glückliche Person und erzielte Ergebnisse, die nicht mit meinen "beschnittenen" Ergebnissen übereinstimmten.

Wenn wir von vornherein an der Glücksgemeinschaft mit moderatem Einkommen interessiert wären, hätten wir angeben müssen, dass wir beispielsweise "Personen vergleichen, die weniger als 100.000 US-Dollar jährliches Haushaltseinkommen verdienen". Das Entfernen des Ausreißers veranlasst uns, eine Assoziation zu schätzen, die wir nicht beschreiben können, daher sind die p-Werte bedeutungslos.

Andererseits können falsch kalibrierte medizinische Geräte und scherzhafte, selbst gemeldete Umfragelügen beseitigt werden. Je genauer die Ausschlusskriterien beschrieben werden können, bevor die eigentliche Analyse durchgeführt wird, desto valider und konsistenter sind die Ergebnisse, die mit einer solchen Analyse erzielt werden.

AdamO
quelle

Ich bin nicht sicher , verstehe ich , warum „ wenn Sie prespecify Ausschlusskriterien in Ihrem Analyseplan, sollten Sie dennoch ausgeschlossen Werte in der referenten Bootstrap - Stichprobenverteilung verlassen. “ Sie erwähnen , dass dies " , weil Sie für den Verlust der Macht ausgemacht werden aufgrund Anwenden von Ausschlüssen nach dem Abtasten Ihrer Daten. "Ich verstehe nicht, warum das Anwenden von Ausschlusskriterien nach dem Abtasten zu einem Stromausfall führt, und wie / warum das Belassen der ausgeschlossenen Fälle im Bootstrap-Beispiel dies" erklärt "(?). noch weiter, warum dies etwas ist, das eindeutig "erklärt" werden muss. Vielleicht bin ich hier dicht.

Jake Westfall

p

$p$

Hmm, ich dachte, wenn man die Ausschlusskriterien im Voraus spezifizieren würde - so dass wir explizit nicht an bestimmten Arten von Fällen interessiert sind und vermutlich zukünftige Studienreplikationen dieselben Ausschlusskriterien verwenden würden -, wäre es sinnvoll, zu gehen Diese Fälle stammen aus dem Bootstrap-Beispiel, da sie ein Teil der Bevölkerung sind, über den wir keine Rückschlüsse ziehen möchten. Ich sehe , wie die künftigen Replikationen am Ende vielleicht einen anderen Teil der Fälle ohne, aber ich kann nicht ganz die Verbindung zu Warum dies wichtig ist für die Fälle, dass wir ausdrücklich sind in .. interessieren

Jake Westfall

p

$p$

H_{0}

$\mathcal{H}_0$

Dies als Ausreißerproblem zu betrachten, erscheint mir falsch. Wenn "<10% der Benutzer überhaupt ausgeben", müssen Sie diesen Aspekt modellieren. Tobit- oder Heckman-Regression wären zwei Möglichkeiten.

JKP
quelle

Derzeit ist dies eher ein Kommentar als eine Antwort. Würde es Ihnen etwas ausmachen, es ein wenig zu erweitern, um es antwortsamer zu machen?

gung - Wiedereinsetzung von Monica