Wir haben einen Split-Test für eine neue Produktfunktion durchgeführt und möchten messen, ob die Umsatzsteigerung erheblich ist. Unsere Beobachtungen sind definitiv nicht normal verteilt (die meisten unserer Benutzer geben nichts aus, und innerhalb derer, die dies tun, ist es stark verzerrt in Richtung vieler kleiner und einiger sehr großer Geldgeber).
Wir haben beschlossen, Bootstrapping zu verwenden, um die Mittel zu vergleichen und das Problem der nicht normal verteilten Daten zu umgehen. (Nebenfrage: Ist dies eine legitime Verwendung von Bootstrapping?)
Meine Frage ist, muss ich Ausreißer aus dem Datensatz entfernen (z. B. die wenigen sehr großen Ausgaben), bevor ich das Bootstrapping durchführe, oder spielt das keine Rolle?
Antworten:
Bevor wir uns damit befassen, ist es wichtig anzuerkennen, dass der statistische Fehler des "Entfernens von Ausreißern" in einem Großteil der angewandten statistischen Pädagogik fälschlicherweise verbreitet wurde. Ausreißer werden traditionell als Beobachtungen mit hohem Hebel und hohem Einfluss definiert. Man kann und sollte solche Beobachtungen bei der Analyse von Daten identifizieren, aber diese Bedingungen allein rechtfertigen nicht das Entfernen dieser Beobachtungen. Ein "echter Ausreißer" ist eine Beobachtung mit hoher Hebelwirkung und hohem Einfluss, die nicht mit den Wiederholungen des experimentellen Designs vereinbar ist. Um eine Beobachtung als solche zu betrachten, sind spezielle Kenntnisse dieser Population und der Wissenschaft hinter dem "Datenerzeugungsmechanismus" erforderlich. Der wichtigste Aspekt ist, dass Sie potenzielle Ausreißer von vornherein identifizieren können .
Was den Bootstrap-Aspekt betrifft, so soll der Bootstrap unabhängige, wiederholte Ziehungen aus der Stichprobenpopulation simulieren. Wenn Sie Ausschlusskriterien in Ihrem Analyseplan vorab angeben, sollten Sie die ausgeschlossenen Werte weiterhin in der referenzierten Bootstrap-Stichprobenverteilung belassen . Dies liegt daran, dass Sie den Stromausfall aufgrund von Ausschlüssen nach dem Abtasten Ihrer Daten berücksichtigen. Wenn es jedoch keine vordefinierten Ausschlusskriterien gibt und Ausreißer mithilfe der Post-Hoc- Entscheidung entfernt werden , wie ich offensichtlich ablehne, werden durch das Entfernen dieser Werte dieselben Fehler in der Folgerung übertragen, die durch das Entfernen von Ausreißern verursacht werden.
Betrachten Sie eine Studie über Wohlstand und Glück in einer nicht geschichteten einfachen Zufallsstichprobe von 100 Personen. Wenn wir die Aussage "1% der Bevölkerung hält 90% des Weltvermögens" wörtlich nehmen, dann würden wir im Durchschnitt einen sehr einflussreichen Wert beobachten. Nehmen wir weiter an, dass es nicht nur eine Grundlebensqualität gibt, sondern auch kein übermäßiges Glück, das auf ein höheres Einkommen zurückzuführen ist (nicht konstanter linearer Trend). Diese Person hat also auch eine hohe Hebelwirkung.
Der Regressionskoeffizient der kleinsten Quadrate, der auf unverfälschte Daten passt, schätzt einen bevölkerungsgemittelten Trend erster Ordnung in diesen Daten. Es wird von unserer 1 Person in der Stichprobe stark abgeschwächt, deren Zufriedenheit mit dem mittleren Einkommensniveau übereinstimmt. Wenn wir dieses Individuum entfernen, ist die Regressionssteigung der kleinsten Quadrate viel größer, aber die Varianz des Regressors ist verringert, weshalb die Schlussfolgerung über die Assoziation ungefähr gleich ist. Die Schwierigkeit dabei ist, dass ich keine Bedingungen festgelegt habe, unter denen Einzelpersonen ausgeschlossen wären. Wenn ein anderer Forscher dieses Studiendesign nachahmte, ermittelte er durchschnittlich eine einkommensstarke, mäßig glückliche Person und erzielte Ergebnisse, die nicht mit meinen "beschnittenen" Ergebnissen übereinstimmten.
Wenn wir von vornherein an der Glücksgemeinschaft mit moderatem Einkommen interessiert wären, hätten wir angeben müssen, dass wir beispielsweise "Personen vergleichen, die weniger als 100.000 US-Dollar jährliches Haushaltseinkommen verdienen". Das Entfernen des Ausreißers veranlasst uns, eine Assoziation zu schätzen, die wir nicht beschreiben können, daher sind die p-Werte bedeutungslos.
Andererseits können falsch kalibrierte medizinische Geräte und scherzhafte, selbst gemeldete Umfragelügen beseitigt werden. Je genauer die Ausschlusskriterien beschrieben werden können, bevor die eigentliche Analyse durchgeführt wird, desto valider und konsistenter sind die Ergebnisse, die mit einer solchen Analyse erzielt werden.
quelle
Dies als Ausreißerproblem zu betrachten, erscheint mir falsch. Wenn "<10% der Benutzer überhaupt ausgeben", müssen Sie diesen Aspekt modellieren. Tobit- oder Heckman-Regression wären zwei Möglichkeiten.
quelle