Ich habe diesen Artikel in Nature gelesen, in dem einige Irrtümer im Zusammenhang mit der Datenanalyse erläutert werden. Mir ist aufgefallen, dass der Texas Sharpshooter-Irrtum besonders schwer zu vermeiden war:
Eine kognitive Falle, die während der Datenanalyse erwartet wird, zeigt die Fabel des texanischen Scharfschützen: Ein unfähiger Schütze, der ein zufälliges Muster von Kugeln an der Seite einer Scheune abfeuert, ein Ziel um die größte Ansammlung von Einschusslöchern zieht und stolz darauf zeigt sein erfolg.
Sein Bullseye ist offensichtlich lächerlich - aber der Trugschluss ist nicht so offensichtlich für Spieler, die an eine "heiße Hand" glauben, wenn sie eine Gewinnserie haben, oder für Leute, die eine übernatürliche Bedeutung sehen, wenn ein Lotterieziehung als ungerade Zahlen auftaucht.
Auch ist es für Forscher nicht immer offensichtlich. "Man bekommt nur ein wenig Ermutigung von den Daten und denkt dann, nun, das ist der Weg, den man beschreiten muss", sagt Pashler. „Sie haben nicht bemerkt, dass Sie 27 verschiedene Optionen hatten, und Sie haben die ausgewählt, die Ihnen die angenehmsten oder interessantesten Ergebnisse gebracht hat, und jetzt beschäftigen Sie sich mit etwas, das überhaupt keine unvoreingenommene Darstellung der Daten ist. "
Ich denke, diese Art von Explorationsarbeit ist alltäglich und oft werden Hypothesen basierend auf diesem Teil der Analyse erstellt. Für diesen Prozess gibt es einen vollständigen Ansatz ( EDA ):
Die explorative Datenanalyse wurde von John Tukey vorangetrieben, um Statistiker zu ermutigen, die Daten zu untersuchen und möglicherweise Hypothesen zu formulieren, die zu neuen Datenerfassungen und Experimenten führen könnten
Es sieht so aus, als ob jeder Explorationsprozess, der ohne vorherige Hypothese durchgeführt wird, dazu neigt, falsche Hypothesen zu generieren.
Beachten Sie, dass in der obigen Beschreibung von EDA tatsächlich die Rede ist new data collection and experiments
. Ich verstehe, dass nach der Erfassung neuer Daten eine Bestätigungsdatenanalyse (CDA) angebracht ist. Ich denke jedoch nicht, dass diese Unterscheidung sehr klar ist, und obwohl eine Trennung von EDA und CDA ideal wäre, gibt es sicherlich einige Umstände, unter denen dies nicht durchführbar ist. Ich würde so weit gehen zu sagen, dass die strikte Befolgung dieser Trennung ungewöhnlich ist und die meisten Praktiker dem EDA-Paradigma überhaupt nicht zustimmen.
Meine Frage lautet also: Lässt EDA (oder ein informeller Prozess zur Erkundung von Daten) die Wahrscheinlichkeit steigen, dass es auf den Texas Sharpshooter-Trugschluss hereinfällt?
Antworten:
Wenn man die Rolle der EDA streng als Erzeugung von Hypothesen ansieht, dann trifft der Scharfschützen-Irrtum nicht zu. Es ist jedoch sehr wichtig, dass nachfolgende Bestätigungsversuche tatsächlich unabhängig sind. Viele Forscher versuchen, "Unterschiede" mit Dingen wie gepoolten Analysen, Metaanalysen und Bayes'schen Methoden in Einklang zu bringen. Dies bedeutet, dass zumindest einige der Beweise, die in einer solchen Analyse präsentiert werden, "den Kreis um die zufälligen Einschusslöcher" umfassen.
quelle
Dies wirft einen sehr negativen Blick auf die explorative Datenanalyse. Das Argument ist zwar nicht falsch, aber es besagt wirklich, "was kann schief gehen, wenn ich ein sehr wichtiges Werkzeug falsch benutze?"
Das Akzeptieren nicht angepasster p-Werte von EDA-Methoden führt zu stark überhöhten Typ-I-Fehlerraten. Aber ich denke, Tukey wäre mit niemandem glücklich, der das tut. Der Zweck von EDA besteht nicht darin, endgültige Schlussfolgerungen zu den Beziehungen in den Daten zu ziehen, sondern nach potenziellen neuartigen Beziehungen in den Daten zu suchen, auf die man zurückgreifen kann.
Diesen Schritt im größeren wissenschaftlichen Prozess auszulassen, bedeutet im Wesentlichen, die Wissenschaft daran zu hindern, neue interessante Aspekte unserer Daten außerhalb der rein logischen Folgerung zu finden. Versuchen Sie jemals, logisch herauszufinden, wie sich eine Überexpression einer Reihe von Genen auf das Überleben einer Zelle auswirkt? Hinweis: Es ist nicht sehr einfach (einer unserer Lieblingswitze unter den Mitarbeitern der Bioinformatik bei meiner Arbeit war die Frage eines Physikers: "Warum simulieren Sie nicht einfach die physikalischen Eigenschaften verschiedener Geninteraktionen? Es ist ein endlicher Parameterraum.")
Persönlich denke ich, dass Verwirrung darüber zu einer großen Verlangsamung des wissenschaftlichen Fortschritts führen kann. Ich kenne zu viele nicht-statistische Forscher, die angeben, dass sie keine EDA-Verfahren für vorläufige Daten durchführen möchten , weil sie "wissen, dass EDA schlecht sein kann".
Zusammenfassend ist es absolut richtig, dass die Verwendung von EDA-Methoden und deren Behandlung als Methoden zur konfirmatorischen Datenanalyse zu ungültigen Ergebnissen führt. Die unzureichende Verwendung von EDA kann jedoch zu fast keinen Ergebnissen führen.
quelle
Ich würde diese Aussage temperieren und etwas anders ausdrücken: Eine Hypothese zum Testen auswählen der Grundlage der Daten untergräbt den Test, wenn man nicht die richtige Nullhypothese verwendet. Der Kern des Nature-Artikels besteht im Wesentlichen darin, dass es für Analysten einfach ist, sich dazu zu bringen, all die zahlreichen Vergleiche zu ignorieren, die sie implizit während der Erkundung anstellen.
Nature zitiert Andrew Gelman, erwähnt aber nicht seine Arbeit mit Eric Loken zu diesem Thema. Ein Ausschnitt:
Ein weiterer:
Kurz gesagt:
Und noch eine, meine Betonung:
Kurz gesagt, EDA führt nicht zu einer "falschen Hypothese". Das Testen einer Hypothese mit demselben Datensatz, der die Hypothese ausgelöst hat, kann zu falschen Schlussfolgerungen führen.
Wenn Sie daran interessiert sind, dieses Hindernis zu überwinden, hat Gelman eine andere Abhandlung, die argumentiert, dass viele dieser Probleme in einem Bayes'schen Rahmen verschwinden, und die Abhandlung mit Loken verweist auf "Replikation vor der Veröffentlichung", wie im ersten Abschnitt dieser Abhandlung anekdotisch beschrieben .
quelle
Fast per Definition, ja, natürlich zieht EDA ohne CDA texanische Scharfschützen an.
quelle
Nur um die bereits guten Antworten zu ergänzen: Es gibt einen Mittelweg zwischen einem vollständigen CDA und dem Akzeptieren Ihrer EDA-Ergebnisse zum Nennwert. Sobald Sie ein mögliches interessantes Merkmal (oder eine mögliche Hypothese) gefunden haben, können Sie sich ein Bild von seiner Robustheit machen, indem Sie Cross-Validation- (CV-) oder Bootstrap-Simulationen durchführen. Wenn Ihre Ergebnisse nur von wenigen Schlüsselbeobachtungen abhängen, zeigen CV oder Bootstrap, dass viele der CV- oder Boostrap-Beispiele das beobachtete Merkmal nicht reproduzieren.
Dies ist keine narrensichere Methode, aber es ist eine gute Zwischenüberprüfung, bevor Sie eine vollständige CDA durchführen (oder absichtlich einen "Validierungssatz" aus Ihrem anfänglichen Datenpool herausholen).
quelle
Das strengste Kriterium für die Auswahl des Datenmodells ist der Grad, mit dem die Kolmogorov-Komplexität der Daten angenähert wird, dh der Grad, mit dem die Daten verlustfrei komprimiert werden. Dies kann theoretisch allein aus einer explorativen Datenanalyse resultieren.
Siehe " Kausale Entfaltung durch algorithmische generative Modelle "
quelle