Die explorative Datenanalyse (EDA) führt häufig dazu, dass andere "Spuren" untersucht werden, die nicht unbedingt zum ursprünglichen Satz von Hypothesen gehören. Bei Studien mit einer begrenzten Stichprobengröße und einer Vielzahl von Daten, die über verschiedene Fragebögen gesammelt wurden (soziodemografische Daten, neuropsychologische oder medizinische Maßstäbe - z. B. geistige oder körperliche Funktionen, Depressionen / Angstzustände, Symptomcheckliste), sehe ich mich einer solchen Situation gegenüber ). Es kommt vor, dass EDA dabei hilft, einige unerwartete Beziehungen hervorzuheben ("unerwartet", was bedeutet, dass sie nicht im ursprünglichen Analyseplan enthalten waren), die sich in zusätzlichen Fragen / Hypothesen niederschlagen.
Wie bei einer Überanpassung führt das Ausbaggern oder Aufspüren von Daten zu Ergebnissen, die sich nicht verallgemeinern lassen. Wenn jedoch viele Daten verfügbar sind, ist es für den Forscher oder Arzt ziemlich schwierig, einen begrenzten Satz von Hypothesen zu postulieren.
Ich würde gerne wissen, ob es anerkannte Methoden, Empfehlungen oder Faustregeln gibt, die bei kleinen Stichproben zur Abgrenzung der EDA beitragen können.
Antworten:
Ich denke, die Hauptsache ist, ehrlich zu sein, wenn solche Ergebnisse gemeldet werden, bei denen es sich um unerwartete Ergebnisse von EDA handelt und die nicht Teil des ursprünglichen Analyseplans sind, der auf einer A-priori- Hypothese basiert . Einige Leute bezeichnen solche Ergebnisse gerne als "hypothesengenerierend": Beispielsweise enthält der erste Treffer einer Suche nach diesem Ausdruck in Google Scholar im Abschnitt "Zusammenfassung" Folgendes:
Da es sich um eine "explorative" Analyse handelte, sollte dieser Effekt als Hypothese angesehen und prospektiv in anderen Studien bewertet werden ...
Beachten Sie jedoch, dass es sich um eine post-hoc-Subgruppenanalyse handelte, die aus einer randomisierten Kontrollstudie und nicht aus einer Beobachtungsstudie stammte, in der sich das Problem verschlimmert. Philip Cole verachtete die Idee, dass Beobachtungsstudien ("epidemiologische" Studien) Hypothesen in einem bewusst provokativen, aber unterhaltsamen Kommentar erzeugen können:
P Cole. Die hypothesengenerierende Maschine. Epidemiology 1993; 4 : 271 & ndash; 273.
quelle
Ich möchte dem interessierten Leser nur einige Hinweise zu Datenbaggern und klinischen Studien geben . Dies soll die gute Antwort von @onestop erweitern . Ich habe versucht, Artikel zu vermeiden, die sich nur auf mehrere Vergleiche oder Designprobleme konzentrieren, obwohl Studien mit mehreren Endpunkten weiterhin herausfordernde und kontroverse Diskussionen darstellen (lange nach Rothmans Behauptungen über nutzlose Anpassungen , Epidemiology 1990, 1: 43-46; oder siehe Feises Rezension in BMC Medical Research Methodology 2002, 2: 8).
Mein Verständnis ist, dass meine Frage , obwohl ich über explorative Datenanalyse gesprochen habe , allgemeiner die Verwendung von Data Mining mit seinen potenziellen Fallstricken parallel zu hypothesengetriebenen Tests behandelt.
quelle