Kontext
Eine Gruppe von Sozialwissenschaftlern und Statistikern ( Benjamin et al., 2017 ) hat kürzlich vorgeschlagen, dass die typische falsch-positive Rate ( = 0,05), die als Schwelle für die Bestimmung der "statistischen Signifikanz" verwendet wird, an eine konservativere Schwelle angepasst werden muss ( = .005). Eine konkurrierende Gruppe von Sozialwissenschaftlern und Statistikern ( Lakens et al., 2018 ) hat geantwortet und sich gegen die Verwendung dieser - oder einer anderen - willkürlich gewählten Schwelle ausgesprochen . Das Folgende ist ein Zitat von Lakens et al. (S. 16) das hilft, das Thema meiner Frage zu veranschaulichen:
Im Idealfall wird das Alpha-Niveau durch Vergleichen von Kosten und Nutzen mit einer Nutzenfunktion unter Verwendung der Entscheidungstheorie bestimmt. Diese Kosten-Nutzen-Analyse (und damit das Alpha-Niveau) unterscheidet sich bei der Analyse großer vorhandener Datensätze von der Erfassung von Daten aus schwer zu beschaffenden Proben. Die Wissenschaft ist vielfältig, und es liegt an den Wissenschaftlern, das von ihnen gewählte Alpha-Niveau zu begründen. ... Die Forschung sollte sich an strengen wissenschaftlichen Grundsätzen orientieren, nicht an Heuristiken und willkürlichen pauschalen Schwellenwerten.
Frage
Ich frage mich, wie man ein ausgewähltes Alpha so rechtfertigen kann, dass es sich "an Grundsätzen strenger Wissenschaft orientiert", wie Lakens et al. In den meisten sozialwissenschaftlichen Kontexten (dh außerhalb ausgewählter Fälle, in denen man eine konkretere Qualität wie Profit hat, um zu optimieren) vorschlagen?
Nach der Verbreitung von Lakens et al. Habe ich angefangen, Online-Taschenrechner im Umlauf zu sehen, um Forschern bei dieser Entscheidung zu helfen. Bei ihrer Verwendung müssen Forscher ein "Kostenverhältnis" von falsch-positiven und falsch-negativen Fehlern angeben. Wie dieser Taschenrechner hier vorschlägt, kann das Bestimmen eines solchen Kostenverhältnisses jedoch eine Menge quantitativer Vermutungen erfordern:
Während einige Fehlerkosten monetär leicht zu beziffern sind (direkte Kosten), ist es für andere schwierig, einen Dolar-Betrag anzugeben (indirekte Kosten). ... Trotz der schwierigen Quantifizierung sollten Sie sich bemühen, ihnen eine Zahl zuzuweisen.
Zum Beispiel, obwohl Lakens et al. Schlagen Sie vor, schwer erreichbare Stichproben als einen Faktor zu untersuchen, den man für die Rechtfertigung von Alpha in Betracht ziehen könnte. Es scheint, als würde man immer noch raten, wie schwer diese Stichprobe zu erreichen ist und wie man die Auswahl von Alpha entsprechend anpasst. Als weiteres Beispiel erscheint es mir schwierig, die Kosten für die Veröffentlichung eines Falsch-Positivs zu beziffern, wenn man bedenkt, wie viel Zeit / Geld andere später für die Verfolgung von Untersuchungen auf der Grundlage der falschen Schlussfolgerung aufwenden würden.
Wenn die Ermittlung dieser Kostenquote größtenteils auf subjektiven Best-Guess-Making beruht, frage ich mich, ob diese Entscheidungen jemals (auch außerhalb der Optimierung von Gewinnen) "gerechtfertigt" werden können. Das heißt, auf eine Weise, die außerhalb der getroffenen Annahmen über Stichproben, Kompromisse, Auswirkungen usw. Besteht. Auf diese Weise erscheint mir die Bestimmung eines Kostenverhältnisses von falsch-positiven / falsch-negativen Fehlern so ähnlich wie die Auswahl eines Priores in der Bayes'schen Folgerung - eine Entscheidung, die etwas subjektiv sein kann, die Ergebnisse beeinflusst und daher diskutiert wird. -Obwohl ich nicht sicher bin, ob das ein vernünftiger Vergleich ist.
Zusammenfassung
Um meine Anfrage konkret zu machen:
- Können falsch-positive / falsch-negative Quoten und ihre Kostenverhältnisse in den meisten sozialwissenschaftlichen Zusammenhängen jemals "rigoros" gerechtfertigt werden?
- Wenn ja, nach welchen verallgemeinerbaren Grundsätzen könnte man diese analytischen Entscheidungen rechtfertigen (und vielleicht ein oder zwei Beispiele in Aktion)?
- Wenn nicht, ist meine Analogie zur möglichen Subjektivität bei der Auswahl der Kostenquoten - ähnlich wie bei der Bayes'schen Vorauswahl - vernünftig?
Verweise
Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 22. Juli). Definieren Sie die statistische Signifikanz neu. Abgerufen von psyarxiv.com/mky9j
Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA, ... Zwaan, RA (2018, 15. Januar). Begründen Sie Ihr Alpha. Abgerufen von psyarxiv.com/9s3y6
Antworten:
(auch auf Twitter gepostet, aber hier neu gepostet) Mein Versuch einer Antwort: Ich glaube nicht, dass eine Rechtfertigung "rein" objektiv sein kann, aber sie kann auf Kriterien beruhen, die aus rationalen / empirischen Gründen vertretbar sind. Ich denke, RSS ist ein Beispiel dafür, wie man p <.005 für bestimmte Arten von Recherchen rechtfertigen könnte, aber ich denke auch, dass es andere Umstände gibt, unter denen ein anderes Alpha je nach Wert besser als <.005 (entweder höher oder niedriger) wäre Was ist Alpha machbar und was ist der Zweck der Studie? Wenn Sie zum Beispiel 5.000 Teilnehmer haben und die kleinste interessierende Effektgröße .10 ist, möchten Sie möglicherweise p <.001 verwenden und 90% Leistung haben (Zahlen sind alle zusammengesetzt). Angenommen, Sie führen ein kleines Experiment durch als initialer „Proof of Concept“ für Forschungszwecke. Sie könnten N = 100, p <.10, 90% Leistung haben,
quelle
Ich habe in letzter Zeit viel über die gleiche Frage nachgedacht, und ich denke, viele andere in der Psychologie sind es auch.
Zunächst einmal bezieht sich jede Ihrer Fragen darauf, ob eine Entscheidung objektiv oder subjektiv getroffen wird, aber wie andere hier angemerkt haben, haben Sie nicht vollständig erklärt, was aus Ihrer Sicht eine objektive oder subjektive Entscheidung darstellt.
Das könnte Sie auch interessieren Gelman & Hennig-Papier 2015 , das eine Vielzahl von Werten auspackt, die in der Wissenschaft in der gängigen Verwendung der Bezeichnungen „objektiv“ und „subjektiv“ verwendet werden. In ihrer Formulierung bezieht sich „objektiv“ auf Werte wie Transparenz, Konsens, Unparteilichkeit und Übereinstimmung mit der beobachtbaren Realität, während sich „subjektiv“ auf Werte mit mehreren Perspektiven und Kontextabhängigkeit bezieht.
In Bezug auf Ihre Frage 3 wird die Wahrscheinlichkeit in der Bayes'schen Sicht als Quantifizierung der Unsicherheit über die Welt definiert. Soweit ich weiß, gibt es Spannungen zwischen „subjektivistischem Bayesianismus“ (Wahrscheinlichkeiten spiegeln individuelle Glaubenszustände wider) und „objektivistischem Bayesianismus“ (Wahrscheinlichkeiten spiegeln Konsensus-Plausibilität wider). Innerhalb der objektivistischen Schule wird die Rechtfertigung der vorherigen Verteilung (und des Modells allgemeiner) auf transparente Weise, die mit dem Konsens vereinbar ist und überprüft werden kann, stärker betont, aber die Wahl des Modells ist sicherlich kontextabhängig (d. H , hängt vom Kenntnisstand des Konsenses für ein bestimmtes Problem ab).
In der Konzeption der Frequentisten spiegeln Wahrscheinlichkeiten die Häufigkeit wider, mit der ein Ereignis bei unendlichen unabhängigen Wiederholungen auftritt. Innerhalb des Neyman-Pearson-Rahmens gibt man eine genaue Alternativhypothese und ein genaues Alpha an, akzeptiert die genaue Null oder die genaue Alternative (der Bevölkerungseffekt ist genau gleich der vereinbarten) auf der Grundlage der Daten und meldet dann die Langfristige Häufigkeit von Fehlern.
Innerhalb dieses Rahmens haben wir selten eine genaue Punktschätzung der Populationswirkungsgröße, sondern eine Reihe plausibler Werte. Daher haben wir, abhängig von einem gegebenen Alpha, keine genaue Schätzung der Typ-2-Fehlerrate, sondern einen Bereich plausibler Typ-2-Fehlerraten. In ähnlicher Weise stimme ich Ihrem allgemeinen Standpunkt zu, dass wir in der Regel nicht genau wissen, wie hoch die Kosten und der Nutzen eines Fehlers vom Typ 1 oder Typ 2 tatsächlich sind. Dies bedeutet, dass wir häufig mit einer Situation konfrontiert sind, in der wir nur sehr unvollständige Informationen darüber haben, wie unsere Hypothese aussehen sollte, und noch weniger Informationen darüber, was die relativen Kosten und Vorteile einer Annahme oder Ablehnung dieser Hypothese wären.
zu Ihren Fragen:
Ich bin der Meinung, dass eine Begründung transparent sein, mit dem Konsens vereinbar sein, unparteiisch sein und der Realität entsprechen kann (sofern wir die besten verfügbaren Informationen über Kosten und Nutzen verwenden).
Ich denke jedoch, dass solche Begründungen auch subjektiv sind, da es mehrere gültige Perspektiven dafür geben kann, wie Alpha für ein gegebenes Problem festgelegt wird, und was ein angemessenes Alpha ausmacht, sinnvoll kontextabhängig sein kann.
Beispielsweise hat sich in den letzten Jahren herausgestellt, dass viele Effekte in der Literatur Fehler vom Typ M oder Typ S widerspiegeln. Sie können auch Fehler des Typs 1 widerspiegeln, sofern eine Replikationsstudie den Nullpunkt mit genau null Effekt nachweisen kann.
Im Zusammenhang mit dieser Beobachtung zeichnet sich ein Konsens ab, dass die p-Wert-Schwelle für einen Anspruch mit Sicherheit gleich bleiben oder verschärft werden sollte (dh, niemand spricht sich für eine pauschale Erhöhung des Alpha-Werts auf 0,10 oder 0,20 aus). . Ebenso zeichnet sich ein Konsens ab, dass p-Werte nicht als Veröffentlichungskriterium verwendet werden sollten (z. B. das Format des registrierten Berichts).
Für mich ist dies eine Art „objektive“ Informationsquelle. Meiner Ansicht nach gibt es einen wachsenden Konsens darüber, dass falsche Behauptungen für das Feld kostspielig sind (auch wenn wir diese Kosten nicht mit einem Dollar belasten können). Meiner Ansicht nach besteht kein eindeutiger Konsens darüber, dass die Nichteinhaltung eines p-Wert-Schwellenwerts dramatische Kosten für das Feld darstellt. Wenn Kosten anfallen, können sie gemindert werden, wenn die Nichteinhaltung eines p-Wert-Schwellenwerts keinen Einfluss darauf hat, ob die Schätzung es in ein veröffentlichtes Papier schafft.
Ich bin mir nicht sicher, aber ich würde mich auf eine Art Grundsatz stützen, dass die Entscheidungen auf der Grundlage transparenter (lokaler oder globaler) Konsensentscheidungen über die Kosten und den Nutzen verschiedener Arten von analytischen Entscheidungen in einem bestimmten Kontext getroffen werden sollten, auch in das Gesicht von traurig unvollständigen Informationen darüber, was diese Kosten und Nutzen sein könnten.
Ja, über die häufig auftretenden und bayesianischen Traditionen hinweg gibt es in vielen verschiedenen Aspekten eines statistischen Modells Raum für Subjektivität (dh multiple Perspektiven und Kontextabhängigkeit) sowie Objektivität (dh Transparenz, Konsens, Unparteilichkeit und Übereinstimmung mit der beobachtbaren Realität) und wie dieses Modell verwendet wird (der gewählte Prior, die gewählte Wahrscheinlichkeit, die gewählte Entscheidungsschwelle usw.).
quelle