Wie können die gewählten falsch-positiven / falsch-negativen Fehlerquoten und die zugrunde liegende Kostenquote konsequent gerechtfertigt werden?

12

Kontext

Eine Gruppe von Sozialwissenschaftlern und Statistikern ( Benjamin et al., 2017 ) hat kürzlich vorgeschlagen, dass die typische falsch-positive Rate ( = 0,05), die als Schwelle für die Bestimmung der "statistischen Signifikanz" verwendet wird, an eine konservativere Schwelle angepasst werden muss ( = .005). Eine konkurrierende Gruppe von Sozialwissenschaftlern und Statistikern ( Lakens et al., 2018 ) hat geantwortet und sich gegen die Verwendung dieser - oder einer anderen - willkürlich gewählten Schwelle ausgesprochen . Das Folgende ist ein Zitat von Lakens et al. (S. 16) das hilft, das Thema meiner Frage zu veranschaulichen:αα

Im Idealfall wird das Alpha-Niveau durch Vergleichen von Kosten und Nutzen mit einer Nutzenfunktion unter Verwendung der Entscheidungstheorie bestimmt. Diese Kosten-Nutzen-Analyse (und damit das Alpha-Niveau) unterscheidet sich bei der Analyse großer vorhandener Datensätze von der Erfassung von Daten aus schwer zu beschaffenden Proben. Die Wissenschaft ist vielfältig, und es liegt an den Wissenschaftlern, das von ihnen gewählte Alpha-Niveau zu begründen. ... Die Forschung sollte sich an strengen wissenschaftlichen Grundsätzen orientieren, nicht an Heuristiken und willkürlichen pauschalen Schwellenwerten.

Frage

Ich frage mich, wie man ein ausgewähltes Alpha so rechtfertigen kann, dass es sich "an Grundsätzen strenger Wissenschaft orientiert", wie Lakens et al. In den meisten sozialwissenschaftlichen Kontexten (dh außerhalb ausgewählter Fälle, in denen man eine konkretere Qualität wie Profit hat, um zu optimieren) vorschlagen?

Nach der Verbreitung von Lakens et al. Habe ich angefangen, Online-Taschenrechner im Umlauf zu sehen, um Forschern bei dieser Entscheidung zu helfen. Bei ihrer Verwendung müssen Forscher ein "Kostenverhältnis" von falsch-positiven und falsch-negativen Fehlern angeben. Wie dieser Taschenrechner hier vorschlägt, kann das Bestimmen eines solchen Kostenverhältnisses jedoch eine Menge quantitativer Vermutungen erfordern:

Während einige Fehlerkosten monetär leicht zu beziffern sind (direkte Kosten), ist es für andere schwierig, einen Dolar-Betrag anzugeben (indirekte Kosten). ... Trotz der schwierigen Quantifizierung sollten Sie sich bemühen, ihnen eine Zahl zuzuweisen.

Zum Beispiel, obwohl Lakens et al. Schlagen Sie vor, schwer erreichbare Stichproben als einen Faktor zu untersuchen, den man für die Rechtfertigung von Alpha in Betracht ziehen könnte. Es scheint, als würde man immer noch raten, wie schwer diese Stichprobe zu erreichen ist und wie man die Auswahl von Alpha entsprechend anpasst. Als weiteres Beispiel erscheint es mir schwierig, die Kosten für die Veröffentlichung eines Falsch-Positivs zu beziffern, wenn man bedenkt, wie viel Zeit / Geld andere später für die Verfolgung von Untersuchungen auf der Grundlage der falschen Schlussfolgerung aufwenden würden.

Wenn die Ermittlung dieser Kostenquote größtenteils auf subjektiven Best-Guess-Making beruht, frage ich mich, ob diese Entscheidungen jemals (auch außerhalb der Optimierung von Gewinnen) "gerechtfertigt" werden können. Das heißt, auf eine Weise, die außerhalb der getroffenen Annahmen über Stichproben, Kompromisse, Auswirkungen usw. Besteht. Auf diese Weise erscheint mir die Bestimmung eines Kostenverhältnisses von falsch-positiven / falsch-negativen Fehlern so ähnlich wie die Auswahl eines Priores in der Bayes'schen Folgerung - eine Entscheidung, die etwas subjektiv sein kann, die Ergebnisse beeinflusst und daher diskutiert wird. -Obwohl ich nicht sicher bin, ob das ein vernünftiger Vergleich ist.

Zusammenfassung

Um meine Anfrage konkret zu machen:

  1. Können falsch-positive / falsch-negative Quoten und ihre Kostenverhältnisse in den meisten sozialwissenschaftlichen Zusammenhängen jemals "rigoros" gerechtfertigt werden?
  2. Wenn ja, nach welchen verallgemeinerbaren Grundsätzen könnte man diese analytischen Entscheidungen rechtfertigen (und vielleicht ein oder zwei Beispiele in Aktion)?
  3. Wenn nicht, ist meine Analogie zur möglichen Subjektivität bei der Auswahl der Kostenquoten - ähnlich wie bei der Bayes'schen Vorauswahl - vernünftig?

Verweise

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 22. Juli). Definieren Sie die statistische Signifikanz neu. Abgerufen von psyarxiv.com/mky9j

Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA, ... Zwaan, RA (2018, 15. Januar). Begründen Sie Ihr Alpha. Abgerufen von psyarxiv.com/9s3y6

jsakaluk
quelle
4
Können Sie definieren, wie Sie "objektiv gerechtfertigt" verwenden? Typ - I - Fehlerwahrscheinlichkeiten sind ein Forscher Präferenz ... wie sind a priori , Typ - II - Fehlerwahrscheinlichkeiten. Inwiefern würde ein Forscher eine bevorzugte Forschungsagenda, einen bevorzugten Forschungsmitarbeiter oder -finanzierer oder einen bevorzugten Ansatz für die Ausbildung und Betreuung von Forschungsassistenten "objektiv rechtfertigen"?
Alexis
1
Objektiv gerechtfertigt wie in mehr als einer bloßen Präferenz. Die Veröffentlichung von Lakens et al. Wird derzeit unter dem Kürzel "JYA" [Justify Your Alpha] veröffentlicht, und ich habe gelesen, dass ihre Argumentation, die auf den obigen Zitaten basiert, keine alte Präferenz ausreicht. Um es klar auszudrücken: Ich mache nicht unbedingt das Argument geltend, dass man eine ausgewählte Typ I / II-Fehlerrate objektiv rechtfertigen kann. Meine Untersuchung basiert vielmehr auf der Interpretation von Lakens et al. um vorzuschlagen, dass Sie können, und wenn das der Fall ist, dann verstehe ich nicht, wie man es tun würde.
jsakaluk
3
Ich sehe das Wort "objektiv" in diesem Zitat von Lakens et al. Nicht. Verwenden sie es wirklich in ihrer Zeitung? Wenn ja, könnten Sie vielleicht ein weiteres Zitat hinzufügen, um einen spezifischeren Kontext bereitzustellen? Wenn nicht, dann bin ich mir nicht sicher, ob Sie Dinge wie "objektiv rechtfertigen ein ausgewähltes Alpha, wie Lakens et al. Vorschlagen" sagen können.
Amöbe sagt Reinstate Monica
2
Ich habe den Beitrag aktualisiert, der jetzt von "Objektivität" befreit ist. Es war nicht meine Absicht, das Argument falsch zu charakterisieren, aber ich kann verstehen, wenn die Leser dachten, ich hätte nachlässig geschrieben. Lakens et al. tun verwenden den Descriptor von „von den Prinzipien der wissenschaftlichen Strenge geführt“, so meine Frage ist nun auf sichereren Halt ist. Ich frage mich jedoch immer noch, was das bedeuten kann. Wie ist das Rätselraten notwendiger als eine Heuristik? Wenn es einen Unterschied macht, bin ich besonders neugierig, wie ein wissenschaftlicher Realist eine wissenschaftlich strenge Rechtfertigung für Alpha erreichen würde.
jsakaluk
2
α

Antworten:

1

(auch auf Twitter gepostet, aber hier neu gepostet) Mein Versuch einer Antwort: Ich glaube nicht, dass eine Rechtfertigung "rein" objektiv sein kann, aber sie kann auf Kriterien beruhen, die aus rationalen / empirischen Gründen vertretbar sind. Ich denke, RSS ist ein Beispiel dafür, wie man p <.005 für bestimmte Arten von Recherchen rechtfertigen könnte, aber ich denke auch, dass es andere Umstände gibt, unter denen ein anderes Alpha je nach Wert besser als <.005 (entweder höher oder niedriger) wäre Was ist Alpha machbar und was ist der Zweck der Studie? Wenn Sie zum Beispiel 5.000 Teilnehmer haben und die kleinste interessierende Effektgröße .10 ist, möchten Sie möglicherweise p <.001 verwenden und 90% Leistung haben (Zahlen sind alle zusammengesetzt). Angenommen, Sie führen ein kleines Experiment durch als initialer „Proof of Concept“ für Forschungszwecke. Sie könnten N = 100, p <.10, 90% Leistung haben,

Mark Hoffarth
quelle
1

Ich habe in letzter Zeit viel über die gleiche Frage nachgedacht, und ich denke, viele andere in der Psychologie sind es auch.

Zunächst einmal bezieht sich jede Ihrer Fragen darauf, ob eine Entscheidung objektiv oder subjektiv getroffen wird, aber wie andere hier angemerkt haben, haben Sie nicht vollständig erklärt, was aus Ihrer Sicht eine objektive oder subjektive Entscheidung darstellt.

Das könnte Sie auch interessieren Gelman & Hennig-Papier 2015 , das eine Vielzahl von Werten auspackt, die in der Wissenschaft in der gängigen Verwendung der Bezeichnungen „objektiv“ und „subjektiv“ verwendet werden. In ihrer Formulierung bezieht sich „objektiv“ auf Werte wie Transparenz, Konsens, Unparteilichkeit und Übereinstimmung mit der beobachtbaren Realität, während sich „subjektiv“ auf Werte mit mehreren Perspektiven und Kontextabhängigkeit bezieht.

In Bezug auf Ihre Frage 3 wird die Wahrscheinlichkeit in der Bayes'schen Sicht als Quantifizierung der Unsicherheit über die Welt definiert. Soweit ich weiß, gibt es Spannungen zwischen „subjektivistischem Bayesianismus“ (Wahrscheinlichkeiten spiegeln individuelle Glaubenszustände wider) und „objektivistischem Bayesianismus“ (Wahrscheinlichkeiten spiegeln Konsensus-Plausibilität wider). Innerhalb der objektivistischen Schule wird die Rechtfertigung der vorherigen Verteilung (und des Modells allgemeiner) auf transparente Weise, die mit dem Konsens vereinbar ist und überprüft werden kann, stärker betont, aber die Wahl des Modells ist sicherlich kontextabhängig (d. H , hängt vom Kenntnisstand des Konsenses für ein bestimmtes Problem ab).

In der Konzeption der Frequentisten spiegeln Wahrscheinlichkeiten die Häufigkeit wider, mit der ein Ereignis bei unendlichen unabhängigen Wiederholungen auftritt. Innerhalb des Neyman-Pearson-Rahmens gibt man eine genaue Alternativhypothese und ein genaues Alpha an, akzeptiert die genaue Null oder die genaue Alternative (der Bevölkerungseffekt ist genau gleich der vereinbarten) auf der Grundlage der Daten und meldet dann die Langfristige Häufigkeit von Fehlern.

Innerhalb dieses Rahmens haben wir selten eine genaue Punktschätzung der Populationswirkungsgröße, sondern eine Reihe plausibler Werte. Daher haben wir, abhängig von einem gegebenen Alpha, keine genaue Schätzung der Typ-2-Fehlerrate, sondern einen Bereich plausibler Typ-2-Fehlerraten. In ähnlicher Weise stimme ich Ihrem allgemeinen Standpunkt zu, dass wir in der Regel nicht genau wissen, wie hoch die Kosten und der Nutzen eines Fehlers vom Typ 1 oder Typ 2 tatsächlich sind. Dies bedeutet, dass wir häufig mit einer Situation konfrontiert sind, in der wir nur sehr unvollständige Informationen darüber haben, wie unsere Hypothese aussehen sollte, und noch weniger Informationen darüber, was die relativen Kosten und Vorteile einer Annahme oder Ablehnung dieser Hypothese wären.

zu Ihren Fragen:

  1. Können falsch-positive / falsch-negative Quoten und ihre Kostenverhältnisse in den meisten sozialwissenschaftlichen Zusammenhängen jemals objektiv gerechtfertigt werden?

Ich bin der Meinung, dass eine Begründung transparent sein, mit dem Konsens vereinbar sein, unparteiisch sein und der Realität entsprechen kann (sofern wir die besten verfügbaren Informationen über Kosten und Nutzen verwenden).

Ich denke jedoch, dass solche Begründungen auch subjektiv sind, da es mehrere gültige Perspektiven dafür geben kann, wie Alpha für ein gegebenes Problem festgelegt wird, und was ein angemessenes Alpha ausmacht, sinnvoll kontextabhängig sein kann.

Beispielsweise hat sich in den letzten Jahren herausgestellt, dass viele Effekte in der Literatur Fehler vom Typ M oder Typ S widerspiegeln. Sie können auch Fehler des Typs 1 widerspiegeln, sofern eine Replikationsstudie den Nullpunkt mit genau null Effekt nachweisen kann.

Im Zusammenhang mit dieser Beobachtung zeichnet sich ein Konsens ab, dass die p-Wert-Schwelle für einen Anspruch mit Sicherheit gleich bleiben oder verschärft werden sollte (dh, niemand spricht sich für eine pauschale Erhöhung des Alpha-Werts auf 0,10 oder 0,20 aus). . Ebenso zeichnet sich ein Konsens ab, dass p-Werte nicht als Veröffentlichungskriterium verwendet werden sollten (z. B. das Format des registrierten Berichts).

Für mich ist dies eine Art „objektive“ Informationsquelle. Meiner Ansicht nach gibt es einen wachsenden Konsens darüber, dass falsche Behauptungen für das Feld kostspielig sind (auch wenn wir diese Kosten nicht mit einem Dollar belasten können). Meiner Ansicht nach besteht kein eindeutiger Konsens darüber, dass die Nichteinhaltung eines p-Wert-Schwellenwerts dramatische Kosten für das Feld darstellt. Wenn Kosten anfallen, können sie gemindert werden, wenn die Nichteinhaltung eines p-Wert-Schwellenwerts keinen Einfluss darauf hat, ob die Schätzung es in ein veröffentlichtes Papier schafft.

  1. Wenn ja, nach welchen verallgemeinerbaren Grundsätzen könnte man diese analytischen Entscheidungen rechtfertigen (und vielleicht ein oder zwei Beispiele in Aktion)?

Ich bin mir nicht sicher, aber ich würde mich auf eine Art Grundsatz stützen, dass die Entscheidungen auf der Grundlage transparenter (lokaler oder globaler) Konsensentscheidungen über die Kosten und den Nutzen verschiedener Arten von analytischen Entscheidungen in einem bestimmten Kontext getroffen werden sollten, auch in das Gesicht von traurig unvollständigen Informationen darüber, was diese Kosten und Nutzen sein könnten.

  1. Wenn nicht, ist meine Analogie zur möglichen Subjektivität bei der Auswahl der Kostenquoten - ähnlich wie bei der Bayes'schen Vorauswahl - vernünftig?

Ja, über die häufig auftretenden und bayesianischen Traditionen hinweg gibt es in vielen verschiedenen Aspekten eines statistischen Modells Raum für Subjektivität (dh multiple Perspektiven und Kontextabhängigkeit) sowie Objektivität (dh Transparenz, Konsens, Unparteilichkeit und Übereinstimmung mit der beobachtbaren Realität) und wie dieses Modell verwendet wird (der gewählte Prior, die gewählte Wahrscheinlichkeit, die gewählte Entscheidungsschwelle usw.).

Sauerteig
quelle
Das ist eine schöne Antwort. Ein Teil, dessen ich mir nicht so sicher bin, ist der Anspruch auf Korrespondenz. Wenn wir diesen Begriff auf die gleiche Weise verstehen (ich denke in Bezug auf die Korrespondenztheorie der Wahrheit), dann klingt es tatsächlich so, als ob die Korrespondenz auf wackligen Füßen steht, wenn wir keine genaue Vorstellung von den Kosten von Type haben I / II-Fehler. Stattdessen klingt es so, als gäbe es einen besseren Anspruch auf Kohärenz (vorausgesetzt, die restlichen Zahlen sind "sinnvoll") oder Pragmatismus (unsere Vermutung der Fehlerkosten des Typs I / II ist eine nützliche Fiktion für die Studienplanung).
jsakaluk
Vielleicht bin ich zu sehr bemüht, "Rechtfertigung" mit einer korrespondierenden / realistischen Perspektive zu verbinden, und in diesen anderen Verständnisweisen können die Fehlerraten von Typ I / II auf eine Weise gewählt werden, die "gerechtfertigt" ist?
jsakaluk
Vielen Dank, dass Sie mich auf diese Ideen aufmerksam gemacht haben. Ich würde sagen, dass wir in einem bestimmten Kontext möglicherweise gute Informationen über die voraussichtlichen zukünftigen Kosten und Vorteile haben oder dass wir möglicherweise sehr schlechte Informationen haben. In einem sehr groben Sinne besteht ein wachsender Konsens darüber, dass falsch positive Ergebnisse (p <Schwelle, wahrer Effekt ist genau null) für das Feld schädlicher sein können als Fälle, in denen eine Signifikanzschwelle nicht erreicht wird (die Schätzung jedoch trotzdem veröffentlicht wird). Unter bestimmten lokalen Umständen kann das Nichteinhalten einer Signifikanzschwelle zu schwerwiegenderen Kosten führen.
Sauerteig
Tangential existieren die Konzepte von „Alpha“ und „Typ 2-Fehler“ nur im NP-Framework, in dem der Analytiker zwei genaue Hypothesen angegeben hat und sich verpflichtet, am Ende des Verfahrens die eine oder die andere zu akzeptieren. In der gängigen Praxis werden Analysten jedoch häufig gewarnt, die Null auf der Grundlage einer nicht signifikanten Schätzung mit ungewisser Aussagekraft nicht zu akzeptieren. Dabei wird im Wesentlichen auf eine Interpretation nach Fisher-Art zurückgegriffen, bei der die Null nicht akzeptiert wird und kein „Typ-2-Fehler“ vorliegt.
Sauerteig
1
Es ist für mich amüsant, dass die sozialen Netzwerke, die soziale Klasse und die sozialen Interaktionen, die hinter Ihrer Beschreibung von "Konsens" stehen, irgendwie von den subjektiven Überzeugungen und Werten, die allen zugrunde liegen, getrennt sind.
Alexis