Was ist der Unterschied zwischen einem statistischen Nullhypothesentest und einem anderen Test?

Ein aktuelles heißes Diskussionsthema betrifft eine Zeitschrift, die die Verwendung von "statistischen Nullhypothesen-Testverfahren (NHSTPs)" aus Artikeln verbietet, die an die Zeitschrift übermittelt wurden. Ich sehe diesen Begriff von einigen Schriftstellern verwendet, aber ich verstehe nicht, welchen Unterschied sie machen wollen. Unterscheidet sich ein NHSTP von einem "Hypothesentest" oder einem "Signifikanztest"?

hypothesis-testing statistical-significance terminology Russ Lenth
quelle

Ein etwas häufiger verwendetes Akronym ist NHST (am Ende ohne P). Beide Akronyme scheinen abwertende Begriffe zu sein, die von Schriftstellern verwendet werden, die sie hassen (im Kontext einer solchen Polemik). Sie können einen Blick auf die Google Scholar-Suche nach NHST + null werfen (1670 Ergebnisse gegenüber nur 145 für NHSTP + null) - es geht nur um Probleme und Probleme damit. Ein anderer verwandter abwertender Begriff ist "Nullritual". All das bedeutet, was Sie denken, dass es bedeutet, aber mit starkem Ekel ausgesprochen!

Amöbe

Es gibt Tests, die sich fiktiv von den üblichen NHST unterscheiden, wie beispielsweise Äquivalenztests - obwohl sie mechanisch (aber nicht überraschend) ein eng verwandtes Framework verwenden. Ich kann mir jedoch vorstellen, dass der Herausgeber der fraglichen Zeitschrift wahrscheinlich auch dagegen argumentieren würde.

Glen_b -State Monica

Verwandte (aber kein Duplikat): Was ist der Unterschied zwischen "Prüfung der Hypothese" und "Prüfung der Signifikanz"? Ich möchte auch darauf hinweisen, dass die Herausgeber dieser Zeitschrift eindeutig nicht versuchen, zwischen alledem zu unterscheiden! Sie verbieten alle Arten von Hypothesen / Signifikanzen / Tests, sei es Fisher, Neyman-Pearson oder Hybrid. Die Unterscheidung erfolgt nur im Zusammenhang mit dem heiligen Krieg zwischen Fisher und Neyman-Pearson (gegen Hybrid), um den es in diesem speziellen Journalverbot nicht ging.

Amöbe

Also, @Livid, Sie sagen, dass "NHST" sich auf die Art und Weise bezieht, wie statistische Tests in der Praxis normalerweise verwendet werden, im Unterschied zum Fisher- und zum NP-Paradigma? Ich denke, wenn dies wiederum ein routinemäßiges und gedankenloses Drehen der Kurbel impliziert, würde ich zustimmen, dass es ein abwertender Begriff ist.

Russ Lenth

@rvl Hier ist das Papier (+ Kommentar), an das ich früher gedacht habe: Präzision von statistischer Bedeutung: Begründung, Gültigkeit und Nützlichkeit. Siu L. Chow. VERHALTENS- UND GEHIRNWISSENSCHAFTEN (1998) 21, 169–239

Livid

Hintergrund: Die Redaktion in Frage ist ein von Grundlagen- und angewandte Sozialpsychologie , eine Zeitschrift mit 2015 Impaktfaktor 1,168, also nicht sehr zitierfähig.

Betreff : OP-Frage , dh unterscheidet sich ein NHSTP von einem "Hypothesentest" oder einem "Signifikanztest"? Die zutreffenden redaktionellen Aussagen sind

1) "...the null hypothesis significance testing procedure (NHSTP)  is invalid..." [Sic, with alpha = 0.05]
2) "...authors will have to remove all vestiges of the NHSTP (p-values, t-values, F-values, statements about ‘‘significant’’ differences or lack thereof, and so on)."
3) "...confidence intervals [Sic, 95%] also are banned from BASP."
4) "...Bayesian procedures are neither required nor banned from BASP." [Sic, depends on which ones, they are either banned or not.]
5) "Are any inferential statistical procedures required?...No..."

Die Motivation dafür ist zum Teil "... der Balken ist zu leicht zu überschreiten und dient manchmal als Entschuldigung für Forschung von geringerer Qualität. Wir hoffen und erwarten, dass ein Verbot des NHSTP die Qualität erhöht von eingereichten Manuskripten durch Befreiung der Autoren von der stultifizierten Struktur des NHSTP-Denkens, wodurch ein wichtiges Hindernis für das kreative Denken beseitigt wird. " $p<.05$

Antwort an OP: Diese Redakteure würden wahrscheinlich behaupten, ein Signifikanztest sei oft ein unangemessener Hypothesentest. Zum Beispiel heißt es, dass "... Bayes'sche Vorschläge, die die Laplace-Annahme zumindest etwas umgehen [Sic, ich weiß nichts a priori ] ... [so dass] es sogar Fälle geben könnte, in denen es starke Gründe für die Annahme gibt, dass die Zahlen sind wirklich da ... "Dies bezieht sich teilweise auf das Argument von Fisher gegen Neyman und Pearson, wie es oben von @Livid herausgestellt wurde und für das das Editorial auf der Seite von Fisher stehen würde.

Diskussion: Ich glaube fest an intellektuelle Demut als einen grundlegenden und unverzichtbaren Grundsatz wissenschaftlicher Methoden. Wenn ich als Forscher nicht von einer annahmelosen anfänglichen Prämisse ausgehen darf, an die alle früheren Theorien nicht glauben, verliere ich meine Fähigkeit, Daten kreativ und offen zu untersuchen. Die Prämisse, dass jede numerische Verarbeitung absolute Wahrheit sein muss, ist eine Darstellung der Cupidität, die erhaben ist. Die einzige Wahrheit sind Daten, und ich würde Box demütig umschreibenindem festgestellt wird, dass alle Modelle falsch sind, insbesondere diejenigen, die davon ausgehen, dass jede Wahrheit aus etwas resultiert, das nicht identisch mit den Daten selbst ist. Das bedeutet nicht, dass ich mich zwischen Fisher und Neyman / Pearson entscheiden muss, sondern dass ich fest davon überzeugt bin, dass keine Prämisse allein genommen wird, sondern dass ich die Dinge gründlich untersuche, bis meine Hypothesen unterstützt und / oder zur Selbstkonsistenz des Ensembles zurückgewiesen werden. Als Kriterium kann nur die Selbstkonsistenz herangezogen werden, da keine Analyse eine absolute Wahrheit offenbaren kann.

Meine Art Dinge zu tun ist nicht jedermanns Sache. Viele bevorzugen es, Tests in einem starr kontrollierten Versuchsplan zu planen, den ich als "von oben nach unten" bezeichnen würde. Kontrollierte Experimente sind jedoch für Data Mining, Mustererkennung und Generierung von Hypothesen ineffizient. Sie sind nützlich, um enge Fragen zu testen, und dann kann es zu Kontroversen über NHSTP kommen. Ohne Belege, z. B. eine ganze Struktur der Selbstkonsistenz, auf die man sich verlassen kann, ist jeder Test kritikwürdig. Dies könnte umgekehrt als Bonferroni angesehen werden; Wenn mehrere Tests zu einem unausweichlich selbstkonsistenten Ensemble führen, verringert sich die Wahrscheinlichkeit, dass das Ensemble nur zufällig auftritt. In Planungsexperimenten für die Psychologie ist der Unsinn, nicht zu verwenden $p<0.05$ Dies ist darauf zurückzuführen, dass nicht alle Auswirkungen eines bestimmten Testergebnisses getestet werden. Wenn ein Fehler vom Typ I von nicht toleriert werden kann, weil der Versuchsaufbau so starr, eingeschränkt und eng ist, verwenden Sie . Ein bestimmtes statistisches Verfahren zu verbieten, weil es sinnlos verwendet wird und sinnlose Arbeit bei der Prüfung nicht bestanden wird, bedeutet lediglich, dass die Redakteure keine minderwertige Arbeit identifizieren, bevor sie einer Überprüfung zustimmen, und sich nicht an qualifizierte Prüfer wenden. Sicherlich kann man keine vernünftige Überzeugung auf der Grundlage eines einzigen Indizienbeweises begründen. Ein Ensemble von Indizienbeweisen führt vielmehr zu einer vernünftigen Überzeugung. Beseitigung einer ganzen Kategorie von Beweisen, weil dies umständlich ist $0.05$ $0.001$ verbessert den Inhalt eines Journals nicht.

Carl
quelle

"... als grundlegender und unverzichtbarer Mieter wissenschaftlicher Methoden ..." - Ich gehe davon aus, dass Sie eher Grundsatz als Mieter meinen .

Glen_b -State Monica

@Glen_b Je tiens à vous remercier . Ich hätte es besser wissen sollen, aber ich erwarte, dass sowieso alles falsch ist. Ergo im Übrigen irgendwelche Gedanken?

Carl

Was ist der Unterschied zwischen einem statistischen Nullhypothesentest und einem anderen Test?

Antworten: