Statistik ohne Hypothesentest

7

In seinen Blog-Posts sagt Andrew Gelman, er sei kein Fan von Bayes'schen Hypothesentests (siehe hier: http://andrewgelman.com/2009/02/26/why_i_dont_like/ ), und wenn ich mich nicht falsch erinnere, denke ich, dass er sagt auch, dass das Testen von häufig auftretenden Hypothesen auch Mängel aufweist.

Meine Frage ist: Können Sie Statistiken ohne Hypothesentest auch für (Entschuldigung für die Wiederholung) Hypothesentests erstellen und Entscheidungen treffen? Ist die Lösung, sich nur auf Schätzungen zu verlassen und Entscheidungen auf der Grundlage geschätzter Wahrscheinlichkeiten zu treffen? Wenn ja, können Sie darauf hinweisen, wo Sie mehr darüber erfahren können?

David
quelle
2
Sie können versuchen, Bootstrap-Simulationen durchzuführen, aber ich denke, es wird keine vollständige mathematische Statistik sein.
Alexey Burnakov
4
Ich bin vielleicht weniger weit im Spektrum als Gelman, aber ich muss sagen, dass das Testen von Hypothesen ziemlich selten ein guter Weg ist, um die meisten Fragen zu beantworten, mit denen es beantwortet wird (wir bekommen so viele Fragen, die als Schätzungsprobleme formuliert werden, die ende mit "Welchen Test soll ich verwenden?" ... es macht mich so traurig, dass die Leute nicht einmal sehen können, dass sie keine "testähnliche" Frage gestellt haben; viele Artikel sehen ähnlich aus). Oft sind die eigentlichen Fragen quadratische Stifte, die unerbittlich in das rundliche Loch eines Hypothesentests gehämmert werden, bis Sie nicht mehr bemerken, dass sie nicht die gleiche Form hatten wie zu Beginn.
Glen_b -State Monica
@Glen_b Ich habe versucht, Ergebnisse (die manchmal überzeugend waren und manchmal nicht) nur mit Schätzungen und Grafiken zu präsentieren. Es ist ziemlich häufig, dass dem entgegengewirkt wird: "Aber woher wissen wir, dass es [signifikant / bedeutungsvoll / überprüfbar] ist?" Zu dem es niemals ausreicht zu sagen: "Schau dir dieses Boxplot an. Es ist." Auf der anderen Seite, wenn Sie präsentierenp<0.05Niemand fragt jemals das Gegenteil: "Woher wissen wir, dass der Effekt relevant ist?" Ich denke, es ist ein Paradoxon, das größtenteils von Nicht-Statistikern vorangetrieben wird.
AdamO
Ich verstehe die Schwierigkeit; Die Einstellung ist definitiv Teil der Schwierigkeit, Menschen dazu zu bringen, Tests zumindest zu vermeiden, wenn sie keine Frage haben, die ein Test beantworten würde. Man könnte fortfahren, Standardfehler (in großen Stichproben) und / oder Intervalle anzugeben, um zu demonstrieren, dass ein geschätzter Effekt nicht einfach ein Ergebnis zufälliger Variationen ist. Ich frage mich, ob die Leute, die sagen, dass Sachen wirklich denken, dass ihre Punktnullen tatsächlich wahr sind (wenn sie an Tests glauben, sollten sie wahrscheinlich zumindest Äquivalenztests durchführen).
Glen_b -Reinstate Monica
Ich möchte zwei Punkte hinzufügen: Es wird fälschlicherweise angenommen, dass das Testen von Hypothesen ein wesentlicher Bestandteil der Statistik ist, da es eine unverhältnismäßig große Menge an Statistikunterricht beansprucht. Es ist lächerlich kontraintuitiv und die philosophischen Rückschläge, die es rechtfertigen, lassen die Überlebenden glauben, dass es für jede Datenanalyse kritisch ist. Zweitens führt jeder entscheidungstheoretische Rahmen zu falsch positiven und falsch negativen Ergebnissen: Wir können nur die Leistung maximieren und die Fehlerraten vom Typ I quantifizieren.
AdamO

Antworten:

8

Lassen Sie mich die Freiheit nehmen, die Frage wie folgt zu formulieren: "Was sind die Argumente, die Andrew Gelman gegen das Testen von Hypothesen vorbringt?"

In dem Artikel , der in dem Beitrag verlinkt ist, haben die Autoren Probleme mit der Verwendung eines mechanischen Verfahrens zur Modellauswahl oder, wie sie es ausdrücken:

[Raftery] verspricht das Unmögliche: Die Auswahl eines Modells, das für bestimmte Zwecke geeignet ist, ohne Berücksichtigung dieser Zwecke.

Häufige oder Bayes'sche Hypothesentests sind zwei Beispiele für solche mechanischen Verfahren. Die spezifische Methode, die sie kritisieren, ist die Modellauswahl durch BIC, die mit dem Testen von Bayes'schen Hypothesen zusammenhängt. Sie listen zwei Hauptfälle auf, in denen solche Verfahren schlimm fehlschlagen können:

  1. "Zu viele Daten": Angenommen, Sie haben ein Regressionsmodell yi=βxi+ϵimit beispielsweise 100 normalverteilten Standardregressoren. Sagen Sie, dass der erste Eintrag vonβ ist 1 und alle anderen Einträge sind gleich 1010. Bei genügend Daten würde ein Hypothesentest ergeben, dass alle Schätzungen vonβsind "signifikant". Bedeutet dies, dass wir einbeziehen solltenx2,x3,x100im Modell? Wenn wir daran interessiert wären, einige Beziehungen zwischen Merkmal und Ergebnis zu entdecken, wären wir nicht besser dran, wenn wir nur ein Modell mit betrachten würdenx1?
  2. "Nicht genügend Daten": Andererseits ist es unwahrscheinlich, dass bei sehr kleinen Stichprobengrößen "signifikante" Beziehungen gefunden werden. Bedeutet dies, dass das beste Modell dasjenige ist, das keine Regressoren enthält?

Es gibt keine allgemeinen Antworten auf diese Fragen, da sie vom Ziel des Modellierers in einer bestimmten Situation abhängen. Oft können wir versuchen, Modelle basierend auf Kriterien auszuwählen, die enger mit unserer Zielfunktion zusammenhängen, z. B. eine Kreuzvalidierungsstichprobe, wenn unser Ziel die Vorhersage ist. In vielen Situationen müssen datenbasierte Verfahren jedoch durch Expertenmeinungen ergänzt werden (oder durch die Verwendung des Bayes'schen Ansatzes mit sorgfältig ausgewählten Prioritäten, die Gelman zu bevorzugen scheint).

Matthias Schmidtblaicher
quelle
In Bezug auf Punkt 1 war ein Großteil des maschinellen Lernens an diesem Problem interessiert: Können Sie aus vielen schwachen Prädiktoren einen starken Prädiktor erstellen? Ich denke, hier gibt es ein legitimes Versprechen. Zum Beispiel haben GWAS-Studien die möglichen genetischen Ursachen für Diabetes auf 20 bis 100 SNPs reduziert. Keines davon ist so bemerkenswert prognostisch wie es zuvor bei anderen Erbkrankheiten entdeckt wurde (sagen die BRCA-Gene und ihre fast deterministische Beziehung zu Brustkrebs). Diese Entdeckung entmutigt übliche Ansätze zur Gentherapie zur Prävention.
AdamO
Das ist ein guter Punkt. Die Verfügbarkeit eines allgemeinen und automatischen Verfahrens, das starke Vorhersagen erstellt, würde die Rolle des Analytikers weiter reduzieren und sie in vielen Kontexten möglicherweise sogar beseitigen.
Matthias Schmidtblaicher
5

Der entscheidungstheoretische Ansatz von Neyman-Pearson zum Testen von Hypothesen (Ablehnen / Akzeptieren) ist eng mit Poppers Fälschung abgestimmt . Diese Methode ist nicht ungültig, sie hat nur die wachsende menschliche Gier nach Konsum von Wissen, Produkten und beruflichem Gewinn nicht berücksichtigt.

Die Gültigkeit von Poppers wissenschaftlichem Ansatz basiert stark auf 1. Voraussagen von Hypothesen 2. Nur Forschung mit ausreichender Leistung durchführen und 3. Ergebnisse positiver / negativer Studien gleichermaßen ernst nehmen. Wir haben (in Wissenschaft, Wirtschaft, Regierung, Medien usw.) im letzten Jahrhundert nichts davon getan .

Fisher schlug einen Weg vor, "Statistiken ohne Hypothesentests" durchzuführen. Er hat nie vorgeschlagen, seinen p-Wert mit einem Grenzwert von 0,05 zu vergleichen. Er sagte, er solle den p-Wert und die Aussagekraft der Studie angeben.

Eine andere von vielen vorgeschlagene Alternative besteht darin, lediglich die Konfidenzintervalle (CIs) anzugeben. Der Gedanke ist, dass das Erzwingen der Bewertung der Ergebnisse eines Versuchs anhand einer physikalischen Größe anstelle einer einheitlosen Größe (wie eines p-Werts) sie dazu ermutigen würde, subtilere Aspekte wie Effektgröße, Interpretierbarkeit und Generalisierbarkeit zu berücksichtigen. Aber auch dies ist flach gefallen: Die wachsende Tendenz besteht darin, zu prüfen, ob der CI 0 (oder 1 für Verhältnisskalen) überschreitet, und das Ergebnis als statistisch signifikant zu deklarieren, wenn nicht. Tim Lash nennt dies Backdoor-Hypothesentest.

Es gibt mäanderförmige und endlose Argumente für eine neue Ära des Hypothesentests. Keiner hat die Gier, von der ich zuvor gesprochen habe, nicht angesprochen. Ich habe den Eindruck, wir müssen unsere Statistik nicht ändern, wir müssen unsere Wissenschaft ändern .

AdamO
quelle