In seinen Blog-Posts sagt Andrew Gelman, er sei kein Fan von Bayes'schen Hypothesentests (siehe hier: http://andrewgelman.com/2009/02/26/why_i_dont_like/ ), und wenn ich mich nicht falsch erinnere, denke ich, dass er sagt auch, dass das Testen von häufig auftretenden Hypothesen auch Mängel aufweist.
Meine Frage ist: Können Sie Statistiken ohne Hypothesentest auch für (Entschuldigung für die Wiederholung) Hypothesentests erstellen und Entscheidungen treffen? Ist die Lösung, sich nur auf Schätzungen zu verlassen und Entscheidungen auf der Grundlage geschätzter Wahrscheinlichkeiten zu treffen? Wenn ja, können Sie darauf hinweisen, wo Sie mehr darüber erfahren können?
Antworten:
Lassen Sie mich die Freiheit nehmen, die Frage wie folgt zu formulieren: "Was sind die Argumente, die Andrew Gelman gegen das Testen von Hypothesen vorbringt?"
In dem Artikel , der in dem Beitrag verlinkt ist, haben die Autoren Probleme mit der Verwendung eines mechanischen Verfahrens zur Modellauswahl oder, wie sie es ausdrücken:
Häufige oder Bayes'sche Hypothesentests sind zwei Beispiele für solche mechanischen Verfahren. Die spezifische Methode, die sie kritisieren, ist die Modellauswahl durch BIC, die mit dem Testen von Bayes'schen Hypothesen zusammenhängt. Sie listen zwei Hauptfälle auf, in denen solche Verfahren schlimm fehlschlagen können:
Es gibt keine allgemeinen Antworten auf diese Fragen, da sie vom Ziel des Modellierers in einer bestimmten Situation abhängen. Oft können wir versuchen, Modelle basierend auf Kriterien auszuwählen, die enger mit unserer Zielfunktion zusammenhängen, z. B. eine Kreuzvalidierungsstichprobe, wenn unser Ziel die Vorhersage ist. In vielen Situationen müssen datenbasierte Verfahren jedoch durch Expertenmeinungen ergänzt werden (oder durch die Verwendung des Bayes'schen Ansatzes mit sorgfältig ausgewählten Prioritäten, die Gelman zu bevorzugen scheint).
quelle
Der entscheidungstheoretische Ansatz von Neyman-Pearson zum Testen von Hypothesen (Ablehnen / Akzeptieren) ist eng mit Poppers Fälschung abgestimmt . Diese Methode ist nicht ungültig, sie hat nur die wachsende menschliche Gier nach Konsum von Wissen, Produkten und beruflichem Gewinn nicht berücksichtigt.
Die Gültigkeit von Poppers wissenschaftlichem Ansatz basiert stark auf 1. Voraussagen von Hypothesen 2. Nur Forschung mit ausreichender Leistung durchführen und 3. Ergebnisse positiver / negativer Studien gleichermaßen ernst nehmen. Wir haben (in Wissenschaft, Wirtschaft, Regierung, Medien usw.) im letzten Jahrhundert nichts davon getan .
Fisher schlug einen Weg vor, "Statistiken ohne Hypothesentests" durchzuführen. Er hat nie vorgeschlagen, seinen p-Wert mit einem Grenzwert von 0,05 zu vergleichen. Er sagte, er solle den p-Wert und die Aussagekraft der Studie angeben.
Eine andere von vielen vorgeschlagene Alternative besteht darin, lediglich die Konfidenzintervalle (CIs) anzugeben. Der Gedanke ist, dass das Erzwingen der Bewertung der Ergebnisse eines Versuchs anhand einer physikalischen Größe anstelle einer einheitlosen Größe (wie eines p-Werts) sie dazu ermutigen würde, subtilere Aspekte wie Effektgröße, Interpretierbarkeit und Generalisierbarkeit zu berücksichtigen. Aber auch dies ist flach gefallen: Die wachsende Tendenz besteht darin, zu prüfen, ob der CI 0 (oder 1 für Verhältnisskalen) überschreitet, und das Ergebnis als statistisch signifikant zu deklarieren, wenn nicht. Tim Lash nennt dies Backdoor-Hypothesentest.
Es gibt mäanderförmige und endlose Argumente für eine neue Ära des Hypothesentests. Keiner hat die Gier, von der ich zuvor gesprochen habe, nicht angesprochen. Ich habe den Eindruck, wir müssen unsere Statistik nicht ändern, wir müssen unsere Wissenschaft ändern .
quelle