Ich habe gerade ein großartiges Buch „ Introduction to Empirical Bayes“ gelesen . Ich fand das Buch großartig, aber das Erstellen von Prioritäten aus den Daten fühlte sich falsch an. Ich wurde geschult, dass Sie einen Analyseplan erstellen, dann Daten sammeln und dann die Hypothese testen, die Sie zuvor in Ihrem Analyseplan festgelegt haben. Wenn Sie eine Analyse von Daten durchführen, die bereits erfasst wurden, werden Sie zu einer postselektiven Folgerung, bei der Sie viel strenger vorgehen müssen, was Sie als "signifikant" bezeichnen, siehe hier . Ich denke, dass maschinelles Lernen etwas Analoges hat, das als "Cherry Picking" bezeichnet wird. Dies bedeutet, dass Prädiktoren ausgewählt werden, bevor Test- und Trainingssätze erstellt werden ( Einführung in das statistische Lernen ).
Angesichts dessen, was ich zuvor gelernt habe, scheint es mir, dass empirische Bayes auf einer schwachen Grundlage beruhen. Verwenden die Benutzer es nur in Umgebungen, in denen Daten passiv generiert wurden? Wenn dem so ist, mag dies gerechtfertigt sein, aber es scheint nicht richtig zu sein, es bei strengen Versuchsplänen zu verwenden, aber ich weiß, dass Brad Efron empirische Bayes speziell für die Biostatistik verwendet, im Allgemeinen ein sehr NHST-Bereich.
Meine Fragen sind:
- Wie ist empirische Bayes gültig?
- In welchen Situationen wird es verwendet?
- In welchen Situationen sollten Sie den empirischen Bayes-Ansatz vermeiden und warum?
- Verwenden Menschen es in anderen Bereichen als der Biostatistik und wenn ja, in welchen Situationen verwenden sie es?
Antworten:
Ich denke, es ist wichtig, sich daran zu erinnern, dass verschiedene Methoden für verschiedene Dinge gut sind und Signifikanztests nicht alles sind, was es in der Welt der Statistik gibt.
1 und 3) EB ist wahrscheinlich kein gültiges Verfahren zum Testen von Hypothesen, sollte es aber auch nicht sein.
Gültigkeit kann vieles sein, aber Sie sprechen von rigorosem experimentellem Design. Wir diskutieren daher wahrscheinlich einen Hypothesentest, der Ihnen helfen soll, mit einer bestimmten langfristigen Häufigkeit die richtige Entscheidung zu treffen. Dies ist eine streng dichotome Ja / Nein-Regelung, die vor allem für Menschen nützlich ist, die eine Ja / Nein-Entscheidung treffen müssen. Es gibt in der Tat eine Menge klassischer Arbeiten von sehr klugen Leuten. Diese Methoden haben eine gute theoretische Gültigkeit im Grenzbereich, vorausgesetzt, dass alle Ihre Annahmen zutreffen, & c. EB war jedoch sicherlich nicht dafür gedacht. Wenn Sie die Maschinerie der klassischen NHST-Methoden wollen, halten Sie sich an die klassischen NHST-Methoden.
2) EB wird am besten bei Problemen angewendet, bei denen Sie viele ähnliche, variable Größen schätzen.
Efron selbst eröffnet sein Buch Large-Scale Inference, in dem drei verschiedene Epochen der Statistikgeschichte aufgeführt sind
Er fährt fort:
Vielleicht ist die erfolgreichste jüngste Anwendung von EB ist
limma
, auf Bioconductor verfügbar . Dies ist ein R-Paket mit Methoden zur Bewertung der differentiellen Expression (dh Microarrays) zwischen zwei Studiengruppen über Zehntausende von Genen. Smyth zeigt, dass ihre EB-Methoden eine t-Statistik mit mehr Freiheitsgraden liefern, als wenn Sie reguläre gen-weise t-Statistiken berechnen würden. Die Verwendung von EB ist hier "gleichbedeutend mit einer Schrumpfung der geschätzten Stichprobenvarianzen in Richtung einer gepoolten Schätzung, was zu einer weitaus stabileren Schlussfolgerung führt, wenn die Anzahl der Arrays klein ist", was häufig der Fall ist.Wie Efron oben ausgeführt hat, ist dies nicht das, wofür das klassische NHST entwickelt wurde, und die Umgebung ist in der Regel eher explorativ als konfirmatorisch.
4) Im Allgemeinen können Sie EB als eine Schrumpfungsmethode betrachten, und es kann überall dort nützlich sein, wo das Schrumpfen nützlich ist
limma
Je ähnlicher die zu schätzenden Größen sind, desto wahrscheinlicher ist es, dass eine Schrumpfung sinnvoll ist. Das Buch, auf das Sie verweisen, verwendet Trefferquoten im Baseball. Morris (1983) weist auf eine Handvoll anderer Anwendungen hin:
Dies sind alles Parallelschätzungsprobleme und soweit ich weiß, geht es eher darum, eine gute Vorhersage darüber zu treffen, was eine bestimmte Größe ist, als eine Ja / Nein-Entscheidung zu treffen.
Einige Referenzen
quelle