Erforderliche Anzahl von Permutationen für einen permutationsbasierten p-Wert

8

Wie viele Permutationen benötige ich, wenn ich einen permutationsbasierten p Wert mit dem Signifikanzniveau berechnen αmuss?

Aus dem Artikel "Permutationstests zur Untersuchung der Klassifikatorleistung" , Seite 5:

In der Praxis ist die Obergrenze 1/.(2k)wird typischerweise verwendet, um die Anzahl von Proben zu bestimmen, die erforderlich sind, um die gewünschte Genauigkeit des Tests zu erreichen.

... wobei die Anzahl der Permutationen ist.k

Wie berechne ich die Anzahl der erforderlichen Permutationen aus dieser Formel?

Neptun
quelle

Antworten:

12

Ich gebe zu, der Absatz könnte verwirrend sein.

Wenn Sie einen Permutationstest durchführen, schätzen Sie einen p-Wert. Das Problem ist, dass die Schätzung des p-Werts selbst einen Fehler aufweist, der als berechnet wird . Wenn der Fehler zu groß ist, ist der p-Wert unzuverlässig.p(1- -p)k

Wie viele Permutationen k braucht man also, um eine verlässliche Schätzung zu erhalten?

Definieren Sie zuerst Ihren maximal zulässigen Fehler, auch bekannt als die Genauigkeit. Lassen Sie das sein . Dann muss ein geschätzter p-Wert im Intervall [ p - 3 P , p + 3 P ] liegen (da p ungefähr normalverteilt ist )P.[p- -3P.,p+3P.]]

Verwendung der Obergrenze

Der zitierte Absatz des Papiers schlägt vor, 1 zu verwenden als Schätzung der oberen Grenze des Fehlers anstelle von12k . Dies entspricht einem unbekannten p-Wert von p = 0,5 (wobei der Fehler unter allen ps für ein festes k maximal ist).p(1- -p)k

Also: Sie möchten wissen, wo .12kP.

<=> 14P.2k

Da die zitierte Formel jedoch eine Obergrenze darstellt, ist dieser Ansatz sehr grob.

Verwendung des Fehlers auf dem Signifikanzniveau

α

α(1- -α)kP.

(α(1- -α))P.2k

α[p- -3P.,p+3P.]]

Verlängern des Konfidenzintervalls

Dieser Ansatz entspricht der Mitte des Konfidenzintervalls genau an der Entscheidungsschwelle. Um zu erzwingen, dass die Obergrenze des Konfidenzintervalls des geschätzten p unter der Entscheidungsschwelle liegt (was korrekter ist), benötigt man ...

lα(1- -α)kP.

(l)2(α(1- -α))P.2k

wo l entspricht (siehe nochmal die Grafik )

| l | confidence interval |
| 1 | ~68 % |
| 2 | ~95 % |
| 3 | ~99 % |

Beispiele: Die gewünschte Präzision P sei 0,005.

k> =10000

α=0,05k> =7600

α=0,01

Schließlich : Ich empfehle dringend, tiefer in Monte-Carlo-Simulationen einzutauchen. Die Wikipedia bietet einen Anfang.

steffen
quelle
Danke, ich habe das reed: epibiostat.ucsf.edu/biostat/sen/statgen/… und ich versuche es mit der von Ihnen geschriebenen Methode zu vergleichen. Was sind die Unterschiede Ihrer Meinung nach?
Neptun
(1- -α))