Ist der p-Wert eine Punktschätzung?

32

Da man Konfidenzintervalle für p-Werte berechnen kann und das Gegenteil der Intervallschätzung die Punktschätzung ist: Ist der p-Wert eine Punktschätzung?

00schneider
quelle
6
Ich glaube nicht, dass man Konfidenzintervalle für einen p-Wert berechnen kann ; Es ist eine Statistik, die aus den Daten berechnet wird, und kein Parameter, der den Datenerzeugungsprozess beschreibt. Natürlich kann man noch fragen, was eine Statistik schätzt.
Scortchi - Wiedereinsetzung von Monica
1
@Scortchi: aber wenn ich zB Bootstrapping anwenden würde, um eine Verteilung von p-Werten zu berechnen, und dann ein 95% -Perzentilintervall dieser Bootstrapped-Verteilung konstruieren würde, dann wäre es kein Konfidenzintervall für den p-Wert - was ist das? es ?
Amöbe sagt Reinstate Monica
2
@amoeba: Ein Konfidenzintervall bezieht sich auf einen unbekannten Parameter, während Ihr Bootstrap-Intervall eine Annäherung an eine 95% -Region für eine Statistik darstellt.
Xi'an,
@Scorthci: Ich habe Software gesehen, die CIs für p-Werte druckt. In diesem Fall wurden die ungefähren p-Werte durch Permutationstests berechnet. Wenn also der CI zu breit war (dh p-Wert und p-Wert [ 0.05 , 1 ] ), würden Sie mehr Permutationen verwenden bevor Sie Schlüsse ziehen. [0,0,05][0.05,1]
Cliff AB
4
@Cliff Dies ist kein Konfidenzintervall für die p-Wert- Qua- Eigenschaft einer Verteilung: Dies ist ein Konfidenzintervall für einen stochastischen Schätzer des p-Werts eines Tests für eine bestimmte Stichprobe. Obwohl sie ähnlich klingen und beide Intervalle sind, sind sie völlig verschiedene Dinge.
whuber

Antworten:

23

Punktschätzungen und Konfidenzintervalle beziehen sich auf Parameter, die die Verteilung beschreiben, z. B. Mittelwert oder Standardabweichung.

Im Gegensatz zu anderen Stichprobenstatistiken wie dem Stichprobenmittelwert und der Stichprobenstandardabweichung ist der p-Wert jedoch kein nützlicher Schätzer für einen interessanten Verteilungsparameter. Schauen Sie sich die Antwort von @whuber für technische Details an.

Der p-Wert für eine Teststatistik gibt die Wahrscheinlichkeit an, eine Abweichung vom erwarteten Wert der Teststatistik zu beobachten, die mindestens so groß ist wie die in der Stichprobe beobachtete, berechnet unter der Annahme, dass die Nullhypothese wahr ist. Wenn Sie die gesamte Verteilung haben, stimmt dies entweder mit der Nullhypothese überein oder nicht. Dies kann mit der Indikatorvariablen beschrieben werden (siehe auch die Antwort von @whuber).

Der p-Wert kann jedoch nicht als nützlicher Schätzer für die Indikatorvariable verwendet werden, da er nicht konsistent ist, da der p-Wert mit zunehmender Stichprobengröße nicht konvergiert, wenn die Nullhypothese wahr ist. Dies ist eine ziemlich komplizierte alternative Methode, um festzustellen, dass ein statistischer Test die Null entweder ablehnen oder nicht ablehnen kann, sie jedoch niemals bestätigt.

Erik
quelle
3
Die meisten besseren Berichte über statistische Tests (Lehman, Kiefer usw.) beziehen sich überhaupt nicht auf "Populationen", sondern beschreiben die Situation in Bezug auf die Schätzung von Verteilungsparametern. Dies erfordert nicht, dass die Zufälligkeit ausschließlich auf die Stichprobe zurückzuführen ist, und ermöglicht somit eine breitere Anwendung der Theorie auf Situationen, in denen die Zufälligkeit Teil eines Modells ist .
whuber
2
Sie haben aber ausdrücklich widersprochen, dass mit der Aussage "mit der Bevölkerung überhaupt keine Wahrscheinlichkeiten verbunden sind". Bitte beachten Sie auch, dass alle Schätzer "explizit auf Stichprobenebene definiert" sind. Es ist daher schwierig zu bestimmen, welche Unterscheidung Sie in diesem Beitrag treffen möchten.
whuber
2
Na sicher! Aber eine Distribution ist keine Population.
whuber
4
(-1) Ich stimme sowohl mit der allgemein-sinnlichen Antwort von @ Tim als auch mit der rekonditionierten Antwort von Whuber überein, aber ich bemühe mich, aus dieser Antwort einen Sinn zu machen. (1) "Aber der p-Wert ist kein Populationsparameter, da er explizit auf Stichprobenebene definiert ist": Dies ist zweifellos erwähnenswert, aber das "aber" lässt es so erscheinen, als ob Sie sagen, dass ein p-Wert dies kann Es handelt sich nicht um eine Schätzung von etwas, da es sich um eine Beispielstatistik handelt, als ob der Beispielmittelwert keine Schätzung von etwas sein könnte, da es sich um eine Beispielstatistik handelt. ...
Scortchi - wieder einzusetzen Monica
2
(2) „Das ist , weil es keine Wahrscheinlichkeiten sind im Zusammenhang mit der Bevölkerung überhaupt, es gilt als festes aber unbekannt“: (a) Der p-Wert ist nicht von der Probe berechnet , weil „es keine Wahrscheinlichkeiten sind [.. .] "; (b) Wie @ whuber ausgeführt hat, ist die Stichprobe aus einer endlichen Population ein Sonderfall. (c) in jedem Fall folgt es einfach nicht aus dem, was Sie gesagt haben, dass der p-Wert nichts über die Population abschätzt.
Scortchi - Wiedereinsetzung von Monica
21

Ja, es könnte (und wurde) argumentiert, dass ein p-Wert eine Punktschätzung ist.

Um zu identifizieren, welche Eigenschaft einer Verteilung ein p-Wert abschätzen könnte, müssen wir annehmen, dass sie asymptotisch unverzerrt ist. Aber asymptotisch der mittlere p-Wert für die Nullhypothese ist ( im Idealfall, für einige Tests könnte es eine andere Zahl ungleich Null sein) und für jede andere Hypothese ist es 0 . Somit könnte der p-Wert als Schätzer der Hälfte der Indikatorfunktion für die Nullhypothese angesehen werden.1/20


Zugegeben, es braucht etwas Kreativität, um einen p-Wert auf diese Weise zu sehen. Wir könnten es ein wenig besser machen, wenn wir den fraglichen Schätzer als die Entscheidung betrachten, die wir anhand des p-Werts treffen: Ist die zugrunde liegende Verteilung ein Mitglied der Nullhypothese oder der Alternativhypothese? Nennen wir diesen Satz von möglichen Entscheidungen . Jack Kiefer schreibtD

Wir nehmen an, dass es ein Experiment gibt, dessen Ergebnis der Statistiker beobachten kann. Dieses Ergebnis wird durch eine Zufallsvariable oder einen Zufallsvektor ... beschrieben. Das Wahrscheinlichkeitsgesetz von X ist dem Statistiker unbekannt, aber es ist bekannt, dass die Verteilungsfunktion F von X ein Mitglied einer bestimmten Klasse istXXFX von Verteilungsfunktionen ist. ...Ω

Ein statistisches Problem wird als Problem der Punktschätzung bezeichnet, wenn die Sammlung möglicher Werte einer reellen oder vektoriellen Eigenschaft von F ist, von der abhängtDF in einerglatten Art und Weise.F

In diesem Fall, weil ist "ziemlich glatt" überhaupt keine Einschränkung D diskret ist. Kiefers Terminologie spiegelt dies wider, indem sie statistische Verfahren mit diskreten Entscheidungsräumen als "Tests" anstelle von "Punktschätzern" bezeichnet.D

Obwohl es interessant ist, die Grenzen (und Einschränkungen) solcher Definitionen zu untersuchen, wie uns diese Frage auffordert, sollten wir vielleicht nicht zu stark darauf bestehen, dass ein p-Wert ein Punktschätzer ist, da diese Unterscheidung zwischen Schätzern und Tests beides ist nützlich und konventionell.


In einem Kommentar zu dieser Frage machte Christian Robert auf einen Artikel von 1992 aufmerksam, in dem er und seine Mitautoren genau diesen Standpunkt einnahmen und die Zulässigkeit des p-Werts als Schätzer der Indikatorfunktion analysierten . Siehe den Link in den Referenzen unten. Das Papier beginnt,

Ansätze für das Testen von Hypothesen haben das Problem des Testens gewöhnlich eher als Entscheidungsfindung denn als Schätzung behandelt. Genauer gesagt führt ein formaler Hypothesentest zu einer Schlussfolgerung, ob eine Hypothese wahr ist, und liefert keine Evidenz, die mit dieser Schlussfolgerung in Verbindung gebracht werden kann. In dieser Arbeit betrachten wir das Testen von Hypothesen als ein Schätzproblem innerhalb eines entscheidungs-theoretischen Rahmens .

[Betonung hinzugefügt.]


Verweise

Jiunn Tzon Hwang, George Casella, Christian Robert, Martin T. Wells und Roger H. Farrell, Schätzung der Genauigkeit beim Testen . Ann. Statist. Volume 20, Number 1 (1992), 490 & ndash; 509. Freier Zugang .

Jack Carl Kiefer, Einführung in die statistische Inferenz . Springer-Verlag, 1987.

whuber
quelle
2
Hmm. Ich bin nicht sicher, ob diese Ansicht hilfreich ist. Zum einen ist der p-Wert in diesem Sinne kein guter Schätzer, da er nicht konsistent ist, wenn die Nullhypothese wahr ist. Und in einigen Fällen (Sie erwähnen das) hat es auch eine Stichprobengrößenabhängige Verzerrung. Es mag technisch wahr sein, aber jede Zufallszahl kann auch ein (schrecklicher) Schätzer für jeden Parameter sein.
Erik
10
Die Frage ist nicht, ob der p-Wert ein guter Schätzer ist, @Erik. Als Schätzer weist es offensichtliche Mängel auf. Beispielsweise ist seine asymptotische Varianz für die Nullhypothese ungleich Null. Bitte beachten Sie, dass die Abweichung von fast jedem unverzerrten Schätzer von der Stichprobengröße abhängt. Obwohl Sie zu Recht davon ausgehen, dass eine unabhängige Zufallszahl als Schätzer angesehen werden könnte, wäre dies ein Schätzer für etwas anderes: Sie würde ihren eigenen Mittelwert (per Definition) schätzen. Daher scheinen Ihre Einwände für die vorliegende Frage keine Relevanz zu haben.
whuber
7
Ich glaube, wir unterscheiden uns in keinem dieser Punkte, @Erik, außer vielleicht dem "nicht hilfreichen" Teil. Wie Nick Cox in einem Kommentar an anderer Stelle in diesem Thread ausführt, ist es dennoch interessant zu überlegen, in welchem ​​Sinne ein p-Wert als Schätzer angesehen werden kann und was genau er möglicherweise schätzt. Das kann uns helfen, ein wenig besser zu verstehen, was ein p-Wert ist (und was nicht). Viele würden das als hilfreiche Übung ansehen .
whuber
7
pIΘ0(θ)
1
@ Xi'an Ich sehe, wir sind nur 23 Jahre hinter dir .... Vielen Dank für den Hinweis!
whuber
11

pμx¯μp<0.05pp

Tim
quelle
5
Ihre anfängliche Aussage spiegelt richtig wider, wie Dinge oft erklärt werden, aber sie geht trotzdem nicht tief genug. Eine grundlegende Tatsache ist hier die Stichprobenvariation, die Variabilität von Stichprobe zu Stichprobe. Nehmen Sie eine andere Probe und Ihr P-Wert wird anders sein. Es braucht ein wenig Einfallsreichtum, um genau zu sehen, was es schätzt, und es ist (soweit ich weiß) nicht konventionell , es als Schätzung eines Parameters zu erklären, aber dieser Gesichtspunkt macht vollkommen Sinn. Siehe @ Whubers interessante Antwort. (Das gesamte Gebiet ist mit schlammigen Paraphrasen übersät, die auf der Notwendigkeit basieren, den Unterricht zu vereinfachen.)
Nick Cox,
1
Die Verwendung von Begriffen ist interessant und wichtig (und nebenbei eine persönliche Angelegenheit). Die Frage bleibt, was ein P-Wert ist . Auch darauf wird an anderer Stelle in diesem Thread hingewiesen. Es ist eine hilfreiche Konvention, Parameter als solche Unbekannten zu betrachten, die in einer Modellspezifikation vorkommen, aber es gibt auch andere Unbekannte.
Nick Cox
3
@ Tim, ich denke diese Behauptung (aus deinem letzten Kommentar) ist fast immer nicht wahr, zumindest in der Biologie. Die Menschen interessieren sich sehr für den Wert der p-Werte, Kennzeichnungp<0,05, p<0,01, p<0,001 mit einem, zwei oder drei Sternen auf den Figuren, die über etwas schreiben, das "hochbedeutend" ist usw. Die übliche Empfehlung ist auch, genaue p-Werte anzugeben, z p=0,003, und nicht p<0,05. Nur sehr selten halten sich Menschen an das strenge Neyman-Pearson-Frameworkα im voraus und melde alle p-werte als p<α.
Amöbe sagt Reinstate Monica
5
Diese Frage überschneidet sich mit vielen anderen, von denen die meisten höchst umstritten sind. Eine ist die Idealisierung, dass der Zweck eines Tests darin besteht, eine Entscheidung mit Ja oder Nein zu treffen, die nicht allen Problemen entspricht. Eine weitere wichtige Tatsache ist, dass die Verwendung von Schwellenwerten jahrzehntelang darauf zurückzuführen war, dass veröffentlichte Tabellen aus gedruckten Tabellen verwendet wurden und exakte P-Werte außerhalb der Reichweite lagen, während keine Computer verwendet wurden.
Nick Cox
4
@ 00schneider: Wenn für p-Werte jemals ein Intervall angegeben wird, ist es sehr unwahrscheinlich, dass es sich um ein Konfidenzintervall für den von whuber definierten Populationsparameter handelt. Tims Argument ist, dass es nicht notwendig ist, sie als Schätzer zu betrachten , obwohl es vielleicht interessant ist, dies zu tun.
Scortchi - Wiedereinsetzung von Monica