Gibt es „esoterische“ statistische Tests mit sehr geringer Leistung?

11

Hintergrund

In der Informatik, Mathematik und manchmal auch in anderen Bereichen können „esoterische“ Beispiele nicht nur unterhaltsam, sondern auch hilfreich sein, um bestimmte Konzepte zu veranschaulichen, zum Beispiel:

  • Bogosort und Slowsort sind sehr ineffiziente Sortieralgorithmen, mit denen die Eigenschaften von Algorithmen verstanden werden können, insbesondere im Vergleich zu anderen Sortieralgorithmen.

  • Esoterische Programmiersprachen zeigen, wie weitreichend das Konzept einer Programmiersprache ist, und helfen, gute Programmiersprachen zu schätzen.

  • Die Weierstraß-Funktion und die Dirichlet-Funktion werden hauptsächlich verwendet, um bestimmte Missverständnisse über das Konzept der Kontinuität zu veranschaulichen.

Ich bereite derzeit einige Lehren zur Verwendung von Hypothesentests vor und denke, dass ein Test mit sehr geringer Leistung (aber ohne andere Mängel) das Konzept der statistischen Leistung veranschaulichen würde. (Natürlich muss ich mich immer noch selbst entscheiden, ob ein bestimmtes Beispiel für mein Publikum didaktisch nützlich oder nur verwirrend ist.)

Aktuelle Frage

Gibt es statistische Tests mit absichtlich geringer Leistung, genauer gesagt:

  • Der Test passt in den allgemeinen Rahmen von Hypothesentests, dh er arbeitet mit einer Nullhypothese, hat Anforderungen und gibt einen (korrekten) p-  Wert zurück.
  • Es ist nicht für ernsthafte Anwendungen vorgesehen.
  • Es hat eine sehr geringe Leistung (aufgrund eines absichtlichen Designfehlers und nicht aufgrund einer geringen Sample- oder Effektgröße).

Wenn Sie grundsätzlich argumentieren können, dass ein solcher Test nicht existieren kann, würde ich dies auch als gültige Antwort auf meine Frage betrachten. Wenn andererseits eine Vielzahl solcher Tests vorhanden ist, bin ich an dem didaktisch effizientesten interessiert, dh er sollte leicht zugänglich sein und eine bemerkenswerte Wirkung haben.

Beachten Sie, dass ich nicht nach einer allgemeinen Auswahl statistischer Fehler (Kirschernte usw.) oder ähnlichem frage.

Was ich bisher gefunden habe

Internetrecherchen haben mir nichts gebracht.

Jeder Versuch, so etwas zu konstruieren, endete entweder in einem (nützlichen) vorhandenen Test oder das Format ist nicht das eines regulären Tests. Ich habe zum Beispiel über einen Test nachgedacht, ob eine Population einen positiven Median hat, der nur dann Ja zurückgibt, wenn alle Stichproben positiv sind. Dieser Test gibt jedoch keinen p-  Wert zurück und passt daher nicht in den üblichen Testrahmen. Wenn ich nur die positiven und negativen Vorzeichen als Teststatistik zähle (und die p-  Werte entsprechend berechne ), erhalte ich den Vorzeichentest , der ein vernünftiger Test ist.

Wrzlprmft
quelle
2
Da es sich um mathematische Beispiele handelt, sind "esoterische" Beispiele (die es im Überfluss gibt) eher spezifische Gegenbeispiele zu populären Missverständnissen. Eine Reihe von Lehrbüchern enthält solche Beispiele. Derzeit ist Ihre Frage im Wesentlichen eine Frage vom Typ "große Liste" und daher zu weit gefasst (obwohl Sie beachten sollten, dass mehrere Benutzer zu dem Schluss gekommen sind, dass die Frage unklar ist). Wenn Sie Ihre Frage klären und ihren Umfang einschränken können, passt sie möglicherweise besser zur Website.
Glen_b -Reinstate Monica
1
Geringer Stromverbrauch im Vergleich zu was? Lehmann gab ein Beispiel für einen verallgemeinerten Likelihood-Ratio-Test, der unter jeder alternativen Hypothese eine geringere Leistung hatte als unter der Null.
Scortchi - Monica wieder einsetzen
2
Jeder der albernen Schätzer, auf die Sie Rao-Blackwellization anwenden, kann als Teststatistik verwendet werden. Zum Beispiel gibt es die erste Beobachtung in der Stichprobe, die als Schätzer für den Mittelwert verwendet wird. Bei Rao-Blackwellized erhalten Sie den Stichprobenmittelwert. Ich musste im Unterricht viele solche Übungen machen. Auf jeden Fall könnte diese Statistik anstelle des Stichprobenmittelwerts in so etwas wie einem Test verwendet werden. Aber nein, ich kann mir nichts direkt in der Form vorstellen, nach der Sie suchen, oder ich würde eine Antwort schreiben, keinen Kommentar. Aber es muss etwas geben, das das Versagen einer allgemeinen Methode für die Testkonstruktion veranschaulicht. t
user54038
1
Ich werde das Lehmann-Papier ausgraben, wenn ich an einem Computer bin. Die Leistung eines Tests unter Null entspricht nur der Größe des Tests.
Scortchi - Monica wieder einsetzen
3
Ein Beispieltest, der in einer Klasse verwendet wurde, in der ich vor vielen Jahren Schüler war, war "Wirf einen fairen 20-seitigen Würfel und lehne ab, wenn du eine 1 würfelst" (als Teil einer Diskussion über Leistungskurven). Dies ignoriert natürlich die Daten vollständig, ist jedoch insofern ein "gültiger" Test, als er nicht höher als die gewünschte Fehlerrate vom Typ I ist (die in dem Kontext, in dem das Beispiel angegeben wurde, 5% betrug).
Glen_b -Rate State Monica

Antworten:

7

Es gibt eine kleine Bemerkung zum Neyman-Pearson-Lemma (Beweis in Geisser (2006), Modi der parametrischen statistischen Inferenz , Kapitel 4.4):

Eϕ(X)=α
ϕ(x)={0 when f0(x)<kf1(x)1 when f0(x)>kf1(x)
das am wenigsten leistungsfähige Niveau αTest ϕ der Nullhypothese H0: Dichte f0 gegen H1: Dichte f1 aus Daten x .

Aus diesem Ergebnis können Sie einheitlich am wenigsten leistungsfähige, lokal am wenigsten leistungsfähige, gleichmäßig am wenigsten leistungsfähige ähnliche und am wenigsten leistungsfähige "vollständig voreingenommene" Tests ableiten (ich meine diejenigen mit geringerer Leistung unter jeder Alternative als unter der Null). Wenn Sie bereits eine einheitlich mächtigste haben, & c. Test, multiplizieren Sie einfach Ihre Teststatistik mit -1, um die Partitionierung des induzierten Probenraums beizubehalten und gleichzeitig die Reihenfolge der Partitionen umzukehren.


Vielleicht könnte, wie @ user54038 vorschlägt, das "Versagen einer allgemeinen Methode zur Testkonstruktion" interessanter sein. Lehmann (1950), "Einige Prinzipien der Theorie der Prüfung statistischer Hypothesen", Ann. Mathematik. Statist. , 21 , 1 schreibt Stein das folgende Beispiel zu:

Sei X eine Zufallsvariable, die die Werte 0,±1,±2 mit den angegebenen Wahrscheinlichkeiten annehmen kann:

22110Hypothesis H:α2α212α12ααAlternatives:pC(1p)C1C1α(12α)1C1α(12α)α1c1α
Hier sindα,CKonstanten0<α12 ,α2α<C<αundpreicht über das Intervall[0,1].

Es ist erwünscht, die Hypothese H auf dem Signifikanzniveau α zu testen . Der Likelihood-Ratio-Test lehnt ab, wenn X=±2 , und daher ist seine Potenz C für jede Alternative. Da C<α , ist dieser Test buchstäblich schlechter als nutzlos, denn ein Test mit der Leistung α kann erhalten werden, ohne X überhaupt zu beobachten , einfach unter Verwendung einer Tabelle von Zufallszahlen.

Beachten Sie, dass es sich um den verallgemeinerten Wahrscheinlichkeitstest handelt, den er in Betracht zieht, wobei p die Rolle eines zu maximierenden Störparameters spielt. Also , wenn X=2 oder X=2 , p = 1 oder p = 0 bzw. & das Likelihood - Verhältnis kommt zu 2 Cp^=1p^=02Cα in jedem Fall; für jeden anderen Wert vonXes der niedrigere Wert von1C1α .

Scortchi
quelle
5

(Bezogen auf den Kommentar von @Scortchi)

Angenommen, XN(μ,1) und wir wollen die Hypothese testen

H0:μ=0H1:μ0

Aus Gründen der esetoricism, mal erweitern unsere Daten mit einer unabhängigen "coin flip" ZBernoulli(p) , wobei p bekannt ist , und nicht kleiner als das Signifikanzniveau α (dh p[α,1] ). Betrachten Sie Ablehnungsbereiche des Formulars:

R={(X,Z) | z=1 |x|>Φ1(α2p)}

Konstruktionsbedingt ist dies ein gültiger Test der Größe α .

P(XR | μ=0)=P(Z=1 , |X|>Φ1(α2p))=P(Z=1)P(|X|>Φ1(α2p))=pαp=α

p(x,z)=(1000000,0)p=αXα

Z

knrumsey
quelle
2
(+1) Eng verwandt, weil eine eindimensionale Zusatzstatistik vorliegt S.können Sie auf den Münzwurf verzichten, indem Sie lassen Z.=1(S.<F.S.- -1(p)), wo F.S.() ist die Verteilungsfunktion von S..
Scortchi - Reinstate Monica