Neyman-Pearson-Lemma

21

Ich habe das Neyman-Pearson-Lemma aus dem Buch Introduction to the Theory of Statistics von Mood, Graybill und Boes gelesen . Aber ich habe das Lemma nicht verstanden.

Kann mir bitte jemand das Lemma in einfachen Worten erklären? Was heißt es?

Neyman-Pearson-Lemma: Sei eine Zufallsstichprobe aus , wobei einer von zwei bekannten Werten und , und sei fest .X1,,Xnf(x;θ)θθ0θ10<α<1

Sei k eine positive Konstante undC eine Teilmenge vonX die erfüllt:

(1)Pθ0[(X1,,Xn)C]=α
Dann wird der Testentsprechend dem kritischen Bereich
(2)λ=L(θ0;x1,,xn)L(θ1;x1,,xn)=L0L1kif (x1,,xn)C
andλk if (x1,,xn)C¯
γCist ein leistungsstärkster Test der Größe von Vergleich zuαH0:θ=θ0H1:θ=θ1

In Worten ausgedrückt habe ich verstanden, dass die beiden Kriterien spezifizieren

(1) P [Nullhypothese verwerfen | Nullhypothese ist wahr] = Signifikanzniveau

(2) zurückzuweisen , wenn die Nullhypothese Wahrscheinlichkeitsverhältnis , einige positive Konstante wenn fallen im kritischen Bereichλk(x1,,xn)

Dann ist der Test der mächtigste Test einer einfachen Hypothese .

  • Warum ist es nur für einfache Hypothesen? Kann es nicht für zusammengesetzte Hypothese sein? Ist meine Erklärung in Worten richtig?
ABC
quelle

Antworten:

7

Ich denke, Sie haben das Lemma gut verstanden.

Warum funktioniert es nicht für eine zusammengesetzte Alternative? Wie Sie im Wahrscheinlichkeitsverhältnis sehen können, müssen wir die Parameter für die alternative Hypothese einfügen. Wenn die Alternative zusammengesetzt ist, welchen Parameter werden Sie einstecken?

Sven
quelle
1
Sie können es für zusammengesetzte Alternativen verwenden, wenn das Wahrscheinlichkeitsverhältnis monoton ist.
Michael R. Chernick
11

Ich habe kürzlich einen Eintrag in einem LinkedIn-Blog geschrieben, in dem Neyman Pearson Lemma in einfachen Worten und als Beispiel angeführt ist. Ich fand das Beispiel einer Augenöffnung im Sinne einer klaren Anschauung des Lemmas. Wie oft in der Wahrscheinlichkeitsrechnung basiert es auf einer diskreten Wahrscheinlichkeitsmassenfunktion, so dass es einfacher zu verstehen ist als beim Arbeiten mit PDFs. Berücksichtigen Sie auch, dass ich das Wahrscheinlichkeitsverhältnis als die Wahrscheinlichkeit der alternativen Hypothese gegenüber der Nullhypothese im Gegensatz zu Ihrer Lemma-Aussage definiere. Die Erklärung ist die gleiche, aber nicht weniger als ist jetzt größer als. Ich hoffe, es hilft...

Diejenigen von Ihnen, die in der Datenanalyse arbeiten und einige Statistikkurse absolviert haben, haben möglicherweise das Neyman-Pearson-Lemma (NP-Lemma) kennengelernt. Die Botschaft ist einfach, die Demonstration nicht so sehr, aber ich fand es immer schwierig, ein Gefühl für den gesunden Menschenverstand zu bekommen, worum es ging. Als ich ein Buch mit dem Titel "Common Errors in Statistics" von PIGood und JWHardin las, kam ich zu einer Erklärung und einem Beispiel, die mir dabei halfen, ein Gefühl für das NP-Lemma zu bekommen, das ich immer vermisst hatte.

In einer nicht 100% mathematisch perfekten Sprache sagt Neyman-Pearson, dass der leistungsstärkste Test, mit dem eine bestimmte Hypothese innerhalb eines bestimmten Signifikanzniveaus validiert werden kann, ein Ablehnungsbereich ist, der durch alle möglichen Beobachtungen aus diesem Test mit erstellt wurde ein wahrscheinlichkeitsverhältnis über einem bestimmten schwellenwert ... woahhh! Wer hat gesagt, es war einfach!

Bleib ruhig und dekonstruiere das Lemma:

  1. Hypothese . In der Statistik wird immer mit zwei Hypothesen gearbeitet, dass ein statistischer Test ablehnen oder nicht ablehnen soll. Es gibt die Nullhypothese, die erst dann zurückgewiesen wird, wenn die Beweise dafür stichhaltig genug sind. Es gibt auch die alternative Hypothese, die wir nehmen werden, wenn die Null falsch zu sein scheint.
  2. Die Teststärke (auch bekannt als Sensitivität) gibt an, wie oft wir die Nullhypothese korrekt ablehnen, wenn sie falsch ist. Wir wollen leistungsfähige Tests, also lehnen wir die Nullhypothese die meiste Zeit ab, wir haben Recht!
  3. Das Signifikanzniveau eines Tests (auch als falsch positive Rate bezeichnet) gibt an, wie oft wir die Nullhypothese fälschlicherweise ablehnen, wenn sie wahr ist. Wir wollen ein kleines Signifikanzniveau, also lehnen wir die Nullhypothese meistens ab, damit wir nicht falsch liegen!
  4. Ablehnungsbereich Unter Berücksichtigung aller möglichen Ergebnisse des Tests enthält der Ablehnungsbereich die Ergebnisse, die dazu führen, dass wir die Nullhypothese zugunsten ihrer alternativen Hypothese ablehnen.
  5. Likelihood ist die Wahrscheinlichkeit der beobachteten Ergebnisse des , dass die Nullhypothese (Likelihood der Nullhypothese) , oder die Alternative eines (Likelihood der alternativen Hypothese) wahr gegebenen Tests gesehen zu haben.
  6. Likelihood - Verhältnis ist das Verhältnis der alternativen Hypothese Wahrscheinlichkeit durch die Nullhypothese Wahrscheinlichkeit aufgeteilt. Wenn das Testergebnis sehr erwartet wurde, wenn die Nullhypothese wahr gegenüber der alternativen Hypothese war, sollte das Wahrscheinlichkeitsverhältnis klein sein.

Genug Definitionen! (obwohl, wenn Sie sie sorgfältig betrachten, Sie erkennen, dass sie sehr einsichtig sind!). Gehen wir zu den Aussagen von Neyman und Pearson über: Wenn Sie den bestmöglichen statistischen Test unter dem Gesichtspunkt seiner Leistungsfähigkeit wünschen, definieren Sie einfach den Ablehnungsbereich, indem Sie die Testergebnisse mit dem höchsten Wahrscheinlichkeitsverhältnis einbeziehen, und fügen Sie weitere Tests hinzu Ergebnisse, bis Sie einen bestimmten Wert für die Häufigkeit erreicht haben, mit der Ihr Test die Nullhypothese ablehnt, wenn sie wahr ist (Signifikanzniveau).

Schauen wir uns ein Beispiel an, in dem hoffentlich alles zusammenkommt. Das Beispiel basiert auf dem oben erwähnten Buch. Es ist komplett von mir selbst gemacht, daher sollte es nicht so gesehen werden, als würde es irgendeine Realität oder persönliche Meinung widerspiegeln.

Stellen Sie sich vor, Sie möchten feststellen, ob jemand Einwanderungsquoten festlegen möchte (Nullhypothese) oder nicht (Alternativhypothese), indem Sie seine Gefühle gegenüber der Europäischen Union erfragen.

Stellen Sie sich vor, wir wüssten die tatsächliche Wahrscheinlichkeitsverteilung für beide Arten von Personen in Bezug auf die Antwort auf unsere Frage:

Bildbeschreibung hier eingeben

Stellen wir uns vor, wir sind bereit, einen falsch-positiven Fehler von 30% zu akzeptieren, dh wir werden in 30% der Fälle die Nullhypothese ablehnen und davon ausgehen, dass die befragte Person gegen Quoten ist, wenn sie wirklich für sie ist. Wie würden wir den Test aufbauen?

Laut Neyman und Pearson würden wir zuerst das Ergebnis mit der höchsten Wahrscheinlichkeitsquote nehmen. Dies ist die Antwort von "wirklich wie die EU" mit einer Quote von 3. Mit diesem Ergebnis, wenn wir annehmen, dass jemand gegen Quoten ist, wenn er / sie sagte, dass er "wirklich die EU mag", würden wir 10% der Zeit zuweisen für Quoten Menschen gegen (Bedeutung). Wir würden jedoch nur 30% der Zeit (Macht) korrekt nach Quotenleuten klassifizieren, da nicht jeder in dieser Gruppe die gleiche Meinung über die EU hat.

Für die Macht scheint dies ein schlechtes Ergebnis zu sein. Der Test macht jedoch nicht viele Fehler bei der Fehlklassifizierung von Quotenleuten (Signifikanz). Da wir hinsichtlich der Signifikanz flexibler sind, suchen wir das nächste Testergebnis, das wir zu den Antworten hinzufügen sollten, die die Nullhypothese ablehnen (Ablehnungsbereich).

Die nächste Antwort mit der höchsten Wahrscheinlichkeitsquote lautet "wie die EU". Wenn wir die Antworten "wirklich wie" und "wie" die EU als Testergebnisse verwenden, mit denen wir die Nullhypothese ablehnen können, dass jemand für Quoten zuständig ist, würden wir Quotenleuten in nicht 30% der Fälle eine Fehlklassifizierung zuweisen (10% von die "wirklich mögen" und 20% von der "wie") und wir würden 65% der Zeit korrekt gegen Quoten Menschen klassifizieren (30% von "wirklich mögen" und 35% von "wie"). Im statistischen Jargon: Unsere Signifikanz stieg von 10% auf 30% (schlecht!), Während die Aussagekraft unseres Tests von 30% auf 65% (gut!) Stieg.

Dies ist eine Situation, die alle statistischen Tests haben. So etwas wie ein kostenloses Mittagessen gibt es auch in der Statistik nicht! Wenn Sie die Leistung Ihres Tests erhöhen möchten, müssen Sie dafür das Signifikanzniveau erhöhen. Oder in einfacheren Worten: Wenn Sie die Guten besser einordnen möchten, müssen Sie dafür sorgen, dass mehr Böse gut aussehen!

Grundsätzlich sind wir jetzt fertig! Wir haben den leistungsstärksten Test erstellt, den wir mit den angegebenen Daten und einem Signifikanzniveau von 30% erzielen konnten, indem wir mithilfe von "Gefällt mir" - und "Gefällt mir" -Labels festgestellt haben, ob jemand gegen Quoten ist. Sind wir sicher?

Was wäre passiert, wenn wir im zweiten Schritt nach der Auswahl der Antwort "Gefällt mir" die Antwort "Gleichgültig" anstelle von "Gefällt mir" eingefügt hätten? Die Signifikanz des Tests wäre mit 30% gleich geblieben: 10% für Quotenmenschen antworten mit "wirklich" und 20% für Quotenmenschen mit "nicht". Beide Tests wären genauso schlecht bei der Fehlklassifizierung von Quotenindividuen. Die Leistung würde sich jedoch verschlechtern! Mit dem neuen Test hätten wir eine Potenz von 50% anstelle der 65%, die wir vorher hatten: 30% von "wirklich mag" und 20% von "gleichgültig". Mit dem neuen Test würden wir uns weniger genau mit Quotenindividuen identifizieren können!

Wer hat hier geholfen? Neyman-Person Wahrscheinlichkeitsverhältnis bemerkenswerte Idee! Die Antwort mit der höchsten Wahrscheinlichkeitsrate zu jedem Zeitpunkt zu nehmen, stellte sicher, dass wir in den neuen Test so viel Leistung wie möglich einbeziehen (großer Zähler), während wir die Signifikanz unter Kontrolle halten (kleiner Nenner)!

Ignasi
quelle
Wow, es hat einer Tonne geholfen, alles in dieser Tabelle zu sehen, und es hat einer Tonne geholfen, sich auf Teile davon zu beziehen. Vielen Dank!
Yatharth Agarwal
5

Der Kontext

(In diesem Abschnitt erkläre ich nur das Testen von Hypothesen, gebe ein und zwei Fehler usw. in meinem eigenen Stil ein. Wenn Sie mit diesem Material vertraut sind, fahren Sie mit dem nächsten Abschnitt fort.)

ΩP0P1ωΩω

Typischerweise entspricht in Anwendungen die Nullhypothese einer Art Status quo, wohingegen die Alternativhypothese ein neues Phänomen ist, das Sie zu beweisen oder zu widerlegen versuchen. Zum Beispiel können Sie jemanden auf seine psychischen Kräfte testen. Sie führen den Standardtest mit Karten mit verzerrten Linien durch oder was nicht, und veranlassen sie, eine bestimmte Anzahl von Malen zu schätzen. Die Nullhypothese ist, dass sie nicht mehr als eins zu fünf richtig machen (da es fünf Karten gibt), die alternative Hypothese ist, dass sie psychisch sind und möglicherweise mehr richtig machen.

ωAP0(A)P1(Ac)P0(A)P1(A)

Unter Berücksichtigung des Beispiels des Tests der psychischen Fähigkeiten beziehe ich mich gerne auf die Art von Fehler, bei dem die Null wahr ist, aber Sie schließen die Alternative als wahr als " Täuschung " (Sie glauben, der Typ ist psychisch, aber er ist nicht) und die andere Art von Fehler als " Vergesslichkeit ".

Das Lemma

α

Satz (Neyman-Pearson Lemma)

L0,L1α>0AΩP1(A)P0(A)α

A={ωΩL1(ω)L0(ω)K}

K>0 KP1(A)P1(B)BP0(B)P0(A)

KP0(A)=α

P1P0

P0P1RnP0(A)P0P1P0P1P0

Land kaufen

Das Herzstück der Deckspelze ist daher das Folgende:

μΩfΩα>0Aμ(A)αAfdμ

{ωΩf(ω)K}
K>0fB

αffαμP0fP1P0L1/L0

ABBABBABBxAf(y)>f(x)yAxyAf1([K,+))K

Jack M
quelle