Ein Beispiel, bei dem das Wahrscheinlichkeitsprinzip * wirklich * wichtig ist?

20

Gibt es ein Beispiel, bei dem zwei verschiedene verteidigungsfähige Tests mit proportionalen Wahrscheinlichkeiten zu deutlich unterschiedlichen (und gleichermaßen verteidigungsfähigen) Schlussfolgerungen führen würden, beispielsweise wenn die p-Werte um Größenordnungen voneinander entfernt sind, die Potenz zu Alternativen jedoch ähnlich ist?

Alle Beispiele, die ich sehe, sind sehr dumm und vergleichen ein Binom mit einem negativen Binom, wobei der p-Wert des ersten 7% und des zweiten 3% beträgt, die nur insofern "unterschiedlich" sind, als man binäre Entscheidungen über beliebige Schwellenwerte trifft von Bedeutung wie 5% (was übrigens ein ziemlich niedriger Standard für Inferenz ist) und sich nicht einmal die Mühe machen, die Macht zu betrachten. Wenn ich zum Beispiel die Schwelle um 1% ändere, kommen beide zu dem gleichen Ergebnis.

Ich habe noch nie ein Beispiel gesehen, bei dem es zu deutlich unterschiedlichen und vertretbaren Schlussfolgerungen kommen würde. Gibt es so ein Beispiel?

Ich frage, weil ich so viel Tinte gesehen habe, die für dieses Thema ausgegeben wurde, als ob das Likelihood-Prinzip für die Grundlagen der statistischen Inferenz von grundlegender Bedeutung ist. Aber wenn das beste Beispiel dumme Beispiele wie das oben genannte sind, scheint das Prinzip völlig ohne Belang zu sein.

Daher suche ich ein sehr überzeugendes Beispiel, bei dem, wenn man der LP nicht folgt, die Beweislast bei einem Test überwiegend in eine Richtung zeigt, bei einem anderen Test mit proportionaler Wahrscheinlichkeit jedoch die Beweislast überwältigend in die entgegengesetzte Richtung zeigen, und beide Schlussfolgerungen erscheinen vernünftig.

Im Idealfall könnte man zeigen, dass wir willkürlich weit auseinander liegende, aber vernünftige Antworten haben können, z. B. Tests mit p=0.1 versus p=1010 mit proportionalen Wahrscheinlichkeiten und äquivalenter Leistung, um dieselbe Alternative zu erkennen.

PS: Die Antwort von Bruce geht überhaupt nicht auf die Frage ein.

statslearner2
quelle
5
Bei der Durchführung von Signifikanztests kann man die Entscheidung jederzeit durch Ändern des Schwellenwerts ändern. Könnten Sie deshalb erklären, was Sie mit "deutlich", "albern" oder "zwingend" meinen? Übrigens, Sie scheinen den Wikipedia-Artikel zu lesen .
whuber
2
Willkommen bei CV, @statslearner. Können Sie ein Beispiel für einen oder mehrere spezifische Herangehensweisen an die Folgerung nennen, die nicht das Wahrscheinlichkeitsprinzip verwenden, das Sie als Kontrast sehen möchten?
Alexis
1
@whuber im Idealfall würde ich gerne sehen, dass Sie beliebig unterschiedliche Antworten konstruieren können, z. B. wenn Sie p-Werte verwenden möchten, so etwas wie p=0.5 gegenüber p=105 , und beide Berechnungen immer noch als vertretbar erscheinen.
statslearner2
3
Ich kann diesem Kommentar nicht folgen, da p=105 keinen Sinn ergibt. Haben Sie trotzdem darüber nachgedacht, nur die im Wikipedia-Beispiel angegebenen Zahlen zu ändern?
whuber
6
Der wesentliche Unterschied mit praktischen Auswirkungen ist die Verarbeitung von Stoppregeln: Unter der LP spielen sie keine Rolle, außerhalb der LP, die sie spielen. Siehe Berger & Wolpert (1987) für Details.
Xi'an

Antworten:

7

Stellen Sie sich eine hypothetische Situation vor, in der eine Punkt - Null - Hypothese zutrifft, die Stichprobe jedoch bis p<0.05 (dies wird immer der Fall sein) geschieht früher oder später, dh mit Wahrscheinlichkeit 1), und entscheiden Sie sich dann, den Versuch abzubrechen und die Null abzulehnen. Dies ist eine zugegebenermaßen extreme Stopp-Regel, die Sie jedoch im Interesse des Arguments berücksichtigen sollten.

Dieses schwachsinnige Verfahren wird eine Fehlerrate von 100% Typ I haben, aber es ist nichts falsch daran gemäß dem Likelihood-Prinzip.

Ich würde sagen, das ist "wirklich" wichtig. Sie können in diesem Argument natürlich ein beliebiges α wählen . Bayesianer können einen festen Grenzwert für den Bayes-Faktor verwenden, wenn sie möchten. Die gleiche Logik gilt. Die wichtigste Lehre hier ist, dass Sie LP nicht einhalten können und eine Fehlerratengarantie haben. Es gibt kein freies Mittagessen.

Amöbe sagt Reinstate Monica
quelle
4
Auch an dieses Beispiel habe ich gedacht. Aber ich habe es nicht erwähnt, weil es in der Tat schwachsinnig ist. Tatsächlich geschieht dies jedoch in der Praxis indirekt und informell.
Sextus Empiricus
1
Was sind die 2 Statistiken und ihre Wahrscheinlichkeit in Ihrem Beispiel? In der neg. binomial vs binomial case wir haben: 1) Statistiken 1, Anzahl der Versuche bis 3 Köpfe, Wahrscheinlichkeit neg binomial; 2) Statistik 2, Anzahl der Köpfe in n Versuchen, wie Binomail. In Ihrem Beispiel sehe ich nicht, was die beiden Statistiken sind und ob sie proportionale Wahrscheinlichkeiten haben.
statslearner2
1
In Ihrem Beispiel wäre es wahrscheinlich "Anzahl der Versuche bis p <0,05", was ich kaum bezweifle, dass es proportional zum Binomial ist, daher bin ich mir nicht sicher, ob Ihr Beispiel gültig ist, Amöbe.
statslearner2
1
Ich glaube nicht, dass das Wahrscheinlichkeitsprinzip besagt, dass daran nichts falsch ist. Das Likelihood-Prinzip filtert fehlerhafte Abläufe heraus. Die Tatsache , dass das Verfahren nicht die Wahrscheinlichkeit Prinzip gehorcht nicht das gleiche ist, wie es ist , unterstützt durch das Likelihood - Prinzip. Eine Bayes'sche Analyse dieses sequentiellen Testproblems, die natürlich dem Wahrscheinlichkeitsprinzip folgt, hat vollkommen feine Eigenschaften, da sie das von Ihnen beschriebene "schwachsinnige" Verfahren nicht implementiert.
Kerl
3
@amoeba betrachte unter der Alternative oder θ = 0 unter der Null mit Y iN ( θ , 1 ) . Es ist leicht zu zeigen, dass das Protokoll des Bayes-Faktors ungefähr istθN(0,τ1)θ=0YiN(θ,1)wobeiZndie üblicheZ-Teststatistik ist. Das Zurückweisen, wenn der Bayes-Faktor größer als1ist, entspricht dem Zurückweisen, wenn| Zn| >O(12[log(τ/n)+Zn2]ZnZ1. Unter dem Nullwert ist dies in der Einstellung für sequentielle Tests nicht garantiert (siehe Gesetz des iterierten Logarithmus). Daher wird das Bayes'sche Verfahren nicht dem von Ihnen beschriebenen Problem zum Opfer fallen. |Zn|>O(logn)
Kerl
4

Ausschlussklausel: Ich glaube, diese Antwort ist der Kern des gesamten Arguments. Daher ist es eine Diskussion wert, aber ich habe das Problem nicht vollständig untersucht. Daher begrüße ich Korrekturen, Verfeinerungen und Kommentare.

Der wichtigste Aspekt betrifft die sequentiell gesammelten Daten. Angenommen, Sie haben binäre Ergebnisse beobachtet und 10 Erfolge und 5 Fehler festgestellt. Das Likelihood-Prinzip besagt, dass Sie zu derselben Schlussfolgerung über die Erfolgswahrscheinlichkeit kommen sollten, unabhängig davon, ob Sie Daten gesammelt haben, bis Sie 10 Erfolge (negatives Binomial) oder 15 Versuche durchgeführt haben, von denen 10 Erfolge (Binomial) waren .

Warum ist das wichtig?

Denn nach dem Wahrscheinlichkeitsprinzip (oder zumindest nach einer bestimmten Interpretation) ist es völlig in Ordnung, die Daten zu beeinflussen, wenn Sie die Datenerfassung beenden, ohne Ihre Inferenz-Tools ändern zu müssen.

Konflikt mit sequentiellen Methoden

Die Idee, anhand Ihrer Daten zu entscheiden, wann die Datenerfassung eingestellt werden soll, ohne dass die Inferenz-Tools geändert werden, steht im Widerspruch zu herkömmlichen sequentiellen Analysemethoden. Das klassische Beispiel hierfür sind Methoden, die in klinischen Studien eingesetzt werden. Um die potenzielle Exposition gegenüber schädlichen Behandlungen zu verringern, werden Daten häufig zu Zwischenzeiten analysiert, bevor die Analyse durchgeführt wird. Wenn die Studie noch nicht abgeschlossen ist, die Forscher jedoch bereits über genügend Daten verfügen, um zu dem Schluss zu gelangen, dass die Behandlung funktioniert oder schädlich ist, sollten wir die Studie aus medizinischen Gründen abbrechen. Wenn die Behandlung funktioniert, ist es ethisch vertretbar, die Studie abzubrechen und die Behandlung für Patienten außerhalb der Studie bereitzustellen. Wenn es schädlich ist, ist es ethischer, aufzuhören, damit wir keine Versuchspatienten mehr einer schädlichen Behandlung aussetzen.

Das Problem ist nun, dass wir begonnen haben, mehrere Vergleiche durchzuführen. Daher haben wir die Fehlerrate von Typ I erhöht, wenn wir unsere Methoden nicht anpassen, um die mehreren Vergleiche zu berücksichtigen. Dies ist nicht ganz dasselbe wie bei herkömmlichen Mehrfachvergleichsproblemen, da es sich tatsächlich um mehrere Teilvergleiche handelt (dh wenn wir die Daten einmal mit 50% der gesammelten Daten und einmal mit 100% analysieren, sind diese beiden Stichproben eindeutig nicht unabhängig!). Je mehr Vergleiche wir durchführen, desto mehr müssen wir im Allgemeinen unsere Kriterien für die Ablehnung der Nullhypothese ändern, um die Fehlerrate des Typs I zu erhalten. Weitere Vergleiche sind geplant und erfordern mehr Nachweise für die Ablehnung der Null.

Dies stellt klinische Forscher in ein Dilemma; Wollen Sie Ihre Daten häufig überprüfen, dann aber die erforderlichen Nachweise zur Ablehnung der Null erhöhen, oder wollen Sie Ihre Daten selten überprüfen, um Ihre Leistungsfähigkeit zu erhöhen, aber möglicherweise nicht in der medizinisch-ethischen Hinsicht optimal zu handeln (z. B. möglicherweise)? Verzögerung der Markteinführung oder unnötig lange Exposition der Patienten gegenüber schädlicher Behandlung).

Es ist mein (vielleicht falsches) Verständnis, dass das Wahrscheinlichkeitsprinzip uns zu sagen scheint, dass es egal ist, wie oft wir die Daten überprüfen, wir sollten den gleichen Schluss ziehen. Dies besagt im Grunde, dass alle Ansätze für das sequentielle Studiendesign völlig unnötig sind; Verwenden Sie einfach das Wahrscheinlichkeitsprinzip und hören Sie auf, sobald Sie genügend Daten gesammelt haben, um eine Schlussfolgerung zu ziehen. Da Sie Ihre Inferenzmethoden nicht ändern müssen, um sich an die Anzahl der von Ihnen erstellten Analysen anzupassen, gibt es kein Kompromissdilemma zwischen der Anzahl der Überprüfungen und der Leistung. Bam, das ganze Feld der sequentiellen Analyse ist gelöst (nach dieser Interpretation).

Was mich persönlich sehr verwirrt, ist die Tatsache, dass die Wahrscheinlichkeit der endgültigen Teststatistik durch die Abbruchregel weitgehend geändert wird. Grundsätzlich erhöhen die Stoppregeln die Wahrscheinlichkeit diskontinuierlich an den Stoppunkten. Hier ist eine Handlung einer solchen Verzerrung; Die gestrichelte Linie ist die PDF-Datei der endgültigen Teststatistik unter der Null, wenn die Daten erst analysiert werden, nachdem alle Daten erfasst wurden, während die durchgezogene Linie die Verteilung unter der Null der Teststatistik angibt, wenn Sie die Daten viermal mit einer bestimmten Zahl überprüfen Regel.

Nach meinem Verständnis scheint das Wahrscheinlichkeitsprinzip zu implizieren, dass wir alles, was wir über das sequentielle Design von Frequentists wissen, verwerfen und vergessen können, wie oft wir unsere Daten analysieren. Dies hat natürlich enorme Konsequenzen, insbesondere für das klinische Design. Ich habe mir jedoch nicht überlegt, wie sie es rechtfertigen, zu ignorieren, wie Stoppregeln die Wahrscheinlichkeit der endgültigen Statistik verändern.

Einige leichte Diskussionen finden Sie hier , meistens auf den letzten Folien.

Cliff AB
quelle
2
+1. Ich finde es konzeptionell einfacher, über eine hypothetische Situation nachzudenken, wenn die Nullhypothese wahr ist, aber man die Stichprobe bis (diese Wand tritt immer früher oder später auf, dh mit Wahrscheinlichkeit 1) und beschließt dann , den Versuch abzubrechen. Dieses schwachsinnige Verfahren hat eine Fehlerrate von 100% Typ I, obwohl es der LP entspricht. p<0.05
Amöbe sagt Reinstate Monica
@amoeba: Ich stimme zu, dass Ihr Beispiel ziemlich einfach ist (+1). Das Ziel meiner Antwort ist es zu betonen, warum es überhaupt eine Diskussion gibt. Ich denke, die Antwort ist, dass wenn die Implikationen und Interpretationen der LP korrekt wären, es bedeuten würde, dass klinische Studien nicht länger zwischen maximaler Leistung und unnötiger Exposition wählen müssten, was ein absolut riesiger Gewinn wäre. Im Allgemeinen müssen Forscher die richtige Stichprobengröße nicht mehr im Voraus erraten, was die Nützlichkeit statistischer Tests erheblich verbessert.
Cliff AB
Nun, ich denke, der gesamte Rahmen der Frequentist-Tests stimmt nicht mit der LP überein, und so ist es auch. Wenn man eine Garantie für die Fehlerraten haben will, verwendet man häufigere Tests. Es stellt sich heraus, dass dies nicht mit LP vereinbar ist. Siehe auch Lindleys Paradoxon und all das. Gut stark. Früher war ich begeistert von diesen Dingen, aber jetzt bin ich es nicht mehr. Es gibt kein freies Mittagessen; man muss einige Entscheidungen treffen. Beachten Sie, dass viele Bayes'sche Prozeduren ebenfalls gegen LP verstoßen .
Amöbe sagt Reinstate Monica
"Die Wahrscheinlichkeit der endgültigen Teststatistik wird durch die Abbruchregel stark verändert." Das PDF wird geändert, und auch die Wahrscheinlichkeit (jedoch nur durch eine Konstante). Möglicherweise erhalten Sie jedoch weiterhin dieselben Wahrscheinlichkeitsfunktionen wie bei a Konstante der Proportionalität. ZB haben die Binomialverteilung und die negative Binomialverteilung für Erfolge und n Versuche beide eine Wahrscheinlichkeit L ( p | n , k ) , die proportional zu p k p n - kknL(p|n,k)pkpnk
Sextus Empiricus
3

Übersicht über LR-Tests für Exponentialdaten.

Let X1,X2,,Xn be a random sample from Exp(rate=λ), so that E(Xi)=μ=1/λ. For x>0, the density function is f(x)=λeλx and the CDF is F(x)=1eλx.

1. Test statistic is sample minimum.

V=X(1)=minn(Xi).VExp(nλ).

P(V>v)=P(X1>v,,Xn>v)=[eλv]n=enλv,
so that P(Vv)=1enλv, for v>0.

To test H9:μμ0 against Ha:μ>μ0, at level α=5%, we regard V as a single observation from its exponential distribution. We find that the log likelihood ratio indicates rejection when V>c, where P(V>c|μ=μ0)=0.05.

For the specific case in which n=100 and μ0=10,λ0=0.1, we have exponential rate 10=n/μ0=100/10=10, so that c=0.2295 from R, where the exponential distribution is parameterized by the rate.

 qexp(.95, 10)
 [1] 0.2995732
 1 - pexp(0.2996, 10)
 [1] 0.04998662

Accordingly, the power against the alternative μa=100 (rate n/μa=1) is about 74%.

1 - pexp(0.2996, 1)
[1] 0.7411146

2. Test statistic is the sample mean.

Oxford U. class notes (second page) show that the likelihood ratio test of H0:μμ0 against H0:μ>μ0 at the 5% level of significance rejects for X¯>c, where P(X¯>c|μ=μ0)=0.5. Furthermore, one can show using moment generating functions that X¯Gamma(n,nλ).

For the specific case in which n=100 and μ0=10,λ0=0.1, we have X¯Gamma(100,10), so that c=11.7.

qgamma(.95, 100, 10)
[1] 11.69971
1 - pgamma(11.7, 100, 10)
[1] 0.04997338

Accordingly, power against the alternative μa=14 is about 95.6%.

1 - pgamma(11.7, 100, 100/14)
[1] 0.9562513

Clearly, for purposes of testing hypotheses about the exponential mean μ, the information in the sufficient statistic X¯ is much greater than the information in the sample minimum.

BruceET
quelle
I don't think this address the question at all.Are the two likelihoods proportional? You first need to show the likelihood of the two experiments are proportional, otherwise the likelihood principle does not apply. Second, in this example the two tests lead to the same conclusion, so it's even more underwhelming than the example of the binomial versus negative binomial.
statslearner2
I just checked the document, the likelihoods are not proportional, since the first likelihood has v in the exponent and the other has xi, thus the likelihood principle should not apply here, it's fine for the two tests to lead to different conclusions according to the likelihood principle.
statslearner2
2
Bruce, just to clarify what the liklihood principle states: it says that if you have two experiments where the likelihoods differ only by a constant, then you should derive the same conclusion from them. This happens in the binomial versus negative binomial case, where they differ only in the binomial coefficient part (constant). Your example shows two tests where their likelihoods do not differ only by a constant, so the LP does not apply.
statslearner2
@statslearner2 the likelihood function for observing a sample x1,...,xn is:
f(x1,...,xn)=i=1nλeλxi
This is the same whether you select the minimum or the mean as a criteria to perform the test. The violation that occurs here can be seen as the type in which the definition of 'extreme cases' is different and the integration to compute the p-value is done differently.
Sextus Empiricus
3

Violation by different pdf functions f(x,θ) and g(x,θ)

This case will be an example of 'violation' because the probability distribution functions f(x,θ) g(x,θ) are intrinsically different. Even when f and g, differ, they may relate to the likelihood principle because at fixed measurement x they give the same functions of θ up to scaling. The difference, opens up a possibility for "violations".


The coin flip with or without optional stopping rule

The coin flip with or without optional stopping rule is a typical example, the pdf is binomial or negative binomial which are different pdf functions and lead to different calculation of p-values, and confidence intervals, but they lead to the same likelihood functions for fixed sample/measurement (up to scaling).

fNegative Binomial(n|k,p)=(n1k1)pk(1p)nkfBinomial(k|n,p)=(nk)pk(1p)nk


More extreme example

Consider some measurement of X which is distributed as

L(θ|x)=f(x|θ)={0 if x<0a if 0x<1(1a)θexp(θ(x1)) if x1

where a is some known parameter that depends on the type of experiment, and θ is some parameter that may be unknown and could be inferred from the measurement x.

For any given x and a the likelihood function is proportional to the same function that is independent from a:

  • If x<1 then L(θ|x)1
  • If x1 then L(θ|x)θexp(θ(x1))

But, albeit the same likelihood function, the p-value can vary widely depending on the experiment (ie the value of a). For instance when you measure x=2 and test H0:θ=1 against H0:θ<1 then the p-value is

P(X>2|θ=1)=(1a)exp(1)


Intuition: The reason for violation in these cases is that p-values and hypothesis tests are not solely based on the likelihood function for the particular observed value x.

The p-value is not calculated from the likelihood f(θ|x) with x fixed, but with the pdf f(x|θ) with θ fixed which is a different slice. Confidence intervals, p-value, and hypothesis tests, are different things than the information from likelihood ratios.

p-values are not really evidence: The p-value relates to type I error which is a measure that relates to an ensemble of measurements rather than to a single measurement. This type I error or p-value is not the same as 'evidential meaning' from Birnbaums 'foundations of statistical evidence'. This relates a lot to the problems with p-values and scientist searching for outcomes solely with statistical significance rather than important effects.

Do we need examples where inferences are markedly different? The extreme case is a contrived example. Such a case, or anything with a similar extreme difference, is of course not occurring easily in practice. It is more often the case that the difference will be small such as in the cases that you refer to as silly.

To ask for examples where the likelihood principle 'really matters', or where two different inferences lead to extremely different results, is a bit of a loaded question. At least when the intention for this question relates to some philosophical argument. It is a loaded question because it presupposes that principles that matter should lead to extremely varying results. In many practical cases the results are however small (in terms of different p-values less than an order). I believe that this is not a strange for two different, but both plausible, methods to result in more or less similar results. I would consider the likelihood principle not to be 'less violated' when the differences are only small.

Sextus Empiricus
quelle
Regarding Case 1: I think choosing a different test statistic can (should?) be seen as changing the likelihood function.
amoeba says Reinstate Monica
2
@MartijnWeterings yes it is choosing a different test statistics, what matters is the likelihood of the statistics, not of the data. Otherwise I can take a sequence of 100 flips and compute several statsistics: number of runs of heads, number of alternations of heads and tails. None of this violates the LP.
statslearner2
You need to pick two statistics that will have proportional likelihoods, such as the number of trials until 3 success or the number of successes in n trials etc.
statslearner2
1

Here is an example adapted from Statistical decision theory and Bayesian analysis by James O. Berger (Second edition page 29).

Say that two species of wasps can be distinguished by the number of notches on the wings (call this x) and by the number of black rings around the abdomen (call this y). The distribution of the characters in the two species (labelled H0 and H1) are as follows:

Table adapted from Statistical decision theory and Bayesian analysis by James O. Berger.

Say that we find a specimen with 1 notch on the wings and 1 ring around the abdomen. The weight of evidence if 100 times bigger in favor of H1 against H0 for both characters.

Now if someone wanted to set up a test for H0 at 5% level, the decision rule would be for the first character “accept H0 if there is 1 notch on the wing, otherwise reject it”, and for the second character “accept H0 if there are 3 rings around the abdomen, otherwise reject it”. There are many other possibilities, but these ones are most powerful tests at this level. Yet, they lead to different conclusions for both characters.


Note: one could of course set up a test with the rule “accept H0 if there are 1 or 3 rings around the abdomen, otherwise reject it”. The question is whether we prefer a test at 5% level with type II risk 0, or a test at 4.9% level with type II risk 0.00001. The difference is so small that we would probably not care, but as I understand it, this is the core of the argument for the likelihood principle: it is not a good idea to make the result depend on something that seems irrelevant.


The likelihood functions are proportional, and yet the p-value of x=1 is 0.95, and that of y=1 is 0.001 (assuming that we reject H0 with events of the form yα). It is obvious from the structure of the table that I could have chosen any number smaller than 0.001. Also, the type II risk of the rejection is 0, so it looks like there is nothing “wrong” here.

Still, I admit that this example is somewhat contrived and not completely honest because it plays with the difficulty of arranging tests with discrete data. One could find equivalent examples with continuous data but they would be even more contrived. I agree with the OP that the likelihood principle has almost no practical value; I interpret it as a principle to guarantee some consistency within the theory.

gui11aume
quelle