Ich habe mir diese Seite über die Monte-Carlo-Implementierung des Lillefors-Tests angesehen. Ich verstehe diesen Satz nicht:
Bei dieser Berechnung aus der Simulation liegt ein zufälliger Fehler vor. Aufgrund des Tricks, 1 zum Zähler und Nenner bei der Berechnung des P-Werts zu addieren, kann es jedoch ohne Berücksichtigung der Zufälligkeit direkt verwendet werden.
Was meinen sie mit dem Trick, 1 zu Zähler und Nenner zu addieren?
Der relevante Code ist hier:
n <- length(x)
nsim <- 4999
d.star <- double(nsim)
for (i in 1:nsim) {
x.star <- rnorm(n)
d.star[i] <- fred(x.star)
}
hist(d.star)
abline(v = d.hat, lty = 2)
## simulation-derived P-value
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)
monte-carlo
lilliefors
Aksakal
quelle
quelle
Antworten:
Die Erklärung auf der Seite, auf die verwiesen wird, lautet
Um dies zu verstehen, müssen wir uns den Code ansehen, dessen Schlüsselzeilen (erheblich abgekürzt) sind
Das Hauptproblem ist, dass der Code nicht mit dem Angebot übereinstimmt. Wie können wir sie versöhnen? Ein Versuch beginnt mit der letzten Hälfte des Zitats. Wir könnten das Verfahren so interpretieren, dass es die folgenden Schritte umfasst:
Collect unabhängig und identisch verteilten Daten gemäß irgendeinem Wahrscheinlichkeitsgesetz G . Wenden Sie eine Testprozedur t (implementiert im Code als ) an, um die Zahl T 0 = t ( X 1 , … , X n ) zu erzeugen.X1,X2,…,Xn G t T0=t(X1,…,Xn) .
fred
Generieren via Computer vergleichbare Datensatz, die jeweils eine Größe n , entsprechend eine Nullhypothese mit Wahrscheinlichkeitsgesetz F . Wenden Sie t auf jeden solchen Datensatz an, um N Zahlen T 1 , T 2 , … , T N zu erzeugenN=nsim n F t N T1,T2,…,TN .
Berechnen Sie
(" " ist die Indikatorfunktion, die durch den vektorwertigen Vergleich im Code implementiert wird .) Die rechte Seite wird aufgrund der gleichzeitigen Zufälligkeit von T 0 (der tatsächlichen Teststatistik) und der Zufälligkeit von T als zufällig verstanden i (die simulierte Teststatistik).I T0 Ti
d.star > d.hat
Zu sagen , dass die Daten an die Nullhypothese entsprechen ist zu behaupten , dass . Wählen Sie eine Testgröße α , 0 < α < 1 . Das Multiplizieren beider Seiten mit N + 1 und das Subtrahieren von 1 zeigt, dass die Wahrscheinlichkeit, dass P ≤ α für eine beliebige Zahl α ist, die Wahrscheinlichkeit ist, dass nicht mehr als ( N + 1 ) α - 1 des T i T 0 überschreitet . Dies sagt lediglich, dass T.F=G α 0<α<1 N+1 1 P≤α α (N+1)α−1 Ti T0 T0 liegt innerhalb der Spitze des sortierten Satzes aller N + 1 -Teststatistiken. Da (konstruktionsbedingt) T 0 unabhängig von allen T i ist , ist diese Chance , wenn F eine kontinuierliche Verteilung ist, der Bruchteil der Summe, die durch den ganzzahligen Teil ⌊ ( N + 1 ) α ⌋ dargestellt wird ; das heißt, Pr ( P ≤ α ) = ⌊ ( N + 1 ) α ⌋(N+1)α N+1 T0 Ti F ⌊(N+1)α⌋ und es wird genau gleich sein, vorausgesetzt(N+1)αist eine ganze Zahlk; das heißt, wennα=k/(N+1).
Dies ist sicherlich eines der Dinge, die wir für jede Größe gelten wollen, die es verdient, als "p-Wert" bezeichnet zu werden: Sie sollte eine gleichmäßige Verteilung auf . Vorausgesetzt, N + 1 ist ziemlich groß, so dass jedes α nahe an einem Bruchteil der Form k / ( N + 1 ) = k / ( n sim + 1 ) liegt , ist dies[0,1] N+1 α k/(N+1)=k/(nsim+1) nahezu eine gleichmäßige Verteilung. (Um mehr über die zusätzlichen Bedingungen zu erfahren, die für einen p-Wert erforderlich sind, lesen Sie bitteP den Dialog, den ich zum Thema p-Werte gepostet habe. )
Offensichtlich sollte das Zitat " " anstelle von " n sim " verwenden, wo immer es erscheint.nsim+1 nsim
quelle
Ich glaube, dass hier 1 zu beiden hinzugefügt wird, weil die beobachtete Statistik in der Referenzverteilung enthalten ist; Wenn dies der Fall ist, liegt dies an dem "mindestens ebenso großen" Teil der Definition des p-Werts.
Ich weiß es nicht genau, weil der Text etwas anderes zu sagen scheint, aber deshalb würde ich es tun.
quelle