Berechnen Sie den p-Wert im gepaarten Bootstrap

8

Ich bin auf ein neues Papier der Berkeley NLP-Gruppe über statistische Tests gestoßen, eine empirische Untersuchung der statistischen Signifikanz in NLP .

Es gibt einen Pseudocode zum Berechnen eines p-Werts in der Arbeit. Grundsätzlich besteht die Idee darin, dass der Abtastsatz von x1,x2,...,xN werden mit Ersetzung aus Daten abgetastet . Dannx

p-Wert=Anzahl(δ(xich)>2δ(x))/.N. , wobei δ(xich) eine metrische Verstärkung ist.

Ich konnte die Formel zur Berechnung des p-Werts in Koehns Arbeit Statistische Signifikanztests für die Bewertung der maschinellen Übersetzung verstehen , in der:

p-Wert=Anzahl(δein(xich)<δb(xich))/.N. , wobei δein und δb die metrische Verstärkung für System ein bzw. b sind.

Gibt es irgendeine Erklärung oder Referenz für die Formel p-Wert=Anzahl(δ(xich)>2δ(x))/.N. . Die Autoren auch darauf hingewiesen , dass , wenn der Mittelwert von δ(xich) ist δ(x) und δ(xich) symmetrisch ist, dann über beiden Formeln sind äquivalent.

Ke Tran
quelle

Antworten:

1

Soweit ich aus Abschnitt 2 verstehe, scheinen die Autoren ihre Gründe für den Bootstrap-Test wie folgt zu erläutern:

"Die wurden aus abgetastet , und so wird ihr Durchschnitt nicht Null sein, wie es die Nullhypothese verlangt; der Durchschnitt wird stattdessen um ... Die Lösung ist eine Neuzentrierung von der Mittelwert - wollen wir wissen , wie oft ist mehr als besser als erwartet wir es zu schlagen erwarten. durch Deshalb haben wir zählen , wie viele der. haben schlagendes durch mindestens . " x δ ( x i ) δ ( x ) A δ ( x ) B δ ( x ) x i A B δ ( x )xichxδ(xich)δ(x)EINδ(x)B.δ(x)xichEINB.δ(x)

Die Autoren möchten testen, ob die Verstärkung ungleich Null ist, und schreiben den p-Wert als , der als umgeschrieben werden könnte ; weil die RHS der Ungleichung zu , was das ist, das sie ablehnen wollten.δ(xich)<2δ(x)0<2δ(x)- -δ(xich)E.[δ(xich)]]=δ(x)δ(x)H.0

Sameer
quelle