Kann ich Permutationstests verwenden, um das Problem des Mehrfachvergleichs im Zusammenhang mit Proportionen zu vermeiden?

9

Ich bewerte die Wirksamkeit von 5 verschiedenen Methoden zur Vorhersage eines bestimmten binären Ergebnisses (nenne sie "Erfolg" und "Misserfolg"). Die Daten sehen so aus:

Method    Sample_Size    Success    Percent_Success
1         28             4          0.14  
2         19             4          0.21  
3         24             7          0.29  
4         21             13         0.61  
5         22             9          0.40 

Ich möchte einen Test unter diesen 5 Methoden durchführen, um die relative Überlegenheit der Methoden zu bewerten. Mit anderen Worten, ich möchte die Methoden in der Reihenfolge ihrer Leistung als Methode 1> Methode 2> ... Methode 5 anordnen. Um das Problem mehrerer Vergleiche zu vermeiden, plane ich, einen Permutationstest in der folgenden Richtung durchzuführen:

Schritt 1: Poolen Sie alle Daten so, dass die Gesamtstichprobengröße 114 mit insgesamt 37 Erfolgen beträgt.

Schritt 2: Teilen Sie die Daten zufällig in 5 Gruppen mit den entsprechenden Stichprobengrößen von 28, 19, 24, 21 und 22 auf.

Schritt 3: Inkrementieren Sie einen Zähler, wenn die beobachtete Reihenfolge von Percent_Success aus Schritt 2 mit der Reihenfolge meiner Daten übereinstimmt.

Schritt 4: Wiederholen Sie die Schritte 2 und 3 viele Male (z. B. 10000).

Gewünschter p-Wert = Endzählerwert / 10000.

Fragen:

  1. Ist das obige Verfahren in Ordnung?

  2. Gibt es irgendetwas in R, das es mir ermöglichen würde, den obigen Test durchzuführen?

  3. Verbesserungsvorschläge oder alternative Methoden wären hilfreich.

sxv
quelle
@whuber Hast du vielleicht einen R-Code, um zu teilen, wie du das gemacht hast?
B_Miner

Antworten:

6

Das vorgeschlagene Verfahren beantwortet Ihre Frage nicht. Es wird nur die Häufigkeit unter der Nullhypothese geschätzt, mit der Ihre beobachtete Reihenfolge auftreten würde. Aber unter dieser Null sind in guter Näherung alle Ordnungen gleich wahrscheinlich, woher Ihre Berechnung einen Wert nahe 1/5 ergibt! = ungefähr 0,83%. Das sagt uns nichts.

Eine weitere offensichtliche Beobachtung: Die Reihenfolge, basierend auf Ihren Daten, ist 4> 5> 3> 2> 1. Ihre Schätzungen ihrer relativen Überlegenheiten sind 0,61 - 0,40 = 21%, 0,40 - 0,21 = 11% usw.

Angenommen, Ihre Frage betrifft das Ausmaß, in dem einer der Unterschiede in in Proportionen zufällig sein könnte, wenn die Nullhypothese lautet, dass kein Unterschied besteht. Sie können diese zehn Fragen tatsächlich mit einem Permutationstest bewerten. In jeder Iteration müssen Sie jedoch zehn Indikatoren für relative Proportionsunterschiede verfolgen, nicht einen globalen Indikator für die Gesamtbestellung.(52)=10

Für Ihre Daten liefert eine Simulation mit 100.000 Iterationen die Ergebnisse

543210.024390.00030.132330.2996120.097630.003740.2922230.202530.0088440.08702

Es ist unwahrscheinlich, dass die Unterschiede in den Anteilen zwischen Methode 4 und Methode 1, 2 und 3 zufällig sind (mit geschätzten Wahrscheinlichkeiten von 0,03%, 0,37% bzw. 0,88%), aber die anderen Unterschiede könnten sein. Es gibt einige Hinweise (p = 2,44%) auf einen Unterschied zwischen den Methoden 1 und 5. Sie können also sicher sein, dass die Unterschiede in den Anteilen der Beziehungen 4> 3, 4> 2 und 4> 1 alle positiv sind und höchstwahrscheinlich ist dies der Unterschied in 5> 1.

whuber
quelle
1
Das ist eine viel bessere Antwort als meine! Ich fürchte, ich habe die Frage nicht richtig gelesen (insbesondere Schritt 3). Ich dachte daran, meine Antwort zu löschen, aber ich stehe zu der besseren Interpretierbarkeit eines Bayes'schen Ansatzes, da es wirklich das Ranking ist, das von Interesse ist.
Onestop
Nur um sicherzugehen, dass ich es richtig verstehe. Der Indikator, der den relativen Unterschied zwischen Methode 4 und 5 verfolgt, wird aktualisiert, wenn ein Unterschied größer als 0,21 auftritt.
Sxv
@sxv Ja, das stimmt. (Nun, ich habe tatsächlich mehr als oder gleich verwendet. Es kommt zu Bindungen. Ich denke, die Gleichheit unter den signifikanten Ergebnissen einzubeziehen ist das Richtige, da wir die Wahrscheinlichkeit bewerten, dass so große oder größere Unterschiede zufällig auftreten können.)
whuber
1

Ihr vorgeschlagenes Monte-Carlo-Permutationstestverfahren liefert einen p-Wert für einen Test der Nullhypothese, dass die Erfolgswahrscheinlichkeit für alle Methoden gleich ist. Es gibt jedoch wenig Grund, hier einen Monte-Carlo- Permutationstest durchzuführen, wenn der entsprechende exakte Permutationstest durchaus durchführbar ist. Das ist der exakte Test von Fisher (einige Leute behalten sich diesen Namen für 2x2-Tabellen vor. In diesem Fall handelt es sich um einen bedingten exakten Test). Ich habe gerade Ihre Daten in Stata und -tabi ... eingegeben, genau- ergab p = 0,0067 (zum Vergleich ergibt Pearsons Chi-Quadrat-Test p = 0,0059). Ich bin sicher, dass es in R eine äquivalente Funktion gibt, die die R-Gurus bald hinzufügen werden.

Wenn Sie sich das Ranking wirklich ansehen möchten, verwenden Sie möglicherweise am besten einen Bayes'schen Ansatz, da er eine einfache Interpretation der Wahrscheinlichkeit liefert, dass jede Methode wirklich die beste, zweitbeste, drittbeste, ... ist. Das kostet natürlich, dass Sie Ihre Wahrscheinlichkeiten in den Vordergrund stellen müssen. Die maximale Wahrscheinlichkeitsschätzung der Ränge ist einfach die beobachtete Reihenfolge, aber es ist schwierig, die Unsicherheit in der Rangfolge in einem frequentistischen Rahmen auf eine Weise zu quantifizieren, die meines Wissens leicht interpretiert werden kann.

Mir ist klar, dass ich nicht mehrere Vergleiche erwähnt habe, aber ich sehe einfach nicht, wie das dazu kommt.

ein Stop
quelle
2
Der exakte Fisher-Test und die Pearson-Chi-Quadrate testen die Nullhypothese, dass alle 5 Methoden gleichermaßen wirksam sind, gegen die Alternative, dass mindestens 1 besser ist als die anderen. Die p-Werte sagen mir, dass die Null abgelehnt wird. Wenn ich also herausfinden möchte, welche Methoden tatsächlich besser sind als die anderen, muss ich dann nicht 10 paarweise Vergleiche durchführen?
Sxv