Ich bewerte die Wirksamkeit von 5 verschiedenen Methoden zur Vorhersage eines bestimmten binären Ergebnisses (nenne sie "Erfolg" und "Misserfolg"). Die Daten sehen so aus:
Method Sample_Size Success Percent_Success
1 28 4 0.14
2 19 4 0.21
3 24 7 0.29
4 21 13 0.61
5 22 9 0.40
Ich möchte einen Test unter diesen 5 Methoden durchführen, um die relative Überlegenheit der Methoden zu bewerten. Mit anderen Worten, ich möchte die Methoden in der Reihenfolge ihrer Leistung als Methode 1> Methode 2> ... Methode 5 anordnen. Um das Problem mehrerer Vergleiche zu vermeiden, plane ich, einen Permutationstest in der folgenden Richtung durchzuführen:
Schritt 1: Poolen Sie alle Daten so, dass die Gesamtstichprobengröße 114 mit insgesamt 37 Erfolgen beträgt.
Schritt 2: Teilen Sie die Daten zufällig in 5 Gruppen mit den entsprechenden Stichprobengrößen von 28, 19, 24, 21 und 22 auf.
Schritt 3: Inkrementieren Sie einen Zähler, wenn die beobachtete Reihenfolge von Percent_Success aus Schritt 2 mit der Reihenfolge meiner Daten übereinstimmt.
Schritt 4: Wiederholen Sie die Schritte 2 und 3 viele Male (z. B. 10000).
Gewünschter p-Wert = Endzählerwert / 10000.
Fragen:
Ist das obige Verfahren in Ordnung?
Gibt es irgendetwas in R, das es mir ermöglichen würde, den obigen Test durchzuführen?
Verbesserungsvorschläge oder alternative Methoden wären hilfreich.
Antworten:
Das vorgeschlagene Verfahren beantwortet Ihre Frage nicht. Es wird nur die Häufigkeit unter der Nullhypothese geschätzt, mit der Ihre beobachtete Reihenfolge auftreten würde. Aber unter dieser Null sind in guter Näherung alle Ordnungen gleich wahrscheinlich, woher Ihre Berechnung einen Wert nahe 1/5 ergibt! = ungefähr 0,83%. Das sagt uns nichts.
Eine weitere offensichtliche Beobachtung: Die Reihenfolge, basierend auf Ihren Daten, ist 4> 5> 3> 2> 1. Ihre Schätzungen ihrer relativen Überlegenheiten sind 0,61 - 0,40 = 21%, 0,40 - 0,21 = 11% usw.
Angenommen, Ihre Frage betrifft das Ausmaß, in dem einer der Unterschiede in in Proportionen zufällig sein könnte, wenn die Nullhypothese lautet, dass kein Unterschied besteht. Sie können diese zehn Fragen tatsächlich mit einem Permutationstest bewerten. In jeder Iteration müssen Sie jedoch zehn Indikatoren für relative Proportionsunterschiede verfolgen, nicht einen globalen Indikator für die Gesamtbestellung.(52)=10
Für Ihre Daten liefert eine Simulation mit 100.000 Iterationen die Ergebnisse
Es ist unwahrscheinlich, dass die Unterschiede in den Anteilen zwischen Methode 4 und Methode 1, 2 und 3 zufällig sind (mit geschätzten Wahrscheinlichkeiten von 0,03%, 0,37% bzw. 0,88%), aber die anderen Unterschiede könnten sein. Es gibt einige Hinweise (p = 2,44%) auf einen Unterschied zwischen den Methoden 1 und 5. Sie können also sicher sein, dass die Unterschiede in den Anteilen der Beziehungen 4> 3, 4> 2 und 4> 1 alle positiv sind und höchstwahrscheinlich ist dies der Unterschied in 5> 1.
quelle
Ihr vorgeschlagenes Monte-Carlo-Permutationstestverfahren liefert einen p-Wert für einen Test der Nullhypothese, dass die Erfolgswahrscheinlichkeit für alle Methoden gleich ist. Es gibt jedoch wenig Grund, hier einen Monte-Carlo- Permutationstest durchzuführen, wenn der entsprechende exakte Permutationstest durchaus durchführbar ist. Das ist der exakte Test von Fisher (einige Leute behalten sich diesen Namen für 2x2-Tabellen vor. In diesem Fall handelt es sich um einen bedingten exakten Test). Ich habe gerade Ihre Daten in Stata und -tabi ... eingegeben, genau- ergab p = 0,0067 (zum Vergleich ergibt Pearsons Chi-Quadrat-Test p = 0,0059). Ich bin sicher, dass es in R eine äquivalente Funktion gibt, die die R-Gurus bald hinzufügen werden.
Wenn Sie sich das Ranking wirklich ansehen möchten, verwenden Sie möglicherweise am besten einen Bayes'schen Ansatz, da er eine einfache Interpretation der Wahrscheinlichkeit liefert, dass jede Methode wirklich die beste, zweitbeste, drittbeste, ... ist. Das kostet natürlich, dass Sie Ihre Wahrscheinlichkeiten in den Vordergrund stellen müssen. Die maximale Wahrscheinlichkeitsschätzung der Ränge ist einfach die beobachtete Reihenfolge, aber es ist schwierig, die Unsicherheit in der Rangfolge in einem frequentistischen Rahmen auf eine Weise zu quantifizieren, die meines Wissens leicht interpretiert werden kann.
Mir ist klar, dass ich nicht mehrere Vergleiche erwähnt habe, aber ich sehe einfach nicht, wie das dazu kommt.
quelle