Kennt jemand eine Variation von Fisher's Exact Test, die Gewichte berücksichtigt? Zum Beispiel Stichprobengewichte .
Anstelle der üblichen 2x2-Kreuztabelle hat jeder Datenpunkt einen Wert für "Masse" oder "Größe", der den Punkt wiegt.
Beispieldaten:
A B weight
N N 1
N N 3
Y N 1
Y N 2
N Y 6
N Y 7
Y Y 1
Y Y 2
Y Y 3
Y Y 4
Fisher's Exact Test verwendet dann diese 2x2 Kreuztabelle:
A\B N Y All
N 2 2 4
Y 2 4 6
All 4 6 10
Wenn wir das Gewicht als 'tatsächliche' Anzahl von Datenpunkten annehmen würden, würde dies Folgendes ergeben:
A\B N Y All
N 4 13 17
Y 3 10 13
All 7 23 30
Das würde aber zu einem viel zu hohen Selbstvertrauen führen. Ein Datenpunkt, der von N / Y nach N / N wechselt, würde einen großen Unterschied in der Statistik bewirken.
Außerdem würde es nicht funktionieren, wenn irgendein Gewicht Bruchteile enthalten würde.
quelle
Eine kurze Anmerkung zu den Stichprobengewichten: Sie bieten normalerweise die Möglichkeit, Informationen über die Grundgesamtheit, aus der eine Stichprobe entnommen wird, einzubeziehen. In der Regel basieren sie jedoch auf Szenarien vom Typ "große Stichprobe" (normalerweise beschränkte BLUP- oder BLUE-Vorhersage in Verkleidung). Daher würde ich mir vorstellen, dass Stichprobengewichte wahrscheinlich nicht besser sind als keine Gewichte. Ich denke, es wäre besser, die Informationen über die Grundgesamtheit zu verwenden, auf die sich das Stichprobendesign direkt stützt.
Beachten Sie, dass wenn die Stichprobenwahrscheinlichkeiten nur auf den Daten basieren, die Sie wahrscheinlich erhalten haben, diese irrelevant sind (und der genaue Test von Fisher gilt), da Sie nach Erhalt der Daten wissen, welche Stichprobe Sie erhalten haben. Es ist also kohärent, die Abtastwahrscheinlichkeit auf den neuesten Stand zu bringenP( Dm) = 1 wenn sich die m-te Einheit in der Stichprobe befindet, und P( Dm) = 0 wenn sie nicht in der Stichprobe wären. Normalerweise basiert das Design jedoch auf mehr Informationen als nur den Daten, die man wahrscheinlich beobachtet. Beachten Sie jedoch, dass die Informationen und nicht das Umfragedesign an sich wichtig sind. Konstruktionsbasierte Inferenz ist nur eine sehr effiziente Methode, um all diese Informationen in Ihre Analyse einzubeziehen.
quelle