Ich versuche eine Lösung zu finden, um zwei "Anpassungsgüte-Chi-Quadrat" -Tests zu vergleichen. Genauer gesagt möchte ich die Ergebnisse zweier unabhängiger Experimente vergleichen. In diesen Experimenten verwendeten die Autoren das Chi-Quadrat der Anpassungsgüte, um zufällige Schätzungen (erwartete Frequenzen) mit beobachteten Frequenzen zu vergleichen. Die beiden Experimente hatten die gleiche Teilnehmerzahl und die experimentellen Verfahren sind identisch, nur die Reize haben sich geändert. Die beiden Versuchsergebnisse zeigten ein signifikantes Chi-Quadrat (Exp. 1: X² (18) = 45; p <0,0005 und Exp. 2: X² (18) = 79; p <0,0001).
Nun möchte ich testen, ob es einen Unterschied zwischen diesen beiden Ergebnissen gibt. Ich denke, eine Lösung könnte die Verwendung von Konfidenzintervallen sein, aber ich weiß nicht, wie ich diese Konfidenzintervalle nur mit diesen Ergebnissen berechnen soll. Oder vielleicht ein Test zum Vergleich der Effektgröße (Cohens w)?
Hat jemand eine Lösung?
Vielen Dank!
FD
quelle
Antworten:
Die sehr begrenzten Informationen, die Sie haben, sind sicherlich eine schwerwiegende Einschränkung! Die Dinge sind jedoch nicht ganz hoffnungslos.
Unter den gleichen Annahmen, die zur asymptotischen Verteilung für die Teststatistik des gleichnamigen Anpassungstests führen, weist die Teststatistik unter der alternativen Hypothese asymptotisch eine nichtzentrale Verteilung auf. Wenn wir annehmen, dass die beiden Stimuli a) signifikant sind und b) den gleichen Effekt haben, haben die zugehörigen Teststatistiken die gleiche asymptotische nichtzentrale Verteilung. Wir können dies verwenden, um einen Test zu konstruieren - im Grunde genommen, indem wir den Nichtzentralitätsparameter schätzen und sehen, ob die Teststatistiken weit im Ende der nichtzentralen -Verteilung liegen. (Das heißt aber nicht, dass dieser Test viel Leistung haben wird.)χ 2 χ 2 λ χ 2 ( 18 , λ )χ2 χ2 χ2 λ χ2(18,λ^)
Wir können den Nichtzentralitätsparameter anhand der beiden Teststatistiken schätzen, indem wir ihren Durchschnitt nehmen und die Freiheitsgrade (eine Methode zur Schätzung von Momenten) subtrahieren, eine Schätzung von 44 ergeben oder die maximale Wahrscheinlichkeit:
Gute Übereinstimmung zwischen unseren beiden Schätzungen, was angesichts zweier Datenpunkte und der 18 Freiheitsgrade nicht wirklich überraschend ist. Um nun einen p-Wert zu berechnen:
Unser p-Wert beträgt also 0,12, was nicht ausreicht, um die Nullhypothese zu verwerfen, dass die beiden Stimuli gleich sind.
Hat dieser Test tatsächlich (ungefähr) eine Ablehnungsrate von 5%, wenn die Nicht-Zentralitätsparameter gleich sind? Hat es irgendeine Kraft? Wir werden versuchen, diese Fragen zu beantworten, indem wir eine Leistungskurve wie folgt erstellen. Zunächst legen wir den Durchschnitt auf den geschätzten Wert von 43,68 fest. Die alternativen Verteilungen für die beiden Teststatistiken sind nicht zentral mit 18 Freiheitsgraden und Nichtzentralitätsparametern für . Wir simulieren 10000 Draws aus diesen beiden Verteilungen für jedes und sehen, wie oft unser Test beispielsweise bei einem Konfidenzniveau von 90% und 95% ablehnt.χ 2 ( λ - δ , λ + δ ) δ = 1 , 2 , … , 15 δλ χ2 (λ−δ,λ+δ) δ=1,2,…,15 δ
was Folgendes ergibt:
Wenn wir uns die wahren Nullhypothesenpunkte ansehen (x-Achsenwert = 0), sehen wir, dass der Test konservativ ist, da er nicht so oft abzulehnen scheint, wie es das Niveau anzeigen würde, aber nicht überwältigend. Wie wir erwartet haben, hat es nicht viel Kraft, aber es ist besser als nichts. Ich frage mich, ob es angesichts der sehr begrenzten Menge an verfügbaren Informationen bessere Tests gibt.
quelle
Sie könnten das Cramer-V, das als Korrelation interpretiert werden kann, in ein Fisher-Z umwandeln, und dann ist das Konfidenzintervall dafür einfach (SE = 1 / sqrt (n-3): Z ± se * 1,96). Nachdem Sie die Enden des CI erhalten haben, können Sie sie wieder in r konvertieren.
Haben Sie darüber nachgedacht, alle Ihre Zählungen in eine Kontingenztabelle mit einer weiteren Dimension des Experiments aufzunehmen?
quelle