Test auf Benutzereinstellungen

8

Ich habe einen Benutzertest generiert, um zwei Methoden zu vergleichen: M1 und M2. Ich generiere 40 Testfälle und zeige das Ergebnis jeder Methode im Testfall 20 Personen nebeneinander. Die Personen wissen nicht, welches Ergebnis von welcher Methode stammt. Für jeden Testfall muss jede Person sagen, ob das von M1 berechnete Ergebnis besser oder M2 besser oder gleich gut ist.

Ich möchte wissen, ob M1 besser ist als M2. Ich addiere alle Ergebnisse und generiere ein 3D-Histogramm, Stimmen für M1, Stimmen für Gleichstand und Stimmen für M2.

Wenn ich nur M1 und M2 als 2-D-Histogramm betrachten würde. Ich weiß, dass dieses Histogramm einheitlich wäre, wenn M1 und M2 gleich gut wären. Dann führe ich einfach einen Test durch.χ2

Was ich nicht modellieren kann, sind die Stimmen für das Unentschieden. Hier sind zwei Optionen, an die ich gedacht habe:

  • Die Grundlage des Chi-Quadrat-Tests ist, dass sich Histogramme gegenseitig ausschließen und sich zu einem addieren. Es scheint, dass die Stimmen für das Unentschieden in zwei Teile geteilt und zu jedem M1 und M2 addiert werden können (und Unentschieden entfernt werden), aber dies scheint nicht sehr prinzipiell zu sein.
  • Eine andere Option ist, dass ich die Bindungen einfach ignorieren könnte, was fehlerhaft erscheint, weil es die Eigenschaft "Add-to-One" unterbricht. Wenn ich zum Beispiel (M1: 2, Bindungen: 98 M2: 0) hätte, wäre der Unterschied zwischen beiden Methoden statistisch nicht signifikant.

Was kann ich sonst noch tun? Schaue ich das falsch an? Dies scheint ein häufiges Problem zu sein, mit dem Menschen bei der Modellierung von Benutzerstimmen konfrontiert werden. Was ist der richtige Weg, um die Bindungen zu modellieren?

carlosdc
quelle
Es hört sich sehr danach an, als hätten Sie es mit einem gepaarten Präferenzmodell (Vergleichsmodell) zu tun , oder?
Chl
Ich verstehe nicht, warum es problematisch ist, dass M1: 2 Ties: 98 M2: 0 statistisch nicht signifikant sein sollte. Im Wesentlichen hätten Sie eine Stichprobe von 2 Personen, die eine Präferenz hatten, und keine solche Tabelle mit nur 2 Personen wäre stat. sig.
Peter Flom
2
Nein, die beiden beantworten unterschiedliche Fragen, sodass sie unterschiedliche Antworten erhalten. Das Ablegen der Krawatten scheint mir die Frage zu beantworten, die Sie stellen möchten
Peter Flom
1
Als Randnotiz zu: "Wenn ich M1 und M2 nur als 2D-Histogramm betrachte. Ich weiß, dass dieses Histogramm einheitlich wäre, wenn M1 und M2 gleich gut wären", ist dies ein weit verbreitetes Missverständnis. Der Test prüft nur, ob Zeilen und Spalten unabhängig sind, dh jede Zeile ähnelt den anderen Zeilen. Sie müssen nicht einheitlich sein. χ2
Gung - Reinstate Monica
2
Es ist sicherlich wahr, dass die Verteilung eines fairen Stempels eine diskrete Uniform ist und dass ein bestimmter Würfel gegen diese "bestimmte theoretische Verteilung" auf Fairness getestet werden kann. Aber Anpassungsgüte Tests können auch gegen andere (uneinheitliche) theoretische Verteilungen durchgeführt werden, und die - Test der Unabhängigkeit sicher (was würden Sie verwenden) dies nicht erforderlich ist . χ2 χ2
Gung - Reinstate Monica

Antworten:

6

Ein psychologisch bedeutsames Modell kann uns leiten.

Ableitung eines nützlichen Tests

Jede Variation der Beobachtungen kann auf Variationen zwischen den Probanden zurückgeführt werden. Wir könnten uns vorstellen, dass jedes Subjekt auf einer bestimmten Ebene einen numerischen Wert für das Ergebnis von Methode 1 und einen numerischen Wert für das Ergebnis von Methode 2 liefert. Anschließend vergleichen sie diese Ergebnisse. Wenn die beiden ausreichend unterschiedlich sind, trifft das Subjekt eine bestimmte Wahl, andernfalls erklärt das Subjekt ein Unentschieden. (Dies bezieht sich auf das Vorhandensein einer Diskriminierungsschwelle .)

Die Variation zwischen den Probanden verursacht Variationen in den experimentellen Beobachtungen. Es gibt eine bestimmte Chance Methode 1 zu bevorzugen, eine bestimmte Chance π 2, Methode 2 zu bevorzugen, und eine bestimmte Chance π 0 eines Gleichstands.π1π2π0

Es ist fair anzunehmen, dass das Thema unabhängig voneinander reagiert. Dementsprechend ist die Wahrscheinlichkeit, Probanden zu beobachten, die Methode 1 bevorzugen, n 2 Probanden, die Methode 2 bevorzugen, und n 0 Probanden, die Bindungen geben, multinomial . Abgesehen von einer (irrelevanten) Normalisierungskonstante ist der Logarithmus der Wahrscheinlichkeit gleichn1n2n0

n1log(π1)+n2log(π2)+n0log(π0).

Unter der dass π 0 + π 1 + π 2 = 0 ist , wird dies maximiert, wenn π i = n i / n ist, wobei n = n 0 + n 1 + n 2 die Anzahl der Subjekte ist.π0+π1+π2=0πi=ni/nn=n0+n1+n2

Um die Nullhypothese zu testen, dass die beiden Methoden als gleich gut angesehen werden, maximieren wir die Wahrscheinlichkeit, die der durch diese Hypothese implizierten Einschränkung unterliegt. Unter Berücksichtigung des psychologischen Modells und der Berufung auf eine hypothetische Schwelle müssen wir mit der Möglichkeit leben, dass (die Wahrscheinlichkeit von Bindungen) ungleich Null ist. Die einzige Möglichkeit, eine Tendenz zu erkennen, ein Modell gegenüber dem anderen zu bevorzugen, besteht darin, wie π 1 und π 2 beeinflusst werden: Wenn Modell 1 bevorzugt wird, sollte π 1 zunehmen und π 2 abnehmen und umgekehrt . Angenommen, die Variation ist symmetrischπ0π1π2π1π2tritt die Nichtpräferenzsituation auf, wenn . (Die Größe von π 0 sagt etwas über den Schwellenwert aus - über die Unterscheidungsfähigkeit - gibt aber ansonsten keine Informationen über Präferenzen.)π1=π2π0

Wenn es kein bevorzugtes Modell gibt, tritt die maximale Wahrscheinlichkeit auf, wenn und erneutπ0=n0/n. Wenn wir die beiden vorherigen Lösungen einstecken, berechnen wir die Änderung der maximalen Wahrscheinlichkeiten,G:π1=π2=n1+n22/nπ0=n0/nG

G=(n1logn1n+n2logn2n+n0logn0n)(n1log(n1+n2)/2n+n2log(n1+n2)/2n+n0logn0n)=n1log2n1n1+n2+n2log2n2n1+n2.

G

1απ1=π2α0.050.013.8414596.634897


Beispiel

n=20n1=3n2=9n0=2039=8π1=3/20=0.15π2=9/20=0.4520.208π1=π2=6/20=0.3021.778G=20.208(21.778)=1.57α=3.84


Über Krawatten und alternative Tests

Gn0n=1003910039=88

n1=5n2=15

  1. n=20n0=0α0.02217α0.02660

  2. n=100n0=80α0.02217α0.319780

3×1n=20n1=3n2=10n0=7(n0,n1,n2)=(7,3,10)3.70.15720.04614α=

n=1001297182.421015

π1=π2=π0π1π2π0

whuber
quelle
Sie sagen "Wenn Sie auf die Formel für G zurückblicken, stellen Sie fest, dass die Anzahl der Bindungen (n0) nicht angezeigt wird" ... aber ich sehe n0 als Begriff in der Formel für die Änderung der logarithmischen Ähnlichkeit. Ist das nicht G?
Russellpierce
1
Gn0
Ah, ich verstehe jetzt. Ich habe das Gleichheitszeichen verpasst, das die Reduzierung der Gleichung anzeigt.
Russellpierce
Wie ist Ihre Lösung im Vergleich zu einem 2x2-Kontingenztabellenansatz ohne Bindungen?
Russellpierce
1
@dr Es sollte identisch sein. Ziel dieser Ableitung war es, diesen Ansatz anhand der Grundprinzipien der statistischen Inferenz und der Psychologie zu rechtfertigen , da der Kern des Problems offenbar den richtigen Umgang mit den Bindungen betrifft.
whuber
1

Ich vermute, dass Whubers Antwort (wie üblich) vollständiger ist als das, was ich gerade tippe. Ich gebe zu, ich verstehe die Antwort von whuber möglicherweise nicht vollständig ... also ist das, was ich sage, möglicherweise nicht eindeutig oder nützlich. Ich habe jedoch nicht bemerkt, wo in Whubers Antwort die Verschachtelung von Präferenzen unter Individuen sowie die Verschachtelung von Präferenzen innerhalb von Testfällen berücksichtigt wurde. Ich denke angesichts der Klarstellung des Fragestellers, dass:

Die Fälle sind in der Tat eine Zufallsstichprobe aller möglichen Fälle. Ich denke, eine Analogie ist die folgende: Die Wahl hängt davon ab, was bei den Wahlen passiert, aber ich habe für jeden Wähler seine Parteizugehörigkeit. Es wäre also fast zu erwarten, dass ein Kandidat einer Partei die mit dieser Partei verbundenen Wähler anspricht, aber dies ist nicht unbedingt selbstverständlich. Ein großartiger Kandidat kann in seiner Partei gewinnen und Menschen aus der anderen Partei für sich gewinnen.

χ2

lmer(PreferenceForM1~1+(1|RaterID)+(1|TestCaseID),family=binomial)

PreferenceForM1 würde als 1 (Ja) und 0 (Nein) codiert. Hier würde ein Achsenabschnitt über 0 die Präferenz eines durchschnittlichen Bewerters für Methode 1 in einem durchschnittlichen Testfall anzeigen. Mit Beispielen in der Nähe der unteren Grenzen der Nützlichkeit für diese Techniken würde ich wahrscheinlich auch pvals.fnc und einfluss.ME verwenden, um meine Annahmen und die Auswirkungen von Ausreißern zu untersuchen.

Die grundlegende Frage zu Bindungen scheint von whuber gut beantwortet zu sein. Ich werde jedoch (erneut) feststellen, dass Bindungen Ihre Fähigkeit, einen statistisch signifikanten Unterschied zwischen den Methoden zu beobachten, zu verringern scheinen. Darüber hinaus werde ich behaupten, dass das Eliminieren dazu führen kann, dass Sie die Präferenz, die Einzelpersonen für eine Methode gegenüber der anderen haben, überschätzen. Aus dem späteren Grund würde ich sie drin lassen.

russellpierce
quelle
R20800=2040
OP erklärte: "Ich generiere 40 Testfälle und zeige 20 Personen das Ergebnis jeder Methode im Testfall."; "Für jeden Testfall muss jede Person sagen, ob das von M1 berechnete Ergebnis besser oder M2 besser oder gleich ist gut." Also interpretierte ich OP so, dass es 20 * 40 Beobachtungen gab.
Russellpierce
Sie haben Recht, in diesen Daten werden viele Parameter geschätzt. Die genaue Zahl, auf der ich verschwommen bin (ein Ort, an dem das Statistikpaket es mir ermöglicht hat, mit meinem Verständnis der zugrunde liegenden Gleichungen selbstgefällig zu werden).
Russellpierce