Ich habe einen Benutzertest generiert, um zwei Methoden zu vergleichen: M1 und M2. Ich generiere 40 Testfälle und zeige das Ergebnis jeder Methode im Testfall 20 Personen nebeneinander. Die Personen wissen nicht, welches Ergebnis von welcher Methode stammt. Für jeden Testfall muss jede Person sagen, ob das von M1 berechnete Ergebnis besser oder M2 besser oder gleich gut ist.
Ich möchte wissen, ob M1 besser ist als M2. Ich addiere alle Ergebnisse und generiere ein 3D-Histogramm, Stimmen für M1, Stimmen für Gleichstand und Stimmen für M2.
Wenn ich nur M1 und M2 als 2-D-Histogramm betrachten würde. Ich weiß, dass dieses Histogramm einheitlich wäre, wenn M1 und M2 gleich gut wären. Dann führe ich einfach einen Test durch.
Was ich nicht modellieren kann, sind die Stimmen für das Unentschieden. Hier sind zwei Optionen, an die ich gedacht habe:
- Die Grundlage des Chi-Quadrat-Tests ist, dass sich Histogramme gegenseitig ausschließen und sich zu einem addieren. Es scheint, dass die Stimmen für das Unentschieden in zwei Teile geteilt und zu jedem M1 und M2 addiert werden können (und Unentschieden entfernt werden), aber dies scheint nicht sehr prinzipiell zu sein.
- Eine andere Option ist, dass ich die Bindungen einfach ignorieren könnte, was fehlerhaft erscheint, weil es die Eigenschaft "Add-to-One" unterbricht. Wenn ich zum Beispiel (M1: 2, Bindungen: 98 M2: 0) hätte, wäre der Unterschied zwischen beiden Methoden statistisch nicht signifikant.
Was kann ich sonst noch tun? Schaue ich das falsch an? Dies scheint ein häufiges Problem zu sein, mit dem Menschen bei der Modellierung von Benutzerstimmen konfrontiert werden. Was ist der richtige Weg, um die Bindungen zu modellieren?
quelle
Antworten:
Ein psychologisch bedeutsames Modell kann uns leiten.
Ableitung eines nützlichen Tests
Jede Variation der Beobachtungen kann auf Variationen zwischen den Probanden zurückgeführt werden. Wir könnten uns vorstellen, dass jedes Subjekt auf einer bestimmten Ebene einen numerischen Wert für das Ergebnis von Methode 1 und einen numerischen Wert für das Ergebnis von Methode 2 liefert. Anschließend vergleichen sie diese Ergebnisse. Wenn die beiden ausreichend unterschiedlich sind, trifft das Subjekt eine bestimmte Wahl, andernfalls erklärt das Subjekt ein Unentschieden. (Dies bezieht sich auf das Vorhandensein einer Diskriminierungsschwelle .)
Die Variation zwischen den Probanden verursacht Variationen in den experimentellen Beobachtungen. Es gibt eine bestimmte Chance Methode 1 zu bevorzugen, eine bestimmte Chance π 2, Methode 2 zu bevorzugen, und eine bestimmte Chance π 0 eines Gleichstands.π1 π2 π0
Es ist fair anzunehmen, dass das Thema unabhängig voneinander reagiert. Dementsprechend ist die Wahrscheinlichkeit, Probanden zu beobachten, die Methode 1 bevorzugen, n 2 Probanden, die Methode 2 bevorzugen, und n 0 Probanden, die Bindungen geben, multinomial . Abgesehen von einer (irrelevanten) Normalisierungskonstante ist der Logarithmus der Wahrscheinlichkeit gleichn1 n2 n0
Unter der dass π 0 + π 1 + π 2 = 0 ist , wird dies maximiert, wenn π i = n i / n ist, wobei n = n 0 + n 1 + n 2 die Anzahl der Subjekte ist.π0+π1+π2=0 πi=ni/n n=n0+n1+n2
Um die Nullhypothese zu testen, dass die beiden Methoden als gleich gut angesehen werden, maximieren wir die Wahrscheinlichkeit, die der durch diese Hypothese implizierten Einschränkung unterliegt. Unter Berücksichtigung des psychologischen Modells und der Berufung auf eine hypothetische Schwelle müssen wir mit der Möglichkeit leben, dass (die Wahrscheinlichkeit von Bindungen) ungleich Null ist. Die einzige Möglichkeit, eine Tendenz zu erkennen, ein Modell gegenüber dem anderen zu bevorzugen, besteht darin, wie π 1 und π 2 beeinflusst werden: Wenn Modell 1 bevorzugt wird, sollte π 1 zunehmen und π 2 abnehmen und umgekehrt . Angenommen, die Variation ist symmetrischπ0 π1 π2 π1 π2 tritt die Nichtpräferenzsituation auf, wenn . (Die Größe von π 0 sagt etwas über den Schwellenwert aus - über die Unterscheidungsfähigkeit - gibt aber ansonsten keine Informationen über Präferenzen.)π1=π2 π0
Wenn es kein bevorzugtes Modell gibt, tritt die maximale Wahrscheinlichkeit auf, wenn und erneutπ0=n0/n. Wenn wir die beiden vorherigen Lösungen einstecken, berechnen wir die Änderung der maximalen Wahrscheinlichkeiten,G:π1=π2=n1+n22/n π0=n0/n G
Beispiel
Über Krawatten und alternative Tests
quelle
Ich vermute, dass Whubers Antwort (wie üblich) vollständiger ist als das, was ich gerade tippe. Ich gebe zu, ich verstehe die Antwort von whuber möglicherweise nicht vollständig ... also ist das, was ich sage, möglicherweise nicht eindeutig oder nützlich. Ich habe jedoch nicht bemerkt, wo in Whubers Antwort die Verschachtelung von Präferenzen unter Individuen sowie die Verschachtelung von Präferenzen innerhalb von Testfällen berücksichtigt wurde. Ich denke angesichts der Klarstellung des Fragestellers, dass:
PreferenceForM1 würde als 1 (Ja) und 0 (Nein) codiert. Hier würde ein Achsenabschnitt über 0 die Präferenz eines durchschnittlichen Bewerters für Methode 1 in einem durchschnittlichen Testfall anzeigen. Mit Beispielen in der Nähe der unteren Grenzen der Nützlichkeit für diese Techniken würde ich wahrscheinlich auch pvals.fnc und einfluss.ME verwenden, um meine Annahmen und die Auswirkungen von Ausreißern zu untersuchen.
Die grundlegende Frage zu Bindungen scheint von whuber gut beantwortet zu sein. Ich werde jedoch (erneut) feststellen, dass Bindungen Ihre Fähigkeit, einen statistisch signifikanten Unterschied zwischen den Methoden zu beobachten, zu verringern scheinen. Darüber hinaus werde ich behaupten, dass das Eliminieren dazu führen kann, dass Sie die Präferenz, die Einzelpersonen für eine Methode gegenüber der anderen haben, überschätzen. Aus dem späteren Grund würde ich sie drin lassen.
quelle
R