Ich habe einen Datensatz aus einer Kundenumfrage und möchte einen statistischen Test durchführen, um festzustellen, ob zwischen Produkt 1 und Produkt 2 ein Signifikanzunterschied besteht.
Hier ist ein Datensatz mit Kundenbewertungen.
Die Rate ist von sehr schlecht, schlecht, okay, gut bis sehr gut.
customer product1 product2
1 very good very bad
2 good bad
3 okay bad
4 very good okay
5 bad very good
6 okay good
7 bad okay
8 very good very bad
9 good good
10 good very good
11 okay okay
12 very good good
13 good good
14 very good okay
15 very good okay
Welche Methoden sollte ich verwenden, um festzustellen, ob zwischen diesen beiden Produkten ein Unterschied besteht?
Antworten:
Für die Rangfolge verschiedener Richter kann der Friedman-Test verwendet werden. http://en.wikipedia.org/wiki/Friedman_test
Sie können Bewertungen von sehr schlecht zu sehr gut in Zahlen von -2, -1, 0, 1 und 2 konvertieren. Geben Sie dann die Daten in Langform ein und wenden Sie friedman.test mit dem Kunden als Blockierungsfaktor an:
Die Rangfolge des Unterschieds zwischen 2 Produkten ist nicht signifikant.
Bearbeiten:
Das Folgende ist die Ausgabe der Regression:
quelle
Eine Möglichkeit ist, dass Sie den Vorzeichentest verwenden können.
Dies hängt von den Vergleichen innerhalb der Kunden ab, um festzustellen, ob ihre Bewertung von Produkt1 zu Produkt2 gestiegen, gefallen oder gleich geblieben ist (beim Binomialzeichen-Test wird davon ausgegangen, dass Sie nur "hoch" oder "runter" Ergebnisse erhalten, aber es gibt Verschiedene gängige Methoden, um sich den Bindungen innerhalb eines Paares zu nähern, z. B. Kunden 9
good
vsgood
).Ein gängiger Ansatz besteht darin, die gebundenen Bewertungen wie die von Kunden 9 auszuschließen (so dass die Schlussfolgerung über den relativen Anteil der Unterschiede zwischen Auf und Ab in der Bevölkerung unter der Annahme einer zufälligen Stichprobe von Kunden besteht).
In diesem Fall hatten Sie 4 Kunden, die dem zweiten Produkt höhere Bewertungen gaben, 8, die niedrigere und drei, die das gleiche gaben.
In diesem Fall würde mit Ihren Daten, 4 von einem Vorzeichen und 8 von dem anderen, ein zweiseitiger Vorzeichentest bei keinem typischen Signifikanzniveau der Ablehnung nahe kommen. Hier ist die Analyse in R:
Der p-Wert ist ziemlich hoch.
Nun , wenn Sie zu assign Noten vorbereitet (oder auch nur zu Rang) auf die relativen Größen der Änderungen in Bewertungen innerhalb jeden Paares - das heißt, ob Kunde 2 der „gut“ bis „schlecht“ Änderung ist größer, kleine oder dasselbe wie "sehr gut" von Kunde 4 bis "okay" usw., dann können Sie einen signierten Rangtest auf diese Ränge anwenden oder einen gepaarten Permutationstest für zugewiesene Punktzahlen durchführen (obwohl Sie sich auch mit schweren Bindungen befassen müssen). Dies kann leicht durch Permutieren der Sätze von Rängen oder Punktzahlen erfolgen, die Sie tatsächlich haben.
Es gibt einige andere Möglichkeiten, die Sie in Betracht ziehen könnten - aber ich glaube nicht, dass die Wahl der Analyse das Ergebnis verändern wird. Ich denke, sie werden alle diese typischen Signifikanzniveaus für diese Daten nicht ablehnen.
quelle
very bad
nachgood
vollständig mit einer Verschiebung vonbad
nach identisch istvery good
, können Sie sie nicht beanspruchen, nachdem Sie sie als Zahlen codiert haben ... (ctd)Sie haben abhängige Ordnungsdaten. Sie sollten den Wilcoxon-Signed-Rank-Test verwenden , um den signifikanten Unterschied zwischen beiden Produkten bei allen Kunden festzustellen.
Angesichts der obigen Daten liefert der Wilcoxon-Signed-Rank-Test jedoch keine signifikanten Ergebnisse.
quelle
good
,bad
) oder (very good
,okay
) zu einer Reihe von vorzeichenbehafteten Rängen übergegangen sind, da dies die auf diesem Weg getroffenen Annahmen offensichtlicher machen würde.Verwenden Sie den gepaarten t- Test
Solange Sie genügend Bewertungen haben (15 ist ausreichend und ich würde mich auch über weniger freuen) und einige Variationen in den Bewertungsunterschieden, gibt es überhaupt kein Problem mit dem gepaarten t- Test. Dann erhalten Sie Schätzungen, die sehr einfach zu interpretieren sind - die Durchschnittsbewertungen auf einer numerischen Skala von 1 bis 5 + deren Differenz (zwischen Produkten).
R-Code
In R ist das sehr einfach:
Lassen Sie uns zuerst die durchschnittlichen Bewertungen überprüfen:
Und der t- Test gibt uns:
Gefälschte Daten?
Seltsamerweise und unerwartet ergibt ein ungepaarter t- Test einen niedrigeren p- Wert.
Dies deutet darauf hin, dass die Beispieldaten gefälscht sind. Für reale Daten würde man eine (ziemlich hohe) positive Korrelation zwischen Bewertungen desselben Kunden erwarten. Hier ist die Korrelation negativ (wenn auch statistisch nicht signifikant):
Fehlende Daten
Wenn nicht alle Kunden beide Produkte bewertet haben (dh unausgeglichene Daten), ist ein besserer Ansatz die Verwendung eines Modells mit gemischten Effekten:
Lassen Sie uns zuerst die Daten in eine numerische Form konvertieren:
Und konvertieren Sie es in "lange" Form:
Und schließlich ein Modell mit gemischten Effekten als zufälligen Effekt an den Kunden anpassen:
Zusammenfassung
Verwenden Sie zusammenfassend den gepaarten t- Test. Dann erhalten Sie Schätzungen, die leicht zu interpretieren sind (einfache numerische Mittelwerte).
Wenn nicht alle Kunden beide Produkte bewertet haben, verwenden Sie stattdessen ein Modell mit gemischten Effekten. (Dies gibt etwa die gleichen Ergebnisse wie die gepaarten t - Test , wenn sie haben all beiden Produkte bewertet, so könnten Sie auch immer verwenden.)
quelle