Gruppenunterschiede bei einem Likert-Gegenstand mit fünf Punkten

22

Ausgehend von dieser Frage : Stellen Sie sich vor, Sie möchten die Unterschiede in der zentralen Tendenz zwischen zwei Gruppen (z. B. Männer und Frauen) an einem 5-Punkte-Likert-Element testen (z. B. Zufriedenheit mit dem Leben: Unzufrieden bis Zufrieden). Ich denke, ein t-Test wäre für die meisten Zwecke ausreichend genau, aber ein Bootstrap-Test der Unterschiede zwischen Gruppenmitteln würde häufig eine genauere Schätzung der Konfidenzintervalle liefern. Welchen statistischen Test würden Sie verwenden?

Jeromy Anglim
quelle
2
Eine verwandte Frage: Menschen verwenden häufig den nichtparametrischen Mann-Whitney-Test für diese Art von Daten. Da es nur fünf mögliche Werte gibt, gibt es viele gebundene Ränge. Der Mann-Whitney-Test passt sich an gebundene Ränge an. Funktioniert diese Anpassung jedoch bei einer großen Anzahl von Bindungen?
Harvey Motulsky
5
Dieser kürzlich in PARE, Five-Point Likert Items, veröffentlichte Artikel könnte Sie interessieren : t test versus Mann-Whitney-Wilcoxon , j.mp/biLWrA .
Chl
Ich bin nicht sicher, ob der Chi-Quadrat-Test auch geeignet ist. Er testet, ob es eine Abhängigkeit zwischen den Gruppen und den Elementen gibt (unterschiedliche Verteilung zwischen den Gruppen).
Pe-Pe-Rry

Antworten:

12

Clason & Dormody diskutierten das Thema statistischer Tests für Likert-Artikel ( Analysieren von Daten, die von einzelnen Likert-Artikeln gemessen wurden ). Ich denke, dass ein Bootstrap-Test in Ordnung ist, wenn die beiden Verteilungen ähnlich aussehen (glockenförmig und gleiche Varianz). Ein Test für kategoriale Daten (z. B. Trend- oder Fisher-Test oder ordinale logistische Regression) wäre jedoch ebenfalls interessant, da hiermit die Antwortverteilung über die Artikelkategorien überprüft werden kann (siehe Agrestis Buch zur kategorialen Datenanalyse (Kapitel 7 zu Logit-Modellen für multinomiale Antworten ).

Abgesehen davon können Sie sich Situationen vorstellen, in denen der t-Test oder andere nicht parametrische Tests fehlschlagen würden, wenn die Antwortverteilung zwischen den beiden Gruppen stark aus dem Gleichgewicht geraten würde. Beantworten beispielsweise alle Personen aus Gruppe A 1 oder 5 (im gleichen Verhältnis), während alle Personen aus Gruppe B 3 beantworten, erhalten Sie einen identischen Mittelwert innerhalb der Gruppe, und der Test ist in diesem Fall überhaupt nicht aussagekräftig Die Annahme der Homoskedastizität wird weitgehend verletzt.

chl
quelle
Der Artikel von Clason and Dormody sieht gut aus. Ihre Kommentare zur Antwortverteilung sind interessant zu betrachten. Ich bin damit einverstanden, dass Unterschiede in der Verteilung von Interesse sein könnten. Wenn Sie sich nur dafür interessieren würden, ob die Bevölkerungsgruppen-Mittelwerte unterschiedlich sind, wäre es nicht unbedingt wichtig, welche Verteilungen zu einer solchen Gleichheit geführt haben.
Jeromy Anglim
In diesem Fall gehen Sie davon aus, dass sich Ihre Likert-Skala (dh der wahrgenommene Unterschied zwischen z. B. sehr zufrieden und "nur" zufrieden) ideal verhält und in beiden Populationen dieselbe Bedeutung hat. Sie gehen implizit davon aus, dass es sich um eine numerische Skala handelt, aber ich stimme zu, dass dies in der angewandten Forschung häufig als solche angesehen wird, insbesondere wenn die Teilnehmer aus demselben Land stammen. Ich wollte nur die Perspektive der kategorialen Datenanalyse hervorheben, wie sie normalerweise in der Tradition der Faktoranalyse zu finden ist, wie in meiner Antwort auf Frage Nr. 10.
chl
Ich gehe davon aus, dass der Mittelwert der Stichprobe, die auf ein Likert-Element reagiert, im Allgemeinen eine aussagekräftige Zusammenfassung der Position der Gruppe zur zugrunde liegenden Dimension ist. Es ist interessant darüber nachzudenken, wann die Bedeutung eines Likert-Gegenstands zwischen Gruppen systematisch variieren würde. Natürlich geht dieses Problem über Likert-Artikel hinaus, wahrscheinlich bis hin zu jedem subjektiven Messverfahren.
Jeromy Anglim
8

Abhängig von der Größe des betreffenden Datensatzes ist ein Permutationstest möglicherweise einem Bootstrap vorzuziehen, da er möglicherweise einen genauen Test der Hypothese (und einen genauen CI) liefert.

russellpierce
quelle
4

IMHO können Sie keinen T-Test für Likert-Skalen verwenden. Die Likert-Skala ist ordinal und "kennt" nur die Werteverhältnisse einer Variablen: zB "völlig unzufrieden" ist schlimmer als "irgendwie unzufrieden". Ein t-Test muss dagegen Mittelwerte und mehr berechnen und benötigt daher Intervalldaten. Sie können Likert-Skalenwerte Intervalldaten zuordnen ("total unzufrieden" ist 1 usw.), aber niemand garantiert, dass "total unzufrieden" der gleiche Abstand zu "irgendwie unzufrieden" ist wie "irgendwie unzufrieden" von "weder noch". Übrigens: Was ist der Unterschied zwischen "total unzufrieden" und "irgendwie unzufrieden"? Am Ende würden Sie einen T-Test für die codierten Werte Ihrer Ordnungsdaten durchführen, aber das ergibt einfach keinen Sinn.

xmjx
quelle
9
... und doch ist es üblich. Eine Sache, auf die Sie hinweisen sollten, und ja, dies ist ein wenig umständlich, wenn Sie einen einzelnen Likert-Typ verwenden, der keine Likert-Skala ist. Der Unterschied ist bedeutungsvoll (obwohl der Fragesteller über einen Likert-Gegenstand spricht und die Ordinalität ein Problem darstellt). Eine Likert-Skala ist eine Folge der Summierung oder Mittelung mehrerer Likert-Elemente. Dieser Ansatz wurde speziell entwickelt, um das Ausmaß, in dem die Ordnungsdaten tatsächlich ordinal waren, auszugleichen und es sinnvoller zu machen, als auf der Intervallskala liegend behandelt zu werden.
Russellpierce
3

Wenn jeder einzelne Punkt des Fragebogens eine Ordnungszahl ist und ich glaube nicht, dass dieser Punkt bestritten werden kann, wenn man bedenkt, dass es keine Möglichkeit gibt, festzustellen, ob der quantitative Unterschied zwischen "stark zustimmen" und "zustimmen" der gleiche ist wie der zwischen " stimme überhaupt nicht zu "und" stimme überhaupt nicht zu ", warum sollte dann die Summierung all dieser Ordnungsstufenskalen einen Wert ergeben, der die Eigenschaften von Daten auf wahrer Intervallebene teilt?

Wenn wir zum Beispiel die Ergebnisse eines Depressionsinventars interpretieren, ist es (zumindest für mich) nicht sinnvoll zu sagen, dass eine Person mit einer Punktzahl von "20" doppelt so depressiv ist wie eine Person mit einer Punktzahl von "20". 10 ". Dies liegt daran, dass jeder Punkt im Fragebogen nicht die tatsächlichen Unterschiede im Ausmaß der Depression misst (unter der Annahme, dass die Depression eine stabile, intenale, organische Störung ist), sondern die subjektive Bewertung der Übereinstimmung der Person mit einer bestimmten Aussage. Auf die Frage "Wie deprimiert ist Ihre Stimmung auf einer Skala von 1 bis 4? 1 ist sehr deprimiert und 4 ist überhaupt nicht deprimiert." Weiß ich, dass die subjektive Bewertung 1 eines Befragten mit der eines anderen Befragten identisch ist ? Oder wie kann ich wissen, ob der Unterschied zwischen 4 und 3 in Bezug auf die Person gleich dem von 3 und 4 ist? Wenn wir nichts davon wissen, ist es nicht sinnvoll, die Summe aller dieser Ordnungszahlen als Intervalldaten zu behandeln. Selbst wenn die Daten eine Normalverteilung bilden, halte ich es nicht für angebracht, die Unterschiede zwischen den Bewertungen als Intervalldaten zu behandeln, wenn sie durch Addition aller Antworten auf ein Likert-Item berechnet wurden. Eine normale Datenverteilung bedeutet lediglich, dass die Antworten wahrscheinlich repräsentativ für die größere Bevölkerung sind. Dies bedeutet nicht, dass die aus den Inventaren erhaltenen Werte wichtige Eigenschaften der Intervalldaten gemeinsam haben. Ich halte es nicht für angebracht, die Unterschiede zwischen den Bewertungen als Intervalldaten zu behandeln, wenn sie berechnet wurden, indem alle Antworten zu einem Likert-Item addiert wurden. Eine normale Datenverteilung bedeutet lediglich, dass die Antworten wahrscheinlich repräsentativ für die größere Bevölkerung sind. Dies bedeutet nicht, dass die aus den Inventaren erhaltenen Werte wichtige Eigenschaften der Intervalldaten gemeinsam haben. Ich halte es nicht für angebracht, die Unterschiede zwischen den Bewertungen als Intervalldaten zu behandeln, wenn sie berechnet wurden, indem alle Antworten zu einem Likert-Item addiert wurden. Eine normale Datenverteilung bedeutet lediglich, dass die Antworten wahrscheinlich repräsentativ für die größere Bevölkerung sind. Dies bedeutet nicht, dass die aus den Inventaren erhaltenen Werte wichtige Eigenschaften der Intervalldaten gemeinsam haben.

Wir müssen in den Verhaltenswissenschaften vorsichtig sein, wie wir Statistiken verwenden, um mit den latenten Variablen, die wir untersuchen, zu sprechen, denn da es keinen direkten Weg gibt, diese hypothetischen Konstrukte zu messen, gibt es erhebliche Probleme, wenn wir versuchen, sie zu quantifizieren zu parametrischen Tests. Auch dies bedeutet nicht, dass Unterschiede zwischen diesen Werten bedeutsam sind, nur weil wir einer Reihe von Antworten Werte zugewiesen haben.

Justin
quelle
1
Wenn Sie gerne Artikelbewertungen summieren, haben Sie bereits mehr als das streng ordinale Maßniveau angenommen. Genau genommen können Ordnungsmaße nicht sinnvoll addiert oder gemittelt werden (Stevens ist sich übrigens darüber im Klaren). Sobald Sie dies getan haben, ist es völlig vernünftig, die resultierenden Scores als Intervalldaten zu behandeln.
Gala
0

Das Proportional-Odds-Ratio-Modell ist besser als der T-Test für die Likert-Item-Skala.

Wojtek
quelle
1
Möchten Sie Ihre Gründe erläutern? Ich kann sehen, wie ein solches Modell ein genaueres Modell der beobachteten Reaktionen liefern kann. In den typischen praktischen Forschungssituationen, die ich gesehen habe, interessieren sich die Forscher jedoch dafür, ob sich die beiden Gruppen in Bezug auf den Mittelwert unterscheiden (z. B. hat die Trainingsgruppe eine höhere Leistung als die Kontrolle angegeben; war die Zufriedenheit der Schüler von Jahr zu Jahr höher?) ). Das Proportional Odds Ratio-Modell testet diese Frage meines Wissens nicht genau.
Jeromy Anglim
0

Ich werde versuchen, das Proportional-Odds-Ratio-Modell in diesem Zusammenhang zu erklären, da es in mindestens 2 Antworten auf diese Frage vorgeschlagen und angegeben wurde.

Der Score-Test eines Proportional-Odds-Modells entspricht dem Wilcoxon-Rang-Summen-Test.

Genauer gesagt wurde gezeigt, dass die Score-Teststatistik für keine Auswirkung einer einzelnen dichotomen Kovariate in einem kumulativen logistischen Regressionsmodell mit proportionalen Gewinnchancen (McCullagh 1980) für das ordinale Ergebnis der Wilcoxon-Rang-Summen-Teststatistik entspricht. (Beweis in Eine Erweiterung des Wilcoxon-Rank-Sum-Tests für komplexe Stichprobenerhebungsdaten .)

Genau wie beim Wilcoxon-Rangsummentest wird bei diesem Test unabhängig von den erwarteten Werten festgestellt, ob zwei Proben aus unterschiedlichen Verteilungen entnommen wurden.

Dieser Test ist ungültig, wenn Sie nur feststellen möchten, ob zwei Stichproben aus Verteilungen mit unterschiedlichen erwarteten Werten gezogen wurden, genau wie der Wilcoxon-Rang-Summen-Test.

Marko Lalović
quelle