Ausgehend von dieser Frage : Stellen Sie sich vor, Sie möchten die Unterschiede in der zentralen Tendenz zwischen zwei Gruppen (z. B. Männer und Frauen) an einem 5-Punkte-Likert-Element testen (z. B. Zufriedenheit mit dem Leben: Unzufrieden bis Zufrieden). Ich denke, ein t-Test wäre für die meisten Zwecke ausreichend genau, aber ein Bootstrap-Test der Unterschiede zwischen Gruppenmitteln würde häufig eine genauere Schätzung der Konfidenzintervalle liefern. Welchen statistischen Test würden Sie verwenden?
t-test
ordinal-data
likert
scales
Jeromy Anglim
quelle
quelle
Antworten:
Clason & Dormody diskutierten das Thema statistischer Tests für Likert-Artikel ( Analysieren von Daten, die von einzelnen Likert-Artikeln gemessen wurden ). Ich denke, dass ein Bootstrap-Test in Ordnung ist, wenn die beiden Verteilungen ähnlich aussehen (glockenförmig und gleiche Varianz). Ein Test für kategoriale Daten (z. B. Trend- oder Fisher-Test oder ordinale logistische Regression) wäre jedoch ebenfalls interessant, da hiermit die Antwortverteilung über die Artikelkategorien überprüft werden kann (siehe Agrestis Buch zur kategorialen Datenanalyse (Kapitel 7 zu Logit-Modellen für multinomiale Antworten ).
Abgesehen davon können Sie sich Situationen vorstellen, in denen der t-Test oder andere nicht parametrische Tests fehlschlagen würden, wenn die Antwortverteilung zwischen den beiden Gruppen stark aus dem Gleichgewicht geraten würde. Beantworten beispielsweise alle Personen aus Gruppe A 1 oder 5 (im gleichen Verhältnis), während alle Personen aus Gruppe B 3 beantworten, erhalten Sie einen identischen Mittelwert innerhalb der Gruppe, und der Test ist in diesem Fall überhaupt nicht aussagekräftig Die Annahme der Homoskedastizität wird weitgehend verletzt.
quelle
Abhängig von der Größe des betreffenden Datensatzes ist ein Permutationstest möglicherweise einem Bootstrap vorzuziehen, da er möglicherweise einen genauen Test der Hypothese (und einen genauen CI) liefert.
quelle
IMHO können Sie keinen T-Test für Likert-Skalen verwenden. Die Likert-Skala ist ordinal und "kennt" nur die Werteverhältnisse einer Variablen: zB "völlig unzufrieden" ist schlimmer als "irgendwie unzufrieden". Ein t-Test muss dagegen Mittelwerte und mehr berechnen und benötigt daher Intervalldaten. Sie können Likert-Skalenwerte Intervalldaten zuordnen ("total unzufrieden" ist 1 usw.), aber niemand garantiert, dass "total unzufrieden" der gleiche Abstand zu "irgendwie unzufrieden" ist wie "irgendwie unzufrieden" von "weder noch". Übrigens: Was ist der Unterschied zwischen "total unzufrieden" und "irgendwie unzufrieden"? Am Ende würden Sie einen T-Test für die codierten Werte Ihrer Ordnungsdaten durchführen, aber das ergibt einfach keinen Sinn.
quelle
Wenn jeder einzelne Punkt des Fragebogens eine Ordnungszahl ist und ich glaube nicht, dass dieser Punkt bestritten werden kann, wenn man bedenkt, dass es keine Möglichkeit gibt, festzustellen, ob der quantitative Unterschied zwischen "stark zustimmen" und "zustimmen" der gleiche ist wie der zwischen " stimme überhaupt nicht zu "und" stimme überhaupt nicht zu ", warum sollte dann die Summierung all dieser Ordnungsstufenskalen einen Wert ergeben, der die Eigenschaften von Daten auf wahrer Intervallebene teilt?
Wenn wir zum Beispiel die Ergebnisse eines Depressionsinventars interpretieren, ist es (zumindest für mich) nicht sinnvoll zu sagen, dass eine Person mit einer Punktzahl von "20" doppelt so depressiv ist wie eine Person mit einer Punktzahl von "20". 10 ". Dies liegt daran, dass jeder Punkt im Fragebogen nicht die tatsächlichen Unterschiede im Ausmaß der Depression misst (unter der Annahme, dass die Depression eine stabile, intenale, organische Störung ist), sondern die subjektive Bewertung der Übereinstimmung der Person mit einer bestimmten Aussage. Auf die Frage "Wie deprimiert ist Ihre Stimmung auf einer Skala von 1 bis 4? 1 ist sehr deprimiert und 4 ist überhaupt nicht deprimiert." Weiß ich, dass die subjektive Bewertung 1 eines Befragten mit der eines anderen Befragten identisch ist ? Oder wie kann ich wissen, ob der Unterschied zwischen 4 und 3 in Bezug auf die Person gleich dem von 3 und 4 ist? Wenn wir nichts davon wissen, ist es nicht sinnvoll, die Summe aller dieser Ordnungszahlen als Intervalldaten zu behandeln. Selbst wenn die Daten eine Normalverteilung bilden, halte ich es nicht für angebracht, die Unterschiede zwischen den Bewertungen als Intervalldaten zu behandeln, wenn sie durch Addition aller Antworten auf ein Likert-Item berechnet wurden. Eine normale Datenverteilung bedeutet lediglich, dass die Antworten wahrscheinlich repräsentativ für die größere Bevölkerung sind. Dies bedeutet nicht, dass die aus den Inventaren erhaltenen Werte wichtige Eigenschaften der Intervalldaten gemeinsam haben. Ich halte es nicht für angebracht, die Unterschiede zwischen den Bewertungen als Intervalldaten zu behandeln, wenn sie berechnet wurden, indem alle Antworten zu einem Likert-Item addiert wurden. Eine normale Datenverteilung bedeutet lediglich, dass die Antworten wahrscheinlich repräsentativ für die größere Bevölkerung sind. Dies bedeutet nicht, dass die aus den Inventaren erhaltenen Werte wichtige Eigenschaften der Intervalldaten gemeinsam haben. Ich halte es nicht für angebracht, die Unterschiede zwischen den Bewertungen als Intervalldaten zu behandeln, wenn sie berechnet wurden, indem alle Antworten zu einem Likert-Item addiert wurden. Eine normale Datenverteilung bedeutet lediglich, dass die Antworten wahrscheinlich repräsentativ für die größere Bevölkerung sind. Dies bedeutet nicht, dass die aus den Inventaren erhaltenen Werte wichtige Eigenschaften der Intervalldaten gemeinsam haben.
Wir müssen in den Verhaltenswissenschaften vorsichtig sein, wie wir Statistiken verwenden, um mit den latenten Variablen, die wir untersuchen, zu sprechen, denn da es keinen direkten Weg gibt, diese hypothetischen Konstrukte zu messen, gibt es erhebliche Probleme, wenn wir versuchen, sie zu quantifizieren zu parametrischen Tests. Auch dies bedeutet nicht, dass Unterschiede zwischen diesen Werten bedeutsam sind, nur weil wir einer Reihe von Antworten Werte zugewiesen haben.
quelle
Das Proportional-Odds-Ratio-Modell ist besser als der T-Test für die Likert-Item-Skala.
quelle
Ich werde versuchen, das Proportional-Odds-Ratio-Modell in diesem Zusammenhang zu erklären, da es in mindestens 2 Antworten auf diese Frage vorgeschlagen und angegeben wurde.
Der Score-Test eines Proportional-Odds-Modells entspricht dem Wilcoxon-Rang-Summen-Test.
Genauer gesagt wurde gezeigt, dass die Score-Teststatistik für keine Auswirkung einer einzelnen dichotomen Kovariate in einem kumulativen logistischen Regressionsmodell mit proportionalen Gewinnchancen (McCullagh 1980) für das ordinale Ergebnis der Wilcoxon-Rang-Summen-Teststatistik entspricht. (Beweis in Eine Erweiterung des Wilcoxon-Rank-Sum-Tests für komplexe Stichprobenerhebungsdaten .)
Genau wie beim Wilcoxon-Rangsummentest wird bei diesem Test unabhängig von den erwarteten Werten festgestellt, ob zwei Proben aus unterschiedlichen Verteilungen entnommen wurden.
Dieser Test ist ungültig, wenn Sie nur feststellen möchten, ob zwei Stichproben aus Verteilungen mit unterschiedlichen erwarteten Werten gezogen wurden, genau wie der Wilcoxon-Rang-Summen-Test.
quelle