Kann man die Anzahl der Artikel in einer veröffentlichten Likert-Skala gültig reduzieren?

11

[Änderungen als Antwort auf Feedback vorgenommen - danke :-)]

Doh! Weitere Änderungen! Es tut uns leid!

Hallo-

Ich mache eine ziemlich grobe und fertige Datenerfassung mit einer Umfrage, die an das Gesundheitspersonal gesendet wird, wobei eine veröffentlichte Skala über die Moral und andere solche Probleme verwendet wird.

Das einzige ist, dass die Skala mit all den anderen Dingen in der Umfrage ziemlich lang ist, und ich möchte ihre Größe reduzieren, indem ich jede Subskala halbiere und nur die Hälfte der Elemente verwende. Meine Intuition ist, dass dies in Ordnung ist, da die Subskalen miteinander korrelieren, und obwohl es nicht ideal für die Recherche nach Publikationsstandard ist, ist es nur für ein bisschen organisationsinterne Faktenfindung in Ordnung.

Ich fragte mich, ob jemand irgendwelche Gedanken über die Gültigkeit, Fallstricke oder irgendetwas anderes hatte. Besonders dankbar sind Referenzen, denn meine Kollegen brauchen Überzeugungsarbeit!

Vielen Dank, Chris B.

Änderungen-

Ja, es ist eine validierte Skala mit bekannten psychometrischen Eigenschaften.

Es ist eindimensional und hat Subskalen, wenn das der richtige Weg ist, es auszudrücken.

Ich werde auf der Subskala und der Gesamtebene arbeiten, nicht auf der Ebene des Gegenstands.

30 Artikel, wahrscheinlich etwa 40-60 Personen.

Prost!

Chris Beeley
quelle
Ist dies eine validierte Skala mit bekannten psychometrischen Eigenschaften?
Chl
Hallo Chris, du reduzierst also nicht die Anzahl der Elemente in einer Likert-Skala, sondern verwendest weniger Fragen / Elemente (die auf einer Likert-Skala gemessen werden). Im Allgemeinen klingt es so, als ob es von Ihren Maßnahmen abhängt. Sie können die Korrelation der Elemente, die Sie entfernen möchten, mit denen, die Sie behalten, überprüfen. Es ist tatsächlich interessant zu messen, wie viel entfernt werden muss - es könnte sich lohnen, die Frage auf diese Weise neu zu formulieren (wenn Sie dies nicht tun, kann ich es später tun). Gute Frage :)
Tal Galili
Drei zusätzliche Fragen: (1) Ist dies eine eindimensionale Skala oder gibt es mehrere Subskalen? (2) Wie hoch ist die Anzahl der Personen und die Anzahl der Elemente? (3) Arbeiten Sie auf der Ebene der Elemente oder insgesamt oder mittlere Punktzahl?
Chl

Antworten:

11

Obwohl noch einige Informationen fehlen (Anzahl Einzelpersonen und Elemente pro Subskala), finden Sie hier einige allgemeine Hinweise zur Skalenreduzierung. Da Sie auf der Ebene des Fragebogens arbeiten, verstehe ich auch nicht, warum seine Länge so wichtig ist (schließlich geben Sie nur zusammenfassende Statistiken wie Gesamt- oder Durchschnittswerte an).

Ich gehe davon aus, dass (a) Sie eine Reihe von K Elementen haben, die ein moralisches Konstrukt messen, (b) Ihre "eindimensionale" Skala ein Faktor zweiter Ordnung ist, der in verschiedene Facetten unterteilt werden kann, (c) Sie möchten Reduzieren Sie Ihre Skala auf k <K Elemente, um die Gesamtskalenwerte der Probanden mit ausreichender Genauigkeit zusammenzufassen und gleichzeitig die inhaltliche Gültigkeit der Skala zu erhalten.

Informationen zur Gültigkeit von Inhalten / Konstrukten dieser validierten Skala: Die Anzahl der Elemente wurde mit Sicherheit so gewählt, dass sie das interessierende Konstrukt am besten widerspiegeln. Durch die Verkürzung des Fragebogens reduzieren Sie tatsächlich die Konstruktabdeckung. Es wäre gut zu überprüfen, ob die Faktorstruktur dieselbe bleibt, wenn nur die Hälfte der Elemente berücksichtigt wird (was sich schließlich auch auf die Art und Weise auswirken könnte, wie Sie sie auswählen). Dies kann unter Verwendung traditioneller FA-Techniken erfolgen. Sie sind dafür verantwortlich, die Skala in einem ähnlichen Geist wie die Autoren zu interpretieren.

Informationen zur Zuverlässigkeit der Bewertungen : Obwohl es sich um ein stichprobenabhängiges Maß handelt, nimmt die Zuverlässigkeit der Bewertungen ab, wenn die Anzahl der Elemente verringert wird (vgl. Spearman-Brown-Formel ). Eine andere Möglichkeit, dies zu sehen, besteht darin, dass der Standardmessfehler (SEM) zunimmt. Siehe jedoch Ein NCME-Lehrmodul zum Standardmessfehler von Leo M Harvill. Es ist unnötig zu erwähnen, dass dies für jeden Indikator gilt, der von der Anzahl der Elemente abhängt (z. B. Cronbachs Alpha, mit dem eine Form der Zuverlässigkeit geschätzt werden kann, nämlich die interne Konsistenz). Hoffentlich hat dies keine Auswirkungen auf Vergleiche zwischen Gruppen, die auf Rohwerten basieren.

Meine Empfehlungen (der einfachste Weg) wären also:

  1. Wählen Sie Ihre Elemente aus, um die Konstruktabdeckung zu maximieren. Überprüfen Sie die Dimensionalität mit FA und die Abdeckung mit univariaten Antwortverteilungen.
  2. Vergleichen Sie die durchschnittlichen Zwischenkorrelationen mit den zuvor gemeldeten.
  3. Berechnen Sie die interne Konsistenz für den gesamten Maßstab und Ihre Verbundwerkstoffe. Überprüfen Sie, ob sie mit den veröffentlichten Statistiken auf der ursprünglichen Skala übereinstimmen (Sie müssen nichts testen, dies sind stichprobenabhängige Maßnahmen).
  4. Testen Sie die linearen (oder polychromen oder Rang-) Korrelationen zwischen ursprünglichen und reduzierten (Unter-) Bewertungen, um sicherzustellen, dass sie vergleichbar sind (dh, dass die Positionen einzelner Personen auf dem latenten Merkmal nicht stark variieren, wie dies durch die Rohbewertungen objektiviert wird );
  5. Wenn Sie eine externe fachspezifische Variable haben (z. B. Geschlecht, Alter oder am besten ein Maß für die Moral), vergleichen Sie die Gültigkeit bekannter Gruppen zwischen den beiden Formen.

Der schwierige Weg wäre, sich auf die Item-Response-Theorie zu verlassen, um diejenigen Items auszuwählen, die das Maximum an Informationen über die Reduzierung latenter Merkmale enthalten - die Reduzierung der Skala ist tatsächlich eine der besten Anwendungen. Modelle für polytome Gegenstände wurden teilweise in diesem Thread, Validierung von Fragebögen, beschrieben .

Update nach dem 2. Update

  1. Vergessen Sie alle IRT-Modelle für polytome Gegenstände mit so wenigen Motiven.
  2. Die Faktoranalyse leidet auch unter einer so geringen Stichprobengröße. Sie erhalten unzuverlässige Schätzungen der Faktorladungen.
  3. 30 Elemente geteilt durch 2 = 15 Elemente (es ist leicht, eine Vorstellung von der Erhöhung des entsprechenden SEM für die Gesamtpunktzahl zu bekommen), aber es wird definitiv schlimmer, wenn Sie Subskalen berücksichtigen (dies war eigentlich meine 2. Frage - Nr. Elemente ggf. pro Subskala)
chl
quelle
8

Ich denke, es gibt keine eindeutige "Ja / Nein" -Antwort auf Ihre Frage. Wenn Sie willkürlich Elemente aus Unterskalen entfernen, um eine Kurzform des ursprünglichen Fragebogens zu erstellen, verlieren Sie die psychometrische Validierung der Langform. Dinge, die sich ändern können, sind die faktorielle Struktur des Fragebogens, die Zuverlässigkeit von Unterskalen, Korrelationen zwischen Elementen und Gesamtwerten usw. (Sie werden feststellen, dass ich an klassisches Denken in der Testtheorie gewöhnt bin, nicht an IRT). Außerdem können Sie keine Standardisierung des ursprünglichen Fragebogens verwenden. Aus diesem Grund müssen Kurzformen etablierter Fragebögen einer separaten Validierungsphase unterzogen werden.

Abhängig von Ihren Anforderungen ist jedoch nicht alles verloren. Möglicherweise benötigen Sie keine Standardisierung, da Sie möglicherweise nur die Ergebnisse in Ihrer Stichprobe vergleichen möchten, ohne "absolute" Beurteilungen in Bezug auf eine Referenzpopulation vorzunehmen. Meiner Meinung nach wäre es ein Plus, wenn Sie die Möglichkeit hätten, das Kurzformular mit dem Originalformular zumindest für eine Teilstichprobe Ihrer Gruppe zu validieren. Auf diese Weise können Sie möglicherweise feststellen, ob die Ergebnisse ähnlich sind.

Im Allgemeinen können die Ergebnisse eines Fragebogens jedoch überraschend empfindlich auf seine Artikelzusammensetzung reagieren. Die Leute füllen keine Fragebögen automatisch aus, sondern machen alle möglichen stillschweigenden Annahmen und kognitiven Schlussfolgerungen: "Worum geht es hier wirklich?", "Was soll ich hier berichten?", "Was wollen sie eigentlich wissen?". Dies kann stark durch den gegebenen Kontext der Gegenstände beeinflusst werden, vgl. Schwarz, N. 1996. Kognition und Kommunikation: Urteilsverzerrungen, Forschungsmethoden und die Logik der Konversation. Mahwah, NJ: Lawrence Erlbaum.

Karakal
quelle
4

Ich würde einen Punkt hinzufügen.

Beachten Sie die Unterscheidung zwischen Gruppen- (z. B. Vergleichen von Gruppenmitteln über die Zeit) und Messung auf Einzelebene (z. B. Korrelation von Punktzahlen auf der Skala mit anderen Skalen auf Einzelebene).

Die Zuverlässigkeit gilt für beide Ebenen unterschiedlich. Vielleicht hilft folgende Vereinfachung:

  • Die Zuverlässigkeit der Messung auf Gruppenebene wird stark von der Anzahl Ihrer Teilnehmer und dem Grad der tatsächlichen Variabilität auf Gruppenebene beeinflusst.
  • Die Zuverlässigkeit der Messung auf Einzelebene wird stark von der Anzahl Ihrer Elemente und dem Grad der tatsächlichen Variation der Personen beeinflusst.
Jeromy Anglim
quelle