Summe der Bewertungen im Vergleich zu den geschätzten Faktorbewertungen?

12

Es würde mich interessieren, Vorschläge zu erhalten, wann beim Erstellen von Skalen " Faktor-Scores " über einer einfachen Summe von Scores verwendet werden sollten. Dh "verfeinert" gegenüber "nicht verfeinerten" Methoden zur Bewertung eines Faktors. Aus DiStefano et al. (2009; pdf ), Hervorhebung hinzugefügt:

Es gibt zwei Hauptklassen von Faktor-Score-Berechnungsmethoden: verfeinert und nicht verfeinert. Nicht verfeinerte Methoden sind relativ einfache, kumulative Verfahren, um Informationen über die Platzierung von Personen in Bezug auf die Faktorverteilung bereitzustellen. Die Einfachheit bietet sich für einige attraktive Merkmale an, dh nicht verfeinerte Methoden sind sowohl leicht zu berechnen als auch leicht zu interpretieren. Durch verfeinerte Berechnungsmethoden werden Faktorwerte unter Verwendung ausgefeilterer und technischer Ansätze erstellt. Sie sind genauer und komplexer als nicht verfeinerte Methoden und liefern Schätzungen, bei denen es sich um standardisierte Scores handelt.

Wenn das Ziel meines Erachtens die Erstellung einer Skala ist, die für alle Studien und Einstellungen verwendet werden kann, ist eine einfache Summe oder Durchschnittsbewertung aller Skalenelemente sinnvoll. Nehmen wir jedoch an, dass das Ziel darin besteht, die Behandlungseffekte eines Programms zu bewerten, und dass der wichtige Kontrast innerhalb der Stichprobenbehandlung gegenüber der Kontrollgruppe liegt. Gibt es einen Grund, warum wir Faktor-Scores der Skalierung von Summen oder Durchschnittswerten vorziehen könnten?

Um die Alternativen zu konkretisieren, nehmen Sie dieses einfache Beispiel:

library(lavaan)
library(devtools)

# read in data from gist ======================================================
# gist is at https://gist.github.com/ericpgreen/7091485
# this creates data frame mydata
  gist <- "https://gist.github.com/ericpgreen/7091485/raw/f4daec526bd69557874035b3c175b39cf6395408/simord.R"
  source_url(gist, sha1="da165a61f147592e6a25cf2f0dcaa85027605290")
  head(mydata)
# v1 v2 v3 v4 v5 v6 v7 v8 v9
# 1  3  4  3  4  3  3  4  4  3
# 2  2  1  2  2  4  3  2  1  3
# 3  1  3  4  4  4  2  1  2  2
# 4  1  2  1  2  1  2  1  3  2
# 5  3  3  4  4  1  1  2  4  1
# 6  2  2  2  2  2  2  1  1  1

# refined and non-refined factor scores =======================================
# http://pareonline.net/pdf/v14n20.pdf

# non-refined -----------------------------------------------------------------
  mydata$sumScore <- rowSums(mydata[, 1:9])
      mydata$avgScore <- rowSums(mydata[, 1:9])/9
  hist(mydata$avgScore)

# refined ---------------------------------------------------------------------
  model <- '
            tot =~ v1 + v2 + v3 + v4 + v5 + v6 + v7 + v8 + v9
           '
  fit <- sem(model, data = mydata, meanstructure = TRUE,
             missing = "pairwise", estimator = "WLSMV")
  factorScore <- predict(fit)
  hist(factorScore[,1])
Eric Green
quelle
Ich habe "Eingriffe" aus dem Titel entfernt, um die Frage allgemeiner klingen zu lassen, und weil Eingriffe möglicherweise keinen eindeutigen, spezifischen Einfluss auf die Unterscheidung zwischen den beiden Arten der Konstruktionsberechnung haben. Wenn Sie nicht einverstanden sind, können Sie meine Bearbeitung gerne zurücksetzen.
TTNPHNS
1
They are more exactDiese zusätzliche Betonung sollte uns nicht von der Tatsache ablenken, dass sogar Faktorwerte unweigerlich ungenau sind ("unterbestimmt").
TTNPHNS
Siehe auch diese ähnliche Frage: stats.stackexchange.com/q/31967/3277 .
TTNPHNS
Ich denke, "Interventionen" sind als spezieller Anwendungsfall relevant, müssen aber nicht im Titel enthalten sein. Ich habe das Hauptproblem in der Frage hervorgehoben. Was die Betonung auf "genauer" anbelangt, war ich neugierig, angesichts der Beobachtung, dass die Faktorwerte unbestimmt sind, Gedanken über diesen Punkt zu bekommen. Danke für die Links zu anderen Fragen.
Eric Green
"more exact". Unter den linear berechneten Faktorwerten ist die Regressionsmethode in dem Sinne "am genauesten mit den unbekannten wahren Faktorwerten korreliert" "am genauesten". Also ja, genauer (im linearen algebraischen Ansatz), aber nicht ganz genau.
TTNPHNS

Antworten:

6

Mit dieser Idee habe ich in einigen aktuellen Projekten selbst gerungen. Ich denke, Sie müssen sich fragen, was hier geschätzt wird. Wenn ein Ein-Faktor-Modell passt, schätzen die Faktor-Scores den latenten Faktor. Die gerade Summe oder der Mittelwert Ihrer Manifestvariablen schätzt etwas anderes, es sei denn, jede Beobachtung belastet den Faktor gleichermaßen und die Eindeutigkeiten sind auch gleich. Und das etwas anderes ist wahrscheinlich keine Menge von großem theoretischen Interesse.

Wenn also ein Ein-Faktor-Modell passt, ist es wahrscheinlich ratsam, die Faktorwerte zu verwenden. Ich nehme Ihren Standpunkt zur Vergleichbarkeit zwischen Studien an, aber innerhalb einer bestimmten Studie denke ich, dass die Faktorwerte viel für sie bedeuten.

Interessant wird es, wenn ein Ein-Faktor-Modell nicht passt, weil entweder ein Zwei-Faktor-Modell angewendet wird (oder höher) oder weil die Kovarianzstruktur komplizierter ist, als ein Faktor-Modell vorhersagt. Für mich stellt sich dann die Frage, ob sich die gerade Summe der Variablen auf etwas Reales bezieht. Dies gilt insbesondere dann, wenn die Daten mehr als eine Dimension haben. In der Praxis kommt es häufig vor, dass Sie eine Reihe verwandter Variablen (z. B. Umfrageelemente) haben, von denen sich eine oder zwei stark von den anderen unterscheiden. Sie können sagen, "zur Hölle damit", und den Durchschnitt von allem nehmen, unabhängig davon, was es bedeutet. Oder Sie können mit dem Faktor Scores gehen. Wenn Sie ein Ein-Faktor-Modell anpassen, werden in der Regel die weniger nützlichen Variablen (oder zumindest die Variablen, die tatsächlich zu einem zweiten Faktor-Score gehören) durch die Faktoranalyse herabgewichtet. Tatsächlich werden sie als zu einer anderen Dimension gehörig erkannt und ignoriert.

Ich glaube also, dass der Faktor-Score die Daten sozusagen beschneiden kann, dass sie eindimensionaler sind, als Sie es ursprünglich getan haben. Aber ich habe keine Referenz dafür, und ich versuche immer noch, in meiner eigenen Arbeit herauszufinden, ob ich diesen Ansatz mag. Für mich ist die große Gefahr zu groß, wenn Sie die Partituren in ein anderes Modell mit denselben Daten pflügen. Die Ergebnisse sind bereits die Antwort auf eine Optimierungsfrage. Wo bleibt der Rest der Analyse? Ich hasse es zu denken.

Aber ist letztendlich eine Summe oder Summe von Variablen tatsächlich sinnvoll, wenn so etwas wie ein Ein-Faktor-Modell nicht zutrifft?

Viele dieser Fragen würden sich nicht stellen, wenn die Leute zunächst bessere Maßstäbe entwerfen würden.

Placidia
quelle
Ich freue mich über Ihre Kommentare, @Placidia. Sie bringen Klarheit und erinnern uns an das größere Durcheinander! Ich halte dies für einen interessanten Punkt: "Wenn das Faktormodell passt, schätzen die Faktorwerte den latenten Faktor. Die gerade Summe oder der Mittelwert Ihrer Manifestvariablen schätzt etwas anderes, es sei denn, jede Beobachtung belastet den Faktor und den Faktor gleichermaßen Die Einzigartigkeiten sind auch die gleichen. Und dass etwas anderes wahrscheinlich nicht von großem theoretischem Interesse ist. "
Eric Green
+1 für eine sehr nachdenkliche Antwort. Ein paar Gedanken zum Hinzufügen: 1) In Bezug auf die Vergleichbarkeit zwischen Studien ist es wichtig zu erkennen, dass im Gegensatz zu Komponentenladungen - die sich als Reaktion auf im Modell enthaltene / ausgeschlossene Variablen erheblich ändern können - häufige Faktorladungen Parameterschätzungen sind. Anschließend sollten sie (innerhalb des Stichprobenfehlers) von Studie zu Studie replizieren, und damit auch der Faktor. 2) Wenn Sie sich Gedanken über die Verwendung von Faktor-Scores machen, sehen Sie sich möglicherweise die Bestimmungsindizes an und wie gut Ihre Faktor-Score-Korrelationen die latenten Korrelationen
widerspiegeln
1
... da ich denke, dass dies eine Strategie ist, die in DiStefanno et. al. Papier, um zu bewerten, ob Faktor-Scores "vertrauenswürdig" sein können. Und schließlich 3) wenn Ihr Ziel, wie Placidia beschreibt, darin besteht, etwas zu analysieren, das größtenteils eindimensional ist, könnten Sie einen Bifaktoranalyse-Ansatz in Betracht ziehen, der meines Wissens zuerst einen gemeinsamen Faktor extrahiert, auf den jede Variable geladen wird, und dann orthogonal Faktoren werden für Teilmengen von Variablen extrahiert, die angeblich die wichtigsten unterscheidbaren Faktoren über die gemeinsame Dimension hinaus widerspiegeln, die alle Variablen miteinander verbindet.
jsakaluk
Placidia, in der letzten Bearbeitung Ihrer Antwort, zwingen Sie sich immer wieder durch den Ausdruck one-factor model. Ich frage mich nur warum. Wollen Sie damit sagen, dass es in einem 2-Faktor-Modell keine Faktor-Scores estimate the latent factormehr gibt? Warum so? Und wie definieren Sie "Ein-Faktor-Modell" im Kontext eines Fragebogens, der gerade entwickelt wird (der wahrscheinliche Kontext des Q): Ist der Fragebogen ein Einzelfaktor / eine Skala oder zählt jeder enthaltene Gegenstand genau zu einem Faktor? /Rahmen? Würde es Ihnen etwas ausmachen, es klarer zu machen?
TTNPHNS
Ich wollte mögliche Missverständnisse vermeiden. Wenn Sie an ein Zwei-Faktor-Modell glauben, ist die Verwendung von Summen vermutlich nicht möglich. Sie benötigen zwei Zusammenfassungen für zwei Dimensionen in den Daten. Ich wollte klarstellen, dass es bei meiner Antwort darum ging, zwischen der Zusammenfassungsstatistik und dem Faktor-Score des Ein-Faktor-Modells zu wählen. Ich behaupte, dass die Ein-Faktor-Bewertung nützlich sein kann, auch wenn das Modell falsch ist. @ jsakaluks Vorschlag, ein Multi-Faktor-Modell anzupassen und den ersten Faktor zu wählen, ist ebenfalls möglich und könnte in einigen Fällen besser sein.
Placidia
4

Das Summieren oder Mitteln von Elementen, die mit dem gemeinsamen Faktor geladen wurden, ist eine traditionelle Methode, um den Construst-Score (das Konstrukt, das diesen Faktor darstellt) zu berechnen. Es ist die einfachste Version der "Grobmethode" zur Berechnung der Faktorwerte . Der Hauptpunkt der Methode besteht darin, Faktorladungen als Punktegewichte zu verwenden . Während verfeinerte Methoden zur Berechnung von Bewertungen speziell geschätzte Bewertungskoeffizienten (berechnet aus den Ladungen) als Gewichte verwenden.

Diese Antwort schlägt nicht allgemein "vor, wann [verfeinerte] Faktor-Scores anstelle der einfachen Summe der Item-Scores zu verwenden sind", sondern konzentriert sich darauf, einige konkrete offensichtliche Implikationen aufzuzeigen, die damit einhergehen, eine Methode zu bevorzugen , das Konstrukt der anderen vorzuziehen Weg.

Stellen Sie sich eine einfache Situation mit einem Faktor und zwei von ihm geladenen Elementen vor. Nach Fußnote 1 hier zu erklären , wie Regressions- Faktorwerte berechnet werden, Faktor - Score - Koeffizienten b 1 und b 2 Faktorwerte von berechnen F kommt ausFb1b2F

,s1=b1r11+b2r12

,s2=b1r12+b2r22

wobei und s 2 die Korrelationen zwischen dem Faktor und den Gegenständen sind - die Faktorladungen; r 12 ist die Korrelation zwischen den Elementen. Die b- Koeffizienten unterscheiden die Faktorwerte von der einfachen, ungewichteten Summe der Elementwerte. Wenn Sie nur die Summe (oder den Mittelwert) berechnen, setzen Sie nämlich absichtlich beide bs auf gleich. Während in "verfeinerten" Faktorwerten die b s aus den obigen Gleichungen erhalten werden und normalerweise nicht gleich sind.s1s2r12bbb

Der Einfachheit halber und weil die Faktoranalyse häufig für Korrelationen durchgeführt wird, nehmen wir das s als Korrelationen, nicht als Kovarianzen. Dann sind r 11 und r 22 Einheit und können weggelassen werden. Dann,rr11r22

,b1=s2r12-s1r122-1

,b2=s1r12-s2r122-1

daher ist b1b2=(r12+1)(s1s2)r1221.

Uns interessiert, wie diese mögliche Ungleichung zwischen den s von der Ungleichung zwischen den Belastungen s s und der Korrelation r 12 abhängtbsr12 . Die Funktion ist unten im Oberflächendiagramm und auch in einem Heatmap-Diagramm dargestellt.b1b2

enter image description here

enter image description here

Da die Belastungen gleich sind ( ), sind die b- Koeffizienten natürlich immer gleich. Wenn s 1 - s 2 wächst,s1s2=0bs1s2b1b2r12

b

Betrachten wir aber zwei verschiedene Ladungen, zum Beispiel s1=.70s2=.45.25

c. Wenn sie stark korrelieren, ist das schwächer geladene Objekt ein Junior-Duplikat des anderen. Was ist der Grund, diesen schwächeren Indikator / Symptom in der Gegenwart seines stärkeren Ersatzes zu zählen? Kein wichtiger Grund. Und Faktor-Scores passen sich dem an (während einfache Summierung dies nicht tut). Beachten Sie, dass in einem Multifaktor-Fragebogen der "schwächer geladene Artikel" häufig ein anderer Faktor ist, der dort höher geladen ist. während im gegenwärtigen Faktor dieser Gegenstand, wie wir jetzt sehen, bei der Berechnung von Faktorwerten zurückgehalten wird - und das dient ihm recht.

b. Aber wenn Gegenstände, während sie wie zuvor ungleich beladen sind, nicht so stark korrelieren, dann sind sie für uns verschiedene Indikatoren / Symptome. Und könnte "zweimal" gezählt werden, dh nur aufsummiert. In diesem Fall versuchen Faktor-Scores, den schwächeren Gegenstand so weit zu berücksichtigen, wie es seine Beladung noch zulässt, da es sich um eine andere Ausführungsform des Faktors handelt.

ein. Zwei Elemente können auch zweimal gezählt werden, dh nur summiert werden, wenn sie ähnliche, ausreichend hohe Beladungen aufweisen, und zwar um den Faktor, unabhängig von der Korrelation zwischen diesen Elementen. (Faktorwerte erhöhen das Gewicht beider Elemente, wenn sie nicht zu eng miteinander korrelieren. Die Gewichte sind jedoch gleich.) Es erscheint nicht unvernünftig, dass wir normalerweise doppelte Elemente tolerieren oder zulassen, wenn sie alle stark belastet sind. Wenn Ihnen dies nicht gefällt (manchmal möchten Sie es vielleicht), können Sie Doppeleinträge jederzeit manuell aus dem Faktor entfernen.

enter image description here

Bei der Berechnung von (verfeinerten) Faktor-Scores (zumindest nach der Regressionsmethode) sind also Intrigen zwischen den Variablen, aus denen sich das Konstrukt zusammensetzt, in ihrem Einfluss auf die Scores erkennbar . Ebenso starke Indikatoren tolerieren sich, wie auch ungleich starke, nicht stark korrelierte. "Stillstand" tritt bei einem schwächeren Indikator auf, der stark mit stärkeren Indikatoren korreliert. Die einfache Addition / Mittelung hat nicht die Intrige, ein schwaches Duplikat auszudrücken.

Bitte beachten Sie auch diese Antwort, die diesen Faktor theoretisch warnt, ist eher ein "inneres Wesen" als eine grobe Sammlung oder ein Haufen "seiner" indikativen Phänomene. Daher ist das blinde Zusammenfassen von Elementen - weder unter Berücksichtigung ihrer Ladungen noch ihrer Korrelationen - möglicherweise problematisch. Andererseits kann der Faktor, wie er bewertet wird, nur eine Art Summe seiner Elemente sein, und so dreht sich alles um eine bessere Vorstellung der Gewichte in der Summe.


Betrachten wir auch allgemeiner und abstrakter den Mangel an Grob- oder Summationsmethode .

ba

Lassen F i ein Befragter seine i - Faktor - Score (Schätzung des Wertes) und F i sein wahrer Faktorwert sein (je unbekannt). Wir wissen auch, dass jedes der Elemente X 1 und X 2 mit dem gemeinsamen Faktor geladen ist (mit den Ladungen a 1 und a 2)F^iiFiX1X2a1a2FUb

F^i=b1X1i+b2X2i=b1(Fi+U1i)+b2(Fi+U2i)=(b1+b2)Fi+b1U1i+b2U2i

b1U1i+b2U2iF^iFiUF^Fbvar[b1U1i+b2U2i]F^FbeinXF^F

einbFF^ :

F^ich=ein1X1ich+ein2X2ich= ... =(ein1+ein2)Fich+ein1U1ich+ein2U2ich.

Was wir hier sehen, ist die Gewichtung eindeutiger Faktoren mit denselben Koeffizienten, die dem Grad entsprechen, mit dem Variablen mit dem gemeinsamen Faktor gewichtet werden . Über,bs wurden mit Hilfe von berechnet eins, stimmt, aber sie waren nicht eins selbst; und nunein's hat sich gewichtet wie sie sind - zu gewichten, worauf sie sich nicht beziehen . Dies ist die Rohheit, die wir festlegen, wenn wir die "Grobmethode" der Faktor-Punktzahlberechnung verwenden, einschließlich der einfachen Summierung / Mittelung von Elementen als spezifische Variante.

ttnphns
quelle
Vielen Dank, @ttnphns, für die hilfreiche Antwort. Für mich ist es sinnvoll, dass Artikel mit ungefähr gleichen Ladungen einfach summiert werden können (a). Leider glaube ich nicht, dass ich jemals in meiner Arbeit auf eine Situation gestoßen bin, in der bei Verwendung einer vorhandenen Skala, die angeblich eindimensional ist, festgestellt wurde, dass die Gegenstände die gleichen Ladungen aufweisen.
Eric Green
Daher war ich besonders an Ihrer Erklärung einer Situation interessiert, in der sich die Ladungen unterscheiden, und an dem Vorschlag, die Korrelationen zwischen den Elementen zu untersuchen. Es interessiert mich, ob Sie Faustregeln für "starke" (c) / "nicht starke" Korrelationen (b) oder "ausreichend hohe" Belastungen in (a) haben.
Eric Green
1
Abschließend möchte ich bemerken, dass der Hintergrund dieser Frage eine überwältigende disziplinarische Norm ist (zumindest in der Psychologie), um "validierte" Skalen zu verwenden, die einfache Summen (Mittelwerte) erfordern, selbst wenn die Skala an neue, nicht normierte Bevölkerungsgruppen verabreicht wird. Oftmals geht es um Stichprobenvergleiche (auch wenn diese nicht gerechtfertigt sind), was einfache Summen zu einem gängigen Ansatz macht.
Eric Green
Interventionsstudien sind in meinen Augen ein interessanter Anwendungsfall, da der Vergleich von Interesse innerhalb der Stichprobe liegt. Es scheint mir, dass uns die Größe des Behandlungseffekts mehr am Herzen liegt als die "rohe" Punktzahl einer der beiden Gruppen - insbesondere, wenn die Skala außerhalb der Population verwendet wird, die zur Entwicklung / Normierung der Skala verwendet wurde. Wenn die Faktorwerte in manchen Situationen "besser" sind, ist es sinnvoll, den einfachen Ansatz zugunsten eines Ansatzes zu verwerfen, der konzeptionell sinnvoller ist, da letztendlich nur die Größen der Behandlungseffekte betrachtet werden sollen.
Eric Green
1
(Forts.) Use "validated" scalesselbst erfordert nicht unbedingt einfache Summen: Wenn die Validierung gut war (repräsentative große Stichprobe, gute Korrelationen, korrekte Anzahl von Faktoren, gute Anpassung usw.), können die berechneten Faktorwerte (ihre Koeffizienten) als Norm herangezogen werden Gewichte zur Verwendung in neuen Populationen. In dieser Hinsicht kann, sehe ich keinen Vorteil in der einfachen Summe nicht.
TTNPHNS