Warum in der Bestätigungsfaktoranalyse die Gewichte auf 1 setzen?

8

Ich schreibe diese Frage unter Bezugnahme auf ein Beispiel auf Seite 138-142 des folgenden Dokuments: ftp://ftp.software.ibm.com/software/analytics/spss/documentation/amos/20.0/de/Manuals/IBM_SPSS_Amos_User_Guide.pdf .

Hier sind illustrative Abbildungen und eine Tabelle: CFA-Beispiel

Ich verstehe, dass die latente Variable keine natürliche Metrik hat und dass das Laden eines Faktors auf 1 vorgenommen wird, um dieses Problem zu beheben. Es gibt jedoch eine Reihe von Dingen, die ich nicht (vollständig) verstehe:

  1. Wie behebt das Festlegen einer Faktorbelastung auf 1 dieses Problem der Unbestimmtheit des Maßstabs?

  2. Warum auf 1 anstatt auf eine andere Zahl fixieren?

  3. Ich verstehe, dass wir durch Festlegen eines der Faktor-> Indikator-Regressionsgewichte auf 1 alle anderen Regressionsgewichte für diesen Faktor relativ dazu machen. Aber was passiert, wenn wir eine bestimmte Faktorbelastung auf 1 setzen, sich dann aber herausstellt, dass die höheren Werte für den Faktor niedrigere Werte für die betreffende beobachtete Variable vorhersagen? Nachdem wir die Faktorbelastung anfänglich auf 1 gesetzt haben, können wir zu einem negativen verständlichen Regressionsgewicht oder zu einem negativen standardisierten Regressionsgewicht gelangen?

  4. In diesem Zusammenhang habe ich Faktorladungen gesehen, die sowohl als Regressionskoeffizienten als auch als Kovarianzen bezeichnet werden. Sind diese beiden Definitionen vollständig korrekt?

  5. Warum mussten wir räumlich-> visperc und verbal-paragrap auf 1 setzen? Was wäre passiert, wenn wir nur einen dieser Pfade auf 1 festgelegt hätten?

  6. Wie kann es sein, dass der nicht standardisierte Koeffizient für Wortmittel> Satz> Paragrap, aber die standardisierten Koeffizienten Paragrap> Wortmittel> Satz betrachtet werden? Ich dachte, dass durch das Fixieren von Paragrap auf 1 zunächst alle anderen auf den Faktor geladenen Variablen relativ zu Paragrap gemacht wurden.

Ich werde auch eine Frage hinzufügen, von der ich mir vorstellen würde, dass sie eine verwandte Antwort hat: Warum setzen wir den Regressionskoeffizienten für die eindeutigen Terme (z. B. err_v-> visperc) auf 1? Was würde es für err_v bedeuten, einen Koeffizienten von 1 bei der Vorhersage von visperc zu haben?

Ich würde Antworten sehr begrüßen, auch wenn sie nicht alle Fragen beantworten.

user1205901 - Monica wiederherstellen
quelle
1
Hier sind zwei interessante Artikel zur Skaleneinstellung latenter Variablen: Gonzalez & Griffin (2001): Testen von Parametern in SEM: Jeder "eine" ist wichtig ( www-personal.umich.edu/~gonzo/papers/sem.pdf ), Little, Slegers & Card (2006): Eine nicht willkürliche Methode zur Identifizierung und Skalierung latenter Variablen in SEM- und MACS-Modellen ( agenturlab.ku.edu/~agencylab/manuscripts/… )
Patrick Coulombe
Was ist, wenn Sie mehr als 1 Gewicht auf eins setzen? Sind die Ergebnisse gleich?
Behacad

Antworten:

10
  1. Weil Sie dann die Beziehung zwischen der latenten Variablen und der beobachteten Variablen verwenden können, um die Varianz der latenten Variablen zu bestimmen. Betrachten Sie zum Beispiel die Regression von Y auf X. Wenn ich die Varianz von X ändern darf, indem ich sie beispielsweise mit einer Konstanten multipliziere, kann ich den Regressionskoeffizienten beliebig ändern. Wenn ich stattdessen den Wert des Regressionskoeffizienten festlege, bestimmt dies die Varianz von X.
  2. Konventionell und um den Vergleich der Koeffizienten zu erleichtern.
  3. In diesem Fall wird die latente Variable einfach umgekehrt. Angenommen, unsere latente Variable ist die mathematische Fähigkeit, unsere beobachtete Variable ist die Anzahl der Fehler in einem Test, und wir setzen den Regressionskoeffizienten auf 1. Dann wird unsere latente Variable zu einer "Schwierigkeit mit der Mathematik" anstelle der mathematischen Fähigkeit und der Die Koeffizienten für andere beobachtete Variablen ändern sich entsprechend.
  4. Wenn sowohl die beobachtete Variable als auch die latente Variable standardisiert sind (dh Standardabweichung gleich 1), ist der Regressionskoeffizient gleich der Kovarianz.
  5. Es ist die Festlegung von räumlich -> visperc auf 1, die eine Schätzung der räumlichen Varianz ermöglicht (siehe Antwort auf (1) oben). Ebenso ermöglicht das Fixieren von verbal -> paragrap die Schätzung der Varianz von verbal. Ein Modell mit nur einer dieser Einschränkungen wäre nicht identifizierbar.
  6. Denn die Unterschiede zwischen den nicht standardisierten und den standardisierten Koeffizienten hängen nicht nur von der Varianz der verbalen, sondern auch von den Varianzen von Paragrap, Satz und Wortmittel ab. Zum Beispiel entspricht der standardisierte Koeffizient für Wortmittel dem nicht standardisierten Koeffizienten multipliziert mit oder . 2.234×SDverbalSDwordmean2.234×9.682(2.2342×9.682)+19.925=0.841

Beachten Sie schließlich, dass err_v analog zum Fehlerterm in einem Regressionsmodell ist, z. B. Wir setzen den Koeffizienten für err_v (dh für den Fehlerterm) auf 1, damit wir können Schätzen Sie die Fehlervarianz (dh die Varianz von err_v).

visperc=β0+β1spatial+err_v
Phil Schumm
quelle
7
  1. Ich mag den Ausdruck "Unbestimmtheit der Skala" falsch verstehen, aber ich glaube, er ist zur Identifizierbarkeit auf eins gesetzt. (Das heißt, die Anzahl der Unbekannten in diesem Gleichungssystem sollte die Anzahl der Gleichungen nicht überschreiten.) Ohne eine der Verknüpfungen zu einer zu setzen, gibt es zu viele Unbekannte. Ist das dasselbe wie Unbestimmtheit der Skalierung?

  2. In den meisten SEM-Anwendungen arbeiten Sie mit Kovarianzmatrizen, nicht mit den Rohdaten. Es gibt einen alternativen Algorithmus, der die Originaldaten verwendet, PLS (Partial Least Squares), der möglicherweise zusätzliches Licht auf die Dinge für Sie wirft.

Wayne
quelle
1. Die meisten Artikel tendierten dazu, Unbestimmtheit des Maßstabs und der Identifizierbarkeit so zu behandeln, als wären sie getrennte Themen. Ein Argument für die Unterscheidung ist, dass, wenn wir mehr beobachtete Variablen hinzufügen, das Verhältnis von Bekannten zu Unbekannten steigt, aber das macht es nicht überflüssig, dass eine Belastung auf 1 gesetzt wird. 2. Vielen Dank für den Tipp zu PLS .
user1205901
4
  1. Denken Sie an die Interpretation, als wäre es nur eine einfache Regression. Der Koeffizient spiegelt die Einheitsdifferenz in der abhängigen Variablen wider, die einer Einheitsdifferenz von 1 Einheit in der unabhängigen Variablen zugeordnet ist. Wenn also eine Änderung der IV um 1 Einheit mit einer Änderung der DV um 1 Einheit verbunden ist, sind die Einheiten funktional äquivalent. Sie benötigen eine Einheit für die latente Variable, da Sie deren Varianz schätzen möchten, die nicht einheitlos ist. Das Identifikationsproblem hängt damit zusammen, dass für einen einfachen CFA mit 1 latenten Variablen und 3 Indikatoren das Modell nur identifiziert wird, wenn die Einschränkung vorgenommen wird.

  2. Sie können eine beliebige Zahl festlegen, und die Gesamtheit der Ergebnisse ist gleich (leicht zu überprüfen, indem Sie die Modellanpassung überprüfen, die identisch ist). Es ist nur einfacher, das Modell zu interpretieren, wenn Sie es auf 1 setzen.

  3. Unabhängig davon, wie Sie eine der Faktorladungen korrigieren, können Sie positiv und negativ geladene Elemente für dieselbe latente Variable erhalten. Sie können dies testen, indem Sie einen Ihrer Indikatoren mit -1 multiplizieren und Ihr Modell erneut schätzen.

  4. Sie sind funktional gleich, wenn der Regressionskoeffizient nicht angepasst ist (dh die abhängige Variable hat nur einen Pfeil, der darauf zeigt). Wenn dies der Fall ist, kann einer vom anderen berechnet werden.

  5. Versuch es! Jede latente Variable benötigt aus den bereits genannten Gründen eine Skala.

  6. Dies ist ein Skalenproblem und genau der Grund für die Verwendung standardisierter Koeffizienten. Ich kann jeden Regressionskoeffizienten beliebig groß machen, indem ich den DV durch immer größere Zahlen dividiere. Somit führt eine Änderung der IV um 1 Einheit zu immer größeren Änderungen der Einheiten des DV. Indem wir Gleiches für Gleiches normalisieren und vergleichen, vermeiden wir dieses Problem.

  7. Das Festlegen des Fehlerfaktors beim Laden auf 1 erleichtert nur die Interpretation. Dadurch nimmt die jeweilige Regressionsgleichung im SEM die bekannte Form von Y = BX + e (oder Y = BX + 1 * e) an.

DL Dahly
quelle
Ich bin verwirrt darüber, was Sie in # 5 über die Festlegung der Kovarianz auf 1 sagen. Sicherlich meinten Sie Korrelation und nicht Kovarianz (es sei denn, beide Variablen haben eine Varianz von 1), richtig? Wenn Sie die Korrelation auf 1 setzen wollten, wären die beiden Variablen anscheinend effektiv auf eine einzige Variable reduziert worden (und nicht nur auf dieselbe Skala gebracht worden), da sie immer denselben Wert hätten
Patrick Coulombe
2

Stata hat hier eine sehr schöne Dokumentation zu SEM . Schauen Sie im Abschnitt "Identifikation 2" nach und finden Sie Antworten auf alle Ihre Fragen.

Das Fehlen einer Skalierung ist darauf zurückzuführen, dass Ihre latente Variable nicht beobachtbar ist. Sie können numerische Antworten in der Umfrage des Glücks finden, aber das Glück selbst wird nicht direkt gemessen. Jetzt muss man die Antworten wie 1 bis 10 irgendwie mit Glück verknüpfen. Sie bestimmen also eine der Fragen als Anker und setzen ihre Belastung auf 1.

es muss nicht 1 sein, es könnte ein beliebiger Wert sein, aber 1 ist praktisch.

Sowohl räumlich als auch verbal sind nicht beobachtbar, daher müssen Sie die Skala auf beide einstellen, damit Sie für jeden Anker haben.

Aksakal
quelle