Ich verwende die Hauptkomponentenanalyse (Principal Component Analysis, PCA), um einen Index zu erstellen, der für meine Forschung erforderlich ist. Meine Frage ist, wie ich einen einzelnen Index erstellen soll, indem ich die über PCA berechneten beibehaltenen Hauptkomponenten verwende.
Zum Beispiel habe ich beschlossen, 3 Hauptkomponenten nach der Verwendung von PCA beizubehalten, und ich habe die Bewertungen für diese 3 Hauptkomponenten berechnet. Wie kann für jeden Befragten ein einzelner Index aus diesen drei Ergebnissen erstellt werden?
- Ist es relevant, die 3 berechneten Punkte zu addieren, um einen zusammengesetzten Wert zu erhalten?
- Oder die 3 Punkte zu mitteln, um einen solchen Wert zu haben?
- Oder sollte ich nur die erste Hauptkomponente (die stärkste) behalten und ihre Punktzahl als Index verwenden?
Alternativ könnte man die Faktoranalyse (FA) verwenden, aber es bleibt die Frage: Wie kann ein einzelner Index auf der Grundlage mehrerer Faktorwerte erstellt werden?
pca
factor-analysis
rating
composite
scale-construction
user179313
quelle
quelle
Antworten:
Diese Antwort ist bewusst nicht mathematisch und richtet sich an nicht statistische Psychologen (etwa), die sich fragen, ob sie die Faktorwerte verschiedener Faktoren addieren / mitteln dürfen, um für jeden Befragten einen "zusammengesetzten Index" zu erhalten.
Das Summieren oder Mitteln der Bewertungen einiger Variablen setzt voraus, dass die Variablen derselben Dimension angehören und fungible Kennzahlen sind. (In der Frage sind "Variablen" Komponenten- oder Faktorbewertungen , die nichts daran ändern, da sie Beispiele für Variablen sind.)
(Sie könnten sagen: "Ich werde alle Datenwerte positiv machen und die Summe (oder den Durchschnitt) mit gutem Gewissen berechnen, da ich die Entfernung nach Manhatten gewählt habe.", Aber denken Sie bitte - haben Sie Recht, den Ursprung frei zu verschieben? Hauptkomponenten oder -faktoren, B. unter der Bedingung extrahiert werden, dass die Daten auf den Mittelwert zentriert wurden, was sinnvoll ist. Ein anderer Ursprung hätte andere Komponenten / Faktoren mit anderen Punktzahlen hervorgebracht. Nein, in den meisten Fällen spielen Sie möglicherweise nicht mit dem Ursprung - dem Ort von "typischen Befragten" oder von "Zero-Level-Merkmal" - wie Sie Lust zu spielen.)
Zusammenfassend lässt sich sagen, dass , wenn das Ziel des zusammengesetzten Konstrukts darin besteht, die Positionen der Befragten in Bezug auf eine "Null" oder einen typischen Ort wiederzugeben, die Variablen jedoch kaum miteinander korrelieren, eine Art räumlicher Abstand von diesem Ursprung und keine mittlere (oder Summe) Gewichtung vorliegt oder ungewichtet, sollte gewählt werden.
Nun, der Mittelwert (Summe) ist sinnvoll, wenn Sie die (unkorrelierten) Variablen als alternative Modi betrachten, um dasselbe zu messen . Auf diese Weise ignorieren Sie bewusst die unterschiedlichen Eigenschaften der Variablen. Mit anderen Worten, Sie verlassen Abb. 2 bewusst zugunsten von Abb. 1: Sie "vergessen", dass die Variablen unabhängig sind. Dann - Summe oder Durchschnitt. Beispielsweise könnte die Punktzahl für "materielles Wohlergehen" und "emotionales Wohlergehen" gemittelt werden, ebenso die Punktzahl für "räumlicher IQ" und "verbaler IQ". Diese Art von rein pragmatisch, nicht zugelassene satistische Komposite werden als Batterieindizes bezeichnet (eine Sammlung von Tests oder Fragebögen, die nicht miteinander in Beziehung stehende Dinge oder korrelierte Dinge messen, deren Korrelationen wir ignorieren, wird als "Batterie" bezeichnet). Batterieindizes sind nur dann sinnvoll, wenn die Bewertungen dieselbe Richtung haben (z. B. werden sowohl Wohlstand als auch emotionale Gesundheit als "besserer" Pol angesehen). Ihr Nutzen außerhalb enger Ad-hoc-Einstellungen ist begrenzt.
Wenn es sich bei den Variablen um Zwischenbeziehungen handelt - sie sind erheblich miteinander korreliert und dennoch nicht stark genug, um sie als Duplikate oder Alternativen voneinander zu betrachten, addieren (oder mitteln) wir ihre Werte häufig gewichtet. Dann sollten diese Gewichte sorgfältig entworfen werden und sie sollten auf diese oder jene Weise die Korrelationen widerspiegeln. Dies tun wir zum Beispiel mittels PCA oder Faktoranalyse (FA), wo wir speziell Komponenten- / Faktor-Scores berechnen . Wenn Ihre Variablen selbst bereits Komponenten- oder Faktor-Scores sind (wie die OP-Frage hier sagt) und sie korreliert sind (wegen der schrägen Rotation), können Sie sie (oder direkt die Ladematrix) der PCA / FA zweiter Ordnung unterwerfen, um sie zu finden Geben Sie die Gewichte ein und ermitteln Sie den PC / Faktor zweiter Ordnung, der den "zusammengesetzten Index" für Sie liefert.
Wenn Ihre Komponenten- / Faktor-Scores jedoch nicht korreliert oder schwach korreliert waren, gibt es keinen statistischen Grund, sie weder direkt noch über Schlussgewichte zu summieren. Verwenden Sie stattdessen etwas Abstand. Das Problem mit der Distanz ist, dass es immer positiv ist: Sie können sagen, wie viel atypisch ein Befragter ist, können aber nicht sagen, ob er "über" oder "unter" ist. Dies ist jedoch der Preis, den Sie zahlen müssen, wenn Sie einen einzelnen Index aus dem Multi-Trait-Space herausfordern. Wenn Sie sowohl Abweichung als auch Zeichen in einem solchen Raum wünschen, würde ich sagen, dass Sie zu anspruchsvoll sind.
Im letzten Punkt fragt das OP, ob es richtig ist, nur die Punktzahl einer stärksten Variablen in Bezug auf ihre Varianz - in diesem Fall die erste Hauptkomponente - als einzigen Stellvertreter für den "Index" zu verwenden. Es ist sinnvoll, wenn dieser PC viel stärker ist als die anderen PCs. Man könnte dann fragen: "Wenn es so viel stärker ist, warum haben Sie dann nicht einfach nur die Sohle extrahiert / behalten?"
quelle
Erstellen eines zusammengesetzten Index mithilfe von PCA aus Zeitreihen- Links zu http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf .
In diesem Artikel auf Seite 19 erwähnen die Autoren eine Möglichkeit, einen nicht standardisierten Index (Non-Standarded Index, NSI) zu erstellen, indem sie das Verhältnis der von jedem Faktor erklärten Variation zur Gesamtvariation verwenden, das von den ausgewählten Faktoren erklärt wird. Dieser NSI wurde dann normalisiert.
quelle