Ich habe eine Matrix von 1000 Beobachtungen und 50 Variablen, die jeweils auf einer 5-Punkte-Skala gemessen werden. Diese Variablen sind in Gruppen organisiert, es gibt jedoch nicht die gleiche Anzahl von Variablen in jeder Gruppe.
Ich möchte zwei Arten von Korrelationen berechnen:
- Korrelation innerhalb von Variablengruppen (zwischen Merkmalen): Ein Maß dafür, ob die Variablen innerhalb der Variablengruppe dasselbe messen.
- Korrelation zwischen Gruppen von Variablen: Eine Kennzahl, die davon ausgeht, dass jede Gruppe ein Gesamtmerkmal widerspiegelt, wie jedes Merkmal (jede Gruppe) mit jedem anderen Merkmal in Beziehung steht.
Diese Merkmale wurden zuvor in Gruppen eingeteilt. Ich bin daran interessiert, die Korrelation zwischen den Gruppen zu finden - dh unter der Annahme, dass die Merkmale in der Gruppe dasselbe zugrunde liegende Merkmal messen (nachdem ich # 1 oben abgeschlossen habe - Cronbachs Alpha), hängen die Merkmale selbst zusammen?
Hat jemand Vorschläge, wo ich anfangen soll?
vegan
mit Funktionenanosim
oder vorzugsweiseadonis
(permutational MANOVA).Antworten:
Was @rolando vorgeschlagen hat, scheint ein guter Anfang zu sein, wenn nicht die gesamte Antwort (IMO). Lassen Sie mich mit dem Korrelationsansatz fortfahren, der dem CTT-Framework (Classical Test Theory) folgt. Hier, wie von @Jeromy bemerkt, kann ein zusammenfassendes Maß für Ihre Gruppe von Merkmalen als die Summe (oder Summe) aller Punkte (ein Merkmal, in Ihren Worten) angesehen werden, die zu dem gehören, was ich jetzt als Skala bezeichne. Mit CTT können wir die Neigung oder Haftung einzelner Merkmale als Standort auf einer kontinuierlichen Skala formalisieren, die ein zugrunde liegendes Konstrukt (ein latentes Merkmal) widerspiegelt, obwohl es sich hier lediglich um eine Ordinalskala handelt (dies ist jedoch eine weitere Debatte in der psychometrischen Literatur). .
Was Sie beschrieben haben, hat damit zu tun, was in der Psychometrie als konvergente (inwieweit zu derselben Skala gehörende Elemente miteinander korrelieren) und diskriminante (zu verschiedenen Skalen gehörende Elemente sollten nicht in hohem Maße korrelieren) Gültigkeit bezeichnet wird. Zu den klassischen Techniken gehört die Multi-Trait-Multi-Method (MTMM) -Analyse (Campbell & Fiske, 1959). Nachfolgend sehen Sie eine Darstellung der Funktionsweise (drei Methoden oder Instrumente, drei Konstrukte oder Merkmale):
Auch wenn diese Methode ursprünglich entwickelt wurde, um die konvergente und diskriminante Validität einer bestimmten Anzahl von Merkmalen zu bewerten, die von verschiedenen Messinstrumenten untersucht wurden, kann sie für ein einziges Multiskaleninstrument angewendet werden. Die Eigenschaften werden dann zu Gegenständen, und die Methoden sind nur die verschiedenen Maßstäbe. Eine Verallgemeinerung dieser Methode auf ein einzelnes Instrument wird auch als Multitrait-Skalierung bezeichnet . Elemente, die wie erwartet korrelieren (dh nicht mit einer anderen Skala, sondern mit ihrer eigenen Skala), werden als Skalierungserfolg gewertet. Wir gehen jedoch im Allgemeinen davon aus, dass die verschiedenen Skalen nicht korreliert sind, das heißt, sie zielen auf verschiedene hypothetische Konstrukte ab. Die Mittelung der Korrelationen innerhalb und zwischen den Skalen bietet jedoch eine schnelle Möglichkeit, die interne Struktur Ihres Instruments zusammenzufassen. Eine andere bequeme Möglichkeit besteht darin, eine Cluster-Analyse auf die Matrix der paarweisen Korrelationen anzuwenden und zu sehen, wie Ihre Variablen zusammenhängen.
Zu beachten ist, dass in beiden Fällen die üblichen Einschränkungen beim Arbeiten mit Korrelationsmaßen gelten, dh Sie können Messfehler nicht berücksichtigen, Sie benötigen eine große Stichprobe, Instrumente oder Tests werden als "parallel" angenommen (Tau-Äquivalenz, nicht korrelierte Fehler, gleiche Fehlervarianzen).
Der zweite Teil von @rolando ist ebenfalls interessant: Wenn es keinen theoretischen oder inhaltlichen Hinweis darauf gibt, dass die bereits festgelegte Gruppierung von Elementen sinnvoll ist, müssen Sie eine Möglichkeit finden, die Struktur Ihrer Daten beispielsweise durch explorative Faktorenanalyse hervorzuheben . Aber selbst wenn Sie diesen "Merkmalen innerhalb einer Gruppe" vertrauen, können Sie überprüfen, ob dies eine gültige Annahme ist. Jetzt verwenden Sie möglicherweise ein Bestätigungsfaktor-Analysemodell, um zu überprüfen, ob sich das Lademuster der Artikel (Korrelation eines Artikels mit seiner eigenen Skala) wie erwartet verhält.
Anstelle herkömmlicher faktoranalytischer Methoden können Sie sich auch die Element-Clustering-Methode (Revelle, 1979) ansehen, die sich auf eine Cronbach-Alpha-Split-Regel stützt, um Elemente in homogenen Maßstäben zu gruppieren.
Ein letztes Wort: Wenn Sie R verwenden, gibt es zwei sehr schöne Pakete, die die oben genannten Schritte vereinfachen:
fa
,fa.parallel
,principal
), Artikel Clustering (ICLUST
und verwandte Verfahren), Cronbachs alpha (alpha
); es gibt einen schönen Überblick auf William Revelle Webseite, insbesondere eine Einführung in psychometrischen Theorie mit Anwendungen in R .scree.plot
) und MTMM (mtmm
) von Geröllplots (über PCA + simulierte Datensätze ).Verweise
quelle
Die Art und Weise, wie ich Ihre Terminologie lese, besteht darin, zunächst die interne Konsistenz innerhalb jeder Variablengruppe zu bewerten und dann die Korrelationen zwischen den Skalenwerten, die den Durchschnitt jeder Variablengruppe bilden, zu bewerten. Die erste Methode kann mit Cronbachs Alpha und die zweite mit Pearson-Korrelation durchgeführt werden. Dies setzt voraus, dass Sie einigermaßen normale Verteilungen und einigermaßen lineare Beziehungen haben.
Eine aufwendigere und nicht unbedingt erforderliche Methode wäre die Durchführung einer explorativen Faktorenanalyse. Sie würden versuchen, festzustellen, welche Variablen zu einer Gruppe zusammengefasst werden sollten und in welchem Maße diese Faktoren miteinander korrelieren würden. Wenn Sie diese Methode ausprobieren, stellen Sie sicher, dass Sie eine schräge Drehung verwenden, damit diese Korrelationen angezeigt werden. Ob Sie die Hauptkomponentenextraktion oder die Hauptachsenextraktion verwenden, hängt davon ab, ob es sich bei Ihren Variablen um objektive, fehlerfreie oder subjektive Messungen handelt, z. B. um Vermessungsobjekte, die einen bestimmten Fehler enthalten.
quelle
Die Standardinstrumente, zumindest in der Psychologie, in Ihrer Situation wären explorative und bestätigende Faktorenanalysen, um die Konvergenz der Korrelationsmatrix zwischen Elementen mit einem vorgeschlagenen Modell der Beziehung zwischen Faktoren und Elementen zu bewerten. Die Art und Weise, wie Sie Ihre Frage formuliert haben, deutet darauf hin, dass Sie mit dieser Literatur möglicherweise nicht vertraut sind. Hier sind zum Beispiel meine Notizen zur Skalenkonstruktion und Faktoranalyse und hier ist ein Tutorial in R zur Faktoranalyse von Quick-R . Obwohl es sich lohnt, Ihre spezifische Frage zu beantworten, denke ich, dass Ihre umfassenderen Ziele besser erreicht werden können, wenn faktoranalytische Ansätze zur Bewertung von Skalen mit mehreren Elementen und mehreren Faktoren untersucht werden.
Eine andere Standardstrategie wäre, die Gesamtpunktzahl für jede Gruppe von Variablen zu berechnen (was ich als "Skala" bezeichnen würde) und die Skalen zu korrelieren.
Viele Tools zur Zuverlässigkeitsanalyse geben die durchschnittliche Korrelation zwischen Elementen an.
Wenn Sie die 50 x 50-Matrix der Korrelationen zwischen Elementen erstellt haben, können Sie eine Funktion in R schreiben, die Teilmengen basierend auf Kombinationen von Variablengruppen mittelt. Wenn Sie eine Mischung aus positiven und negativen Elementen haben, erhalten Sie möglicherweise nicht das, was Sie möchten, da die negativen Korrelationen die positiven Korrelationen möglicherweise aufheben.
quelle
Ich würde vorschlagen, als Ersatz für den Begriff der Korrelation, der nur paarweise definiert ist, den Begriff der gegenseitigen Information und der Integration in Gauß-Modelle zu verwenden.
In Gaußschen Modellen Integration einer Gruppe von VariablenG1 ist definiert als die Entropie der Gruppe:
woC1 ist die Korrelationsmatrix der Variablengruppe G1 . Es ist leicht zu sehen, wennG1 besteht nur aus 2 Variablen, seine Integration ist l o g( 1 - p2) , der sich direkt auf den paarweisen Korrelationskoeffizienten der Variablen bezieht ρ .
Um die Interaktion zwischen zwei Gruppen von Variablen zu berechnen, können Sie wechselseitige Informationen verwenden, die nur eine Kreuzentropie zwischen den Gruppen darstellen:
Ich habe einen Verweis auf diese Begriffe nach einer kurzen Google-Suche gefunden, der hilfreich sein könnte.
quelle