Ich habe 21 sozioökonomische Variablen und Variablen auf Makroebene (z. B. Prozentsatz der nicht erwerbstätigen Mütter im Alter von 24 bis 54 Jahren, Prozentsatz der Kinder im Alter von 3 bis 5 Jahren in Kindergärten usw.). Ich habe auch Daten über die Anteile der Großeltern, die eine intensive Kinderbetreuung angeboten haben. Die meisten der von mir ausgewählten sozioökonomischen Variablen korrelieren stark mit der Kinderbetreuung (zum Beispiel besteht eine negative Korrelation zwischen dem Anteil der teilzeitbeschäftigten Mütter und der Bereitstellung der Kinderbetreuung für Großeltern).
Im Idealfall möchte ich eine Typologie verschiedener Länder erstellen. Meine Hoffnung wäre es, eine Art Dimensionsreduktionstechnik zu verwenden, deren Komponenten oder Faktoren intuitiv sinnvoll wären (z. B. Einstellungen zu Familie und Geschlecht, Arbeitsmarktstruktur, Familienpolitik). Oder bewerten Sie alternativ, welcher der 21 Indikatoren auf Makroebene die Variabilität der Kinderbetreuung in den einzelnen Ländern am besten erklärt.
Mein Hauptproblem ist, dass ich nur 12 europäische Länder habe. Ich denke, dass PCA- und Faktoranalysen in so wenigen Fällen keine geeigneten Techniken sind. Hab ich recht? Mir wurde gesagt, ich solle versuchen, eine qualitative vergleichende Analyse oder eine Mehrfachkorrespondenzanalyse zu verwenden, obwohl nach meinem Verständnis die letzteren Techniken eher für binäre (oder kategoriale) Indikatoren auf Makroebene geeignet sind (während meine Prozentsätze oder kontinuierliche Variablen sind).
Antworten:
Wie aus Peter Ellis 'Kommentar / Antwort hervorgeht, sprechen Sie von Dimensionsreduktion und nicht von Datenreduktion. Sie haben die Anzahl der Datenpunkte nur um die Größe des Kovariatenraums geändert. Jetzt hat Peter Flom Recht, dass die PCA- und FA-Methoden mit kleinen Stichprobengrößen ausprobiert werden können, aber es sind nicht nur die Korrelationen, die wahrscheinlich schlecht geschätzt werden, sondern auch, dass Sie dazu verleitet werden könnten, in zu niedrige Dimensionen zu fallen, weil Merkmale möglicherweise häufiger auftreten stark korreliert, als es sich bei einer größeren Stichprobe herausgestellt hätte. Ich würde es nicht empfehlen.
quelle
cor( rnorm(3), rnorm(3) )
R
Ich würde mich für die Co-Trägheitsanalyse entscheiden, die eine unausgesprochene Variante der kanonischen Analyse ist . Dies würde Ihnen eine lineare Kombination der 21 Variablen geben, die die höchste Ko-Trägheit mit einer linearen Kombination von Kinderbetreuungsdaten aufweist (oder mit der Kinderbetreuung, wenn es sich um eine einzelne quantitative Variable handelt). Der Trick beim Arbeiten mit Ko-Trägheit anstelle von Korrelation besteht darin, dass Sie die Berechnungen immer noch durchführen können, wenn mehr Variablen als Beobachtungen vorhanden sind.
Leider ist die CIA nicht sehr weit verbreitet. Es wurde für die Ökologie entwickelt, wo es normalerweise mehr Variablen als Beobachtungsstellen gibt. Einige technische Informationen finden Sie in Dray, Chessel und Thioulouse, Ecology 84 (11), 3078-89, 2003 .
Das heißt, die anderen Kommentare / Antworten sind richtig, dass 12 eine relativ kleine Zahl ist und Sie damit leben müssen ...
quelle
Unter Berücksichtigung dieses Problems wurde eine regulierte explorative Faktoranalyse entwickelt . Den Autoren steht Matlab-Code zur Verfügung.
quelle