Wenn ich einen Datensatz mit Beobachtungen und Variablen (Dimensionen) habe und im Allgemeinen klein ist ( ) und von klein ( ) bis vielleicht viel größer ( ).
Ich erinnere mich, dass ich gelernt habe, dass viel größer sein sollte als um eine Hauptkomponentenanalyse (PCA) oder eine Faktoranalyse (FA) durchzuführen, aber es scheint, dass dies in meinen Daten möglicherweise nicht so ist. Beachten Sie, dass ich für meine Zwecke selten an Hauptkomponenten nach PC2 interessiert bin.
Fragen:
- Welche Faustregeln gelten für die minimale Stichprobengröße, wenn PCA verwendet werden kann und wenn dies nicht der Fall ist?
- Ist es jemals in Ordnung, die ersten paar PCs zu benutzen, auch wenn oder n < p ist ?
- Gibt es Referenzen dazu?
Ist es wichtig, ob Ihr Hauptziel darin besteht, PC1 und möglicherweise PC2 zu verwenden:
- einfach grafisch oder
- als synthetische Variable dann in der Regression verwendet?
pca
sample-size
factor-analysis
Patrick
quelle
quelle
Antworten:
Sie können tatsächlich messen, ob Ihre Stichprobengröße "groß genug" ist. Ein Symptom für eine zu kleine Stichprobe ist die Instabilität.
Bootstrap oder Kreuzvalidierung Ihres PCA: Diese Techniken stören Ihren Datensatz, indem Sie einen kleinen Teil Ihrer Stichprobe löschen / austauschen und dann für jeden der gestörten Datensätze "Ersatzmodelle" erstellen. Wenn die Ersatzmodelle ähnlich genug sind (= stabil), geht es Ihnen gut. Sie müssen wahrscheinlich berücksichtigen, dass die Lösung des PCA nicht eindeutig ist: PCs können kippen (multiplizieren Sie sowohl eine Punktzahl als auch die jeweilige Hauptkomponente mit ). Möglicherweise möchten Sie auch die Procrustes-Rotation verwenden, um möglichst ähnliche PC-Modelle zu erhalten.−1
quelle
Für die Faktorenanalyse (nicht die Hauptkomponentenanalyse) gibt es eine ganze Reihe von Literaturstellen, die einige der alten Faustregeln für die Anzahl der Beobachtungen in Frage stellen. Traditionelle Empfehlungen - zumindest innerhalb der Psychometrie - wären mindestens Beobachtungen pro Variable (wobei x typischerweise irgendwo zwischen 5 und 20 liegt)x x 5 20 ), also auf jeden Fall .n≫p
Eine ziemlich gründliche Übersicht mit vielen Referenzen finden Sie unter http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis
Die wichtigste Botschaft, die aus aktuellen Simulationsstudien hervorgeht, ist jedoch wahrscheinlich, dass die Qualität der Ergebnisse so stark variiert (abhängig von den Kommunalitäten, der Anzahl der Faktoren oder dem Faktor-zu-Variablen-Verhältnis usw.), dass die Ergebnisse berücksichtigt werden Das Verhältnis von Variablen zu Beobachtungen ist kein guter Weg, um die erforderliche Anzahl von Beobachtungen zu bestimmen. Wenn die Bedingungen günstig sind, können Sie möglicherweise mit viel weniger Beobachtungen davonkommen, als es alte Richtlinien vermuten lassen, aber selbst die konservativsten Richtlinien sind in einigen Fällen zu optimistisch. Zum Beispiel erzielten Preacher & MacCallum (2002) gute Ergebnisse mit extrem kleinen Stichprobengrößen undp>n aber Mundfrom, Shaw & Ke (2005) fanden in einigen Fällen eine Stichprobengröße von n>100p War notwendig. Sie stellten auch fest, dass bei gleichbleibender Anzahl der zugrunde liegenden Faktoren mehr Variablen (und nicht weniger, wie in den Leitlinien auf der Grundlage des Verhältnisses von Beobachtungen zu Variablen impliziert) zu besseren Ergebnissen bei kleinen Stichproben von Beobachtungen führen könnten.
Relevante Referenzen:
quelle
Die Idee hinter den MVA-Ungleichungen ist einfach: PCA entspricht der Schätzung der Korrelationsmatrix der Variablen. Sie versuchen, zu erratenpp−12 np - Daten. (Deshalb solltest du n >> p haben.)
Die Äquivalenz kann folgendermaßen gesehen werden: Jeder PCA-Schritt ist ein Optimierungsproblem. Wir versuchen herauszufinden, welche Richtung die größte Varianz ausdrückt. dh:
unter den Einschränkungen:
N = p zu nehmen ist mehr oder weniger gleichbedeutend damit, einen Wert mit nur zwei Daten zu erraten ... es ist nicht zuverlässig.
quelle
Ich hoffe das könnte hilfreich sein:
Referenz:
aus "R in Action" von Robert I. Kabacoff, sehr informatives Buch mit guten Ratschlägen für fast alle statistischen Tests.
quelle