Ich habe einen Datensatz, der nominell 16-dimensional ist. Ich habe ungefähr 100 Proben in einem Fall und ungefähr 20.000 in einem anderen. Basierend auf verschiedenen explorativen Analysen, die ich mit PCA und Wärmekarten durchgeführt habe, bin ich überzeugt, dass die wahre Dimensionalität (dh die Anzahl der Dimensionen, die zum Erfassen des größten Teils des "Signals" erforderlich sind) bei etwa 4 liegt. Ich möchte eine Folie erstellen dieser Effekt für eine Präsentation. Die "konventionelle Weisheit" über diese Daten, die ich widerlegen möchte, ist, dass die wahre Dimensionalität eins oder zwei ist.
Was ist eine gute, einfache Visualisierung, um die wahre Dimensionalität eines Datensatzes zu zeigen? Vorzugsweise sollte es für Personen verständlich sein, die einen statistischen Hintergrund haben, aber keine "echten" Statistiker sind.
Antworten:
Ein Standardansatz wäre, PCA durchzuführen und dann ein Geröllplot zu zeigen, das Sie aus jeder von Ihnen gewählten Software herausholen sollten. Ein wenig basteln und Sie könnten es bei Bedarf für Ihr spezielles Publikum interpretierbarer machen. Manchmal können sie überzeugend sein, aber oft sind sie mehrdeutig und es gibt immer Raum, darüber zu streiten, wie man sie liest, so dass eine Geröllhandlung (Bearbeiten: nicht!) Ideal sein kann. Einen Blick wert.
quelle
psych
implementiert beide mit begleitenden Geröll-ähnlichen Grafiken (siehefa.parallel()
undVSS()
). Das Papier lautet "Vergleich von fünf Regeln zur Bestimmung der Anzahl der beizubehaltenden Komponenten".Eine Möglichkeit, dies zu visualisieren, wäre folgende:
In Matlab (duckst dich von allen Schuhen, die geworfen werden):
Dies erzeugt das folgende Streudiagramm:
Wenn Sie
lat_d
auf 4 wechseln , ist die Linie weniger flach.quelle
Ähnliches habe ich mit PROC Varclus in SAS gemacht. Die Grundidee besteht darin, eine 4-Cluster-Lösung zu generieren, die höchste korrelierte Variable für jeden Cluster auszuwählen und dann zu demonstrieren, dass diese 4-Cluster-Lösung mehr Variationen erklärt als die Zwei-Cluster-Lösung. Für die 2-Cluster-Lösung könnten Sie entweder Varclus oder die ersten 2 Hauptkomponenten verwenden, aber ich mag Varclus, da alles über Variablen und nicht über die Komponenten erklärt wird. Es gibt einen Varclus in R, aber ich bin mir nicht sicher, ob er dasselbe tut.
-Ralph Winters
quelle