Ich habe einen Datensatz mit mehr als 1000 Beispielen mit 19 Variablen. Mein Ziel ist es, eine binäre Variable basierend auf den anderen 18 Variablen (binär und stetig) vorherzusagen. Ich bin ziemlich sicher, dass 6 der Vorhersagevariablen mit der binären Antwort verknüpft sind. Ich möchte jedoch den Datensatz weiter analysieren und nach anderen Assoziationen oder Strukturen suchen, die mir möglicherweise fehlen. Zu diesem Zweck habe ich mich für PCA und Clustering entschieden.
Wenn die PCA mit den normalisierten Daten ausgeführt wird, müssen 11 Komponenten beibehalten werden, um 85% der Varianz beizubehalten. Durch das Zeichnen der Pairplots erhalte ich Folgendes:
Ich bin mir nicht sicher, was als nächstes kommt ... Ich sehe kein signifikantes Muster im PCA und frage mich, was dies bedeutet und ob es durch die Tatsache verursacht worden sein könnte, dass einige der Variablen binär sind. Durch Ausführen eines Clustering-Algorithmus mit 6 Clustern erhalte ich das folgende Ergebnis, das nicht gerade eine Verbesserung darstellt, obwohl einige Blobs hervorzuheben scheinen (die gelben).
Wie Sie wahrscheinlich sehen können, bin ich kein PCA-Experte, habe aber einige Tutorials gesehen und gesehen, wie leistungsfähig es sein kann, einen Blick auf Strukturen im hochdimensionalen Raum zu werfen. Mit dem berühmten MNIST-Ziffern-Datensatz (oder dem IRIS-Datensatz) funktioniert es hervorragend. Meine Frage ist: Was soll ich jetzt tun, um die PCA sinnvoller zu gestalten? Clustering scheint nichts Nützliches aufzunehmen. Wie kann ich feststellen, dass die PCA kein Muster enthält, oder was sollte ich als Nächstes versuchen, um Muster in den PCA-Daten zu finden?
Antworten:
Sie haben erklärt, dass das Varianzdiagramm mir sagt, dass PCA hier sinnlos ist. 11/18 ist 61%, daher benötigen Sie 61% Ihrer Variablen, um 85% der Varianz zu erklären. Dies ist meiner Meinung nach bei PCA nicht der Fall. Ich benutze PCA, wenn 3-5 Faktoren von 18 etwa 95% der Varianz erklären.
UPDATE: Sehen Sie sich das Diagramm des kumulierten Prozentsatzes der Varianz an, das durch die Anzahl der PCs erklärt wird. Dies ist aus dem Bereich der Modellierung von Zinstermstrukturen. Sie sehen, wie 3 Komponenten mehr als 99% der Gesamtvarianz erklären. Dies mag wie ein erfundenes Beispiel für PCA-Werbung aussehen :) Dies ist jedoch eine echte Sache. Die Tenöre der Zinssätze sind so stark korreliert, dass PCA in dieser Anwendung sehr natürlich ist. Anstatt sich mit ein paar Dutzend Tenören zu befassen, beschäftigen Sie sich mit nur drei Komponenten.
quelle
Wenn Sie Stichproben und nur Prädiktoren haben, wäre es ziemlich vernünftig, nur alle Prädiktoren in einem Modell zu verwenden. In diesem Fall kann ein PCA-Schritt durchaus unnötig sein.p = 19N>1000 p=19
Wenn Sie sicher sind, dass nur eine Teilmenge der Variablen wirklich erklärend ist, kann Ihnen die Verwendung eines spärlichen Regressionsmodells, z. B. Elastic Net, dabei helfen, dies festzustellen.
Außerdem ist die Interpretation von PCA-Ergebnissen unter Verwendung von Eingaben gemischten Typs (binär oder real, verschiedene Skalen usw., siehe CV-Frage hier ) nicht so einfach, und Sie möchten sie möglicherweise vermeiden, es sei denn, es gibt einen eindeutigen Grund dafür.
quelle
Ich werde Ihre Frage so kurz wie möglich interpretieren. Lassen Sie mich wissen, wenn es Ihre Bedeutung ändert.
Ich sehe auch kein "signifikantes Muster" außer der Konsistenz in Ihren Pairplots. Sie sind alle nur grob kreisförmige Blobs. Ich bin gespannt, was Sie erwartet haben. Klar getrennte Punktcluster einiger Pairplots? Ein paar Diagramme sehr nahe an linear?
Ihre PCA-Ergebnisse - die blobartigen Paardiagramme und nur 85% der Varianz, die in den Top-11-Hauptkomponenten erfasst wurden - schließen nicht aus, dass 6 Variablen für die Vorhersage der binären Antwort ausreichen.
Stellen Sie sich folgende Situationen vor:
Angenommen, Ihre PCA-Ergebnisse zeigen, dass 99% der Varianz von 6 Hauptkomponenten erfasst werden.
Das scheint Ihre Vermutung über 6 Prädiktorvariablen zu stützen - vielleicht könnten Sie eine Ebene oder eine andere Oberfläche in diesem 6-dimensionalen Raum definieren, die die Punkte sehr gut klassifiziert, und Sie könnten diese Oberfläche als binären Prädiktor verwenden. Was mich zu Nummer 2 bringt ...
Angenommen, Ihre Top-6-Hauptkomponenten haben Pairplots, die so aussehen
Aber lassen Sie uns eine beliebige binäre Antwort farblich kennzeichnen
Obwohl Sie es geschafft haben, fast die gesamte (99%) Varianz in 6 Variablen zu erfassen, ist Ihnen keine räumliche Trennung garantiert, um Ihre binäre Antwort vorherzusagen.
Möglicherweise benötigen Sie tatsächlich mehrere numerische Schwellenwerte (die als Flächen in diesem 6-dimensionalen Raum dargestellt werden können), und die Zugehörigkeit eines Punkts zu Ihrer binären Klassifizierung hängt möglicherweise von einem komplexen bedingten Ausdruck ab, der aus der Beziehung dieses Punkts zu jedem dieser Schwellenwerte besteht. Dies ist jedoch nur ein Beispiel dafür, wie eine Binärklasse vorhergesagt werden kann. Es gibt eine Vielzahl von Datenstrukturen und Methoden zum Darstellen, Trainieren und Vorhersagen. Dies ist ein Teaser. Zitieren,
quelle