Als «dimensionality-reduction» getaggte Fragen

Bezieht sich auf Techniken zum Reduzieren einer großen Anzahl von Variablen oder Dimensionen, die von Daten überspannt werden, auf eine kleinere Anzahl von Dimensionen, während so viele Informationen über die Daten wie möglich erhalten bleiben. Zu den wichtigsten Methoden gehören PCA, MDS, Isomap usw. Die beiden Hauptunterklassen von Techniken: Merkmalsextraktion und Merkmalsauswahl.

37
Wann ist t-SNE irreführend?

Zitat eines Autors: Das t-Distributed Stochastic Neighbor Embedding (t-SNE) ist eine ( preisgekrönte ) Technik zur Dimensionsreduktion, die sich besonders für die Visualisierung hochdimensionaler Datensätze eignet. Es klingt ziemlich gut, aber das ist der Autor. Ein weiteres Zitat des Autors...

33
Was ist der intuitive Grund für das Ausführen von Rotationen in Factor Analysis / PCA und wie wählt man eine geeignete Rotation aus?

Meine Fragen Was ist der intuitive Grund für die Rotation von Faktoren in der Faktorenanalyse (oder von Komponenten in der PCA)? Mein Verständnis ist, dass es offensichtlich schwierig ist, die Komponenten zu unterscheiden, wenn Variablen in den obersten Komponenten (oder Faktoren) fast gleich...

29
Umgang mit hierarchischen / verschachtelten Daten beim maschinellen Lernen

Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3),...

25
Wie können Hauptkomponenten die Vorhersagekraft einer abhängigen Variablen beibehalten (oder sogar zu besseren Vorhersagen führen)?

Angenommen, ich führe eine Regression . Warum behält das Modell durch Auswahl der Top- Hauptkomponenten von seine Vorhersagekraft für ?Y.∼ XY.∼XY \sim XkkkXXXY.Y.Y Ich verstehe, dass aus Sicht der Dimensionsreduktion / Merkmalsauswahl, wenn die Eigenvektoren der Kovarianzmatrix von mit den...

23
Sollte die Reduzierung der Dimensionalität für die Visualisierung als „geschlossenes“ Problem angesehen werden, das von t-SNE gelöst wurde?

Ich habe viel über den sne- Algorithmus zur Dimensionsreduktion gelesen . Ich bin sehr beeindruckt von der Leistung bei "klassischen" Datensätzen wie MNIST, bei denen eine klare Trennung der Ziffern erzielt wird ( siehe Originalartikel ):ttt Ich habe es auch verwendet, um die Funktionen eines...

22
Warum gibt es nur

Wenn in PCA die Anzahl der Dimensionen größer als (oder sogar gleich) die Anzahl der Abtastwerte , warum haben Sie dann höchstens Nicht-Null-Eigenvektoren? Mit anderen Worten, der Rang der Kovarianzmatrix unter den Dimensionen ist .dddNNNN−1N−1N-1d≥Nd≥Nd\ge NN−1N−1N-1 Beispiel: Ihre Stichproben...