Was ist der Grund, wenn überhaupt, die Diskriminanzanalyse (Discriminant Analysis, DA) für die Ergebnisse eines Clustering-Algorithmus wie k-means zu verwenden, wie ich es von Zeit zu Zeit in der Literatur sehe (im Wesentlichen zur klinischen Subtypisierung von psychischen Störungen)?
Es wird im Allgemeinen nicht empfohlen, Gruppenunterschiede bei den Variablen zu testen, die während der Clusterkonstruktion verwendet wurden, da sie die Maximierung (bzw. Minimierung) der Trägheit zwischen Klassen (bzw. innerhalb der Klasse) unterstützen. Daher bin ich mir nicht sicher, ob ich den Mehrwert von prädiktiver DA vollständig einschätzen kann, es sei denn, wir versuchen, Einzelpersonen in einen faktoriellen Raum niedrigerer Dimension einzubetten und eine Vorstellung von der "Generalisierbarkeit" einer solchen Partition zu bekommen. Aber auch in diesem Fall bleibt die Clusteranalyse grundsätzlich ein exploratives Werkzeug. Daher erscheint es auf den ersten Blick seltsam, die auf diese Weise berechnete Klassenmitgliedschaft zu verwenden, um eine Bewertungsregel weiter abzuleiten.
Irgendwelche Empfehlungen, Ideen oder Hinweise auf relevante Papiere?
R
: cran.r-project.org/web/packages/adegenet/vignettes/…Antworten:
Ich kenne keine Papiere dazu. Ich habe diesen Ansatz zu beschreibenden Zwecken verwendet. DFA bietet eine gute Möglichkeit, Gruppenunterschiede und Dimensionalität in Bezug auf die ursprünglichen Variablen zusammenzufassen. Man könnte die Gruppen leichter auf den ursprünglichen Variablen profilieren, dies verliert jedoch die inhärent multivariate Natur des Clustering-Problems. Mit DFA können Sie die Gruppen beschreiben, während der multivariate Charakter des Problems erhalten bleibt. Es kann also bei der Interpretation der Cluster helfen, wo dies ein Ziel ist. Dies ist besonders ideal, wenn eine enge Beziehung zwischen Ihrer Clustering-Methode und Ihrer Klassifizierungsmethode besteht - z. B. DFA- und Ward-Methode.
Sie haben Recht mit dem Testproblem. Ich habe ein Papier mit der Clusteranalyse mit DFA-Follow-up veröffentlicht, um die Clustering-Lösung zu beschreiben. Ich habe die DFA-Ergebnisse ohne Teststatistik präsentiert. Ein Rezensent hatte Probleme damit. Ich habe die Teststatistik und die p-Werte eingeräumt und dort eingefügt, mit dem Hinweis, dass diese p-Werte nicht auf herkömmliche Weise interpretiert werden sollten.
quelle