Ich habe es nie direkt verwendet, daher kann ich nur einige meiner Artikel und allgemeinen Gedanken zu dieser Technik (die sich hauptsächlich mit Ihren Fragen 1 und 3 befassen) teilen.
Mein allgemeines Verständnis von Biclustering stammt hauptsächlich aus genetischen Studien (2-6), in denen wir versuchen, Cluster von Genen und Gruppierungen von Individuen zu berücksichtigen: Kurz gesagt, wir suchen nach Gruppenproben, die ein ähnliches Profil der Genexpression gemeinsam haben (dies könnte verwandt sein zum Beispiel zum Krankheitszustand) und zu Genen, die zu diesem Muster der Genprofilierung beitragen. Eine Übersicht über den Stand der Technik für biologische "massive" Datensätze finden Sie in Pardalos 'Folien Biclustering . Beachten Sie, dass es ein R-Paket, biclust , mit Anwendungen für Microarray-Daten gibt.
Tatsächlich bestand meine ursprüngliche Idee darin, diese Methode auf die klinische Diagnose anzuwenden, da sie es ermöglicht, Merkmale oder Variablen in mehr als einem Cluster zu platzieren, was aus semeiologischer Sicht interessant ist, da Symptome, die sich zusammenschließen, die Definition des Syndroms ermöglichen , einige Symptome jedoch Überlappung bei verschiedenen Krankheiten. Eine gute Diskussion findet sich in Cramer et al., Komorbidität: Eine Netzwerkperspektive (Behavioral and Brain Sciences 2010, 33, 137-193).
Eine etwas verwandte Technik ist das kollaborative Filtern . Eine gute Übersicht wurde von Su und Khoshgoftaar zur Verfügung gestellt ( Advances in Artificial Intelligence , 2009): Ein Überblick über kollaborative Filtertechniken . Weitere Referenzen sind am Ende aufgeführt. Vielleicht ist auch die Analyse häufiger Artikelmengen , wie sie im Warenkorbproblem dargestellt sind , damit verbunden, aber ich habe dies nie untersucht. Ein weiteres Beispiel für Co-Clustering ist das gleichzeitige Clustering von Wörtern und Dokumenten, wie beim Text Mining, z. B. Dhillon (2001). Co-Clustering von Dokumenten und Wörtern mithilfe der zweiteiligen Partitionierung von Spektraldiagrammen . Proc. KDD , S. 269–274.
Zu einigen allgemeinen Referenzen finden Sie hier eine nicht sehr vollständige Liste, die Sie hoffentlich nützlich finden werden:
- Jain, AK (2010). Datenclustering: 50 Jahre jenseits von K-means . Pattern Recognition Letters , 31 , 651–666
- Carmona-Saez et al. (2006). Biclustering von Genexpressionsdaten durch nicht glatte nicht negative Matrixfaktorisierung . BMC Bioinformatics , 7 , 78.
- Prelic et al. (2006). Ein systematischer Vergleich und eine Bewertung von Biclustering-Methoden für Genexpressionsdaten . Bioinformatics , 22 (9) , 1122 & ndash; 1129. www.tik.ee.ethz.ch/sop/bimax
- DiMaggio et al. (2008). Biclustering durch optimale Neuordnung von Datenmatrizen in der Systembiologie: strenge Methoden und vergleichende Studien . BMC Bioinformatics , 9 , 458.
- Santamaria et al. (2008). BicOverlapper: Ein Tool zur Bicluster-Visualisierung . Bioinformatics , 24 (9) , 1212-1213.
- Madeira, SC und Oliveira, AL (2004) Bicluster-Algorithmen für die Analyse biologischer Daten: eine Umfrage . IEEE Trans. Comput. Biol. Bioinform. , 1 , 24–45.
- Badea, L. (2009). Verallgemeinerte Clustergramme für überlappende Bicluster . IJCAI
- Symeonidis, P. (2006). Kollaboratives Filtern von Nearest-Biclustern . WEBKDD
Hier ist eine gute Umfrage / Bewertung:
Stanislav Busygin, Oleg Prokopyev und Panos M. Pardalos. Biclustering im Data Mining . Computers & Operations Research, 35 (9): 2964–2987, September 2008.
quelle