Erste Schritte mit Biclustering

9

Ich habe gelegentlich im Internet über Bikluster recherchiert. (Ich habe den Wiki-Artikel mehrmals gelesen.) Bisher scheint es nur wenige Definitionen oder Standardterminologien zu geben.

  1. Ich habe mich gefragt, ob es Standardpapiere oder -bücher gibt, die jeder lesen sollte, der sich für Algorithmen zum Auffinden von Biklustern interessiert.

  2. Kann man sagen, wie der Stand der Technik auf diesem Gebiet ist? Ich war fasziniert von der Idee, Bikluster mithilfe genetischer Algorithmen zu finden, daher würde ich Kommentare zu diesem Ansatz insbesondere im Zusammenhang mit anderen Ansätzen begrüßen.

  3. Normalerweise besteht das Ziel beim Clustering darin, den Datensatz in Gruppen zu unterteilen, in denen sich jedes Element in einer Gruppe befindet. Versuchen Bicluster-Algorithmen auch, alle Elemente einer bestimmten Gruppe zuzuordnen?

Henry B.
quelle

Antworten:

16

Ich habe es nie direkt verwendet, daher kann ich nur einige meiner Artikel und allgemeinen Gedanken zu dieser Technik (die sich hauptsächlich mit Ihren Fragen 1 und 3 befassen) teilen.

Mein allgemeines Verständnis von Biclustering stammt hauptsächlich aus genetischen Studien (2-6), in denen wir versuchen, Cluster von Genen und Gruppierungen von Individuen zu berücksichtigen: Kurz gesagt, wir suchen nach Gruppenproben, die ein ähnliches Profil der Genexpression gemeinsam haben (dies könnte verwandt sein zum Beispiel zum Krankheitszustand) und zu Genen, die zu diesem Muster der Genprofilierung beitragen. Eine Übersicht über den Stand der Technik für biologische "massive" Datensätze finden Sie in Pardalos 'Folien Biclustering . Beachten Sie, dass es ein R-Paket, biclust , mit Anwendungen für Microarray-Daten gibt.

Tatsächlich bestand meine ursprüngliche Idee darin, diese Methode auf die klinische Diagnose anzuwenden, da sie es ermöglicht, Merkmale oder Variablen in mehr als einem Cluster zu platzieren, was aus semeiologischer Sicht interessant ist, da Symptome, die sich zusammenschließen, die Definition des Syndroms ermöglichen , einige Symptome jedoch Überlappung bei verschiedenen Krankheiten. Eine gute Diskussion findet sich in Cramer et al., Komorbidität: Eine Netzwerkperspektive (Behavioral and Brain Sciences 2010, 33, 137-193).

Eine etwas verwandte Technik ist das kollaborative Filtern . Eine gute Übersicht wurde von Su und Khoshgoftaar zur Verfügung gestellt ( Advances in Artificial Intelligence , 2009): Ein Überblick über kollaborative Filtertechniken . Weitere Referenzen sind am Ende aufgeführt. Vielleicht ist auch die Analyse häufiger Artikelmengen , wie sie im Warenkorbproblem dargestellt sind , damit verbunden, aber ich habe dies nie untersucht. Ein weiteres Beispiel für Co-Clustering ist das gleichzeitige Clustering von Wörtern und Dokumenten, wie beim Text Mining, z. B. Dhillon (2001). Co-Clustering von Dokumenten und Wörtern mithilfe der zweiteiligen Partitionierung von Spektraldiagrammen . Proc. KDD , S. 269–274.

Zu einigen allgemeinen Referenzen finden Sie hier eine nicht sehr vollständige Liste, die Sie hoffentlich nützlich finden werden:

  1. Jain, AK (2010). Datenclustering: 50 Jahre jenseits von K-means . Pattern Recognition Letters , 31 , 651–666
  2. Carmona-Saez et al. (2006). Biclustering von Genexpressionsdaten durch nicht glatte nicht negative Matrixfaktorisierung . BMC Bioinformatics , 7 , 78.
  3. Prelic et al. (2006). Ein systematischer Vergleich und eine Bewertung von Biclustering-Methoden für Genexpressionsdaten . Bioinformatics , 22 (9) , 1122 & ndash; 1129. www.tik.ee.ethz.ch/sop/bimax
  4. DiMaggio et al. (2008). Biclustering durch optimale Neuordnung von Datenmatrizen in der Systembiologie: strenge Methoden und vergleichende Studien . BMC Bioinformatics , 9 , 458.
  5. Santamaria et al. (2008). BicOverlapper: Ein Tool zur Bicluster-Visualisierung . Bioinformatics , 24 (9) , 1212-1213.
  6. Madeira, SC und Oliveira, AL (2004) Bicluster-Algorithmen für die Analyse biologischer Daten: eine Umfrage . IEEE Trans. Comput. Biol. Bioinform. , 1 , 24–45.
  7. Badea, L. (2009). Verallgemeinerte Clustergramme für überlappende Bicluster . IJCAI
  8. Symeonidis, P. (2006). Kollaboratives Filtern von Nearest-Biclustern . WEBKDD
chl
quelle
1
Gute Antwort. Wenn ich noch einmal abstimmen würde, würde ich wieder für diese Antwort stimmen.
Henry B.
@chl Der erste Link zu den Pardalos-Folien scheint tot zu sein. Kennt jemand einen alternativen Ort?
Erik
@Erik Das meiste Material von den Folien finden Sie in Consistent Biclustering via Fractional 0–1 Programming vom selben Autor. (Ich habe den Inhalt der Folien mit meiner Kopie des toten Links überprüft.)
chl
4

Hier ist eine gute Umfrage / Bewertung:

Stanislav Busygin, Oleg Prokopyev und Panos M. Pardalos. Biclustering im Data Mining . Computers & Operations Research, 35 (9): 2964–2987, September 2008.

kc2001
quelle