SVD der korrelierten Matrix sollte additiv sein, scheint aber nicht zu sein

29

Ich versuche nur, eine Behauptung zu wiederholen , die in dem folgenden Artikel , Finden von korrelierten Biklustern aus Genexpressionsdaten , gemacht wurde:

Proposition 4. Wenn . dann haben wir:XichJ=RichCJT

ich. Wenn ein perfekter Bicluster mit additivem Modell ist, dann ist ein perfekter Bicluster mit Korrelation auf Spalten; ii. Wenn ein perfekter Bicluster mit additivem Modell ist, dann ist ein perfekter Bicluster mit Korrelation auf Zeilen; iii. Wenn sowohl als auch perfekte Bikluster mit additivem Modell sind, dann ist ein perfekt korrelierter Bikluster.RichXichJ
CJXichJ
RichCJXichJ

Diese Aussagen können leicht bewiesen werden ...

... aber das beweisen sie natürlich nicht.

Ich verwende einige der einfachen Beispiele im Paper plus Base + Custom R-Code, um zu sehen, ob ich diesen Vorschlag demonstrieren kann.

corbic <- matrix(c(0,4,-4,2,2,-2,6,0,4,-8,16,-2,-2,10,-14,4), ncol=4)

(aus Tabelle 1F)

Benutzerdefinierter Code zum Konvertieren der Standardform X = svd in wie im Artikel beschrieben:UdVTX=RCT

svdToRC <- function(x, ignoreRank = FALSE, r = length(x$d), zerothresh=1e-9) {
#convert standard SVD decomposed matrices UEV' to RC' form
#x -> output of svd(M)
#r -> rank of matrix (defaults to length of singular values vector)
            # but really is the number of non-zero singular values
#ignoreRank -> return the full decomposition (ignore zero singular values)
#zerothresh -> how small is zero?

    R <- with(x, t(t(u) * sqrt(d)))
    C <- with(x, t(t(v) * sqrt(d)))

    if (!ignoreRank) {
        ind <- which(x$d >= zerothresh)
    } else {
        ind <- 1:r
    }

    return(list(R=as.matrix(R[,ind]), C=as.matrix(C[,ind])))
}

wende diese Funktion auf den Datensatz an:

 > svdToRC(svd(corbic))
$R
           [,1]       [,2]
[1,]  0.8727254 -0.9497284
[2,] -2.5789775 -1.1784221
[3,]  4.3244283 -0.7210346
[4,] -0.8531261 -1.0640752

$C
          [,1]       [,2]
[1,] -1.092343 -1.0037767
[2,]  1.223860 -0.9812343
[3,]  3.540063 -0.9586919
[4,] -3.408546 -1.0263191

Wenn ich nicht halluziniere, sind diese Matrizen nicht additiv, obwohl corbic eine perfekte Korrelation zwischen Zeilen und Spalten aufweist. Es scheint seltsam, dass das von ihnen zur Verfügung gestellte Beispiel die Eigenschaft aufweist, von der sie sagten, dass sie es sollte.

zzk
quelle
3
Hallo, zzk: Es könnte hilfreich sein, hier kurz die Definition von perfektem Bicluster zu geben , da (a) möglicherweise nicht jeder auf das Papier zugreifen kann und (b) dies abhängig von der angenommenen Allgemeinheit einige verschiedene Dinge bedeuten kann.
Kardinal
1
Grundsätzlich beträgt der absolute Wert der paarweisen Korrelationswerte zwischen allen Zeilen gegen Zeilen und Spalten gegen Spalten der Matrix 1.
zzk
3
Ich bin verwirrt. Nicht 4iiisagen P(R), P(C), additivity => P(X)? (Ich verkürzte " Yist ein perfekter Bicluster" als P(Y)). Es scheint, dass Sie in die andere Richtung gehen und diese Additivität von den anderen Bedingungen erwarten. Bitte erklären Sie mehr.
Stumpy Joe Pete
Stumpy - Ich erwarte Additivität in der Forschung und Entwicklung, weil die Matrix, die ich anbiete (corbic), eine perfekte Korrelation aufweist - es ist der perfekte Bicluster, wie er im Papier selbst angegeben ist.
zzk
6
Ich denke immer noch, du gehst in die falsche Richtung. 4iii sagt nicht, dass wenn Xein perfekt korrelierter Bicluster ist Rund Cadditiv sein wird. Die Implikation geht in die andere Richtung. Nun stimme ich zu, dass es seltsam ist, dass das Beispiel, das sie geben, nicht mit den Theoremen übereinstimmt, neben denen es steht. Vielleicht gibt es noch andere Informationen, die Sie bereitstellen könnten? Gibt es einen anderen Satz, der in die andere Richtung geht?
Stumpy Joe Pete

Antworten:

2

Beachten Sie, dass sich "Bicluster" in diesem Artikel auf eine Teilmenge einer Matrix bezieht, "eine Teilmenge von Zeilen, die über eine Teilmenge von Spalten ein ähnliches Verhalten aufweisen, oder umgekehrt". Die Identifizierung von Biklustern erfolgt üblicherweise in Data-Mining-Algorithmen. Die Autoren schlagen ein neues "korreliertes Bikluster-Modell" vor, das sich von früheren Modellen zur Identifizierung dieser Untergruppen unterscheidet. Ich weiß nichts über Genetik, aber die Verwirrung hier scheint ziemlich klar zu sein und aus zwei Quellen zu kommen:

1. Verwendung des Wortes "Zusatzstoff"

In diesem Artikel gibt es keinen Hinweis darauf, dass die beiden in der Ausgabe der Funktion angegebenen Matrizen "additiv" sein sollten, wenn mit "additiv" die additive Inversion gemeint ist. Die Autoren verwenden das Wort Additiv in diesem Sinne nicht. Sie beziehen sich auf das Erhalten eines Biclusters mit einem additiven Modell, "wobei jede Zeile oder Spalte durch Hinzufügen einer Konstanten zu einer anderen Zeile oder Spalte erhalten werden kann".

2. Fehlinterpretation 4.3

RichCJXichJXichJRichCJRichCJ sollten umgekehrt additiv sein oder mit einem additiven Modell kompatibel sein können.

* Außerdem stammen die Beispieldaten aus einem völlig anderen Abschnitt des Papiers als der in der Frage diskutierte Satz.

5ayat
quelle
Es ist großartig zu sehen, dass die mit Abstand am häufigsten gestellte unbeantwortete Frage auf unserer Website endlich beantwortet wurde! +1, obwohl ich die Zeitung nicht gelesen habe und nicht dafür bürgen kann, dass das, was Sie geschrieben haben, richtig ist; aber es scheint vernünftig.
Amöbe sagt Reinstate Monica