Zeichnen einer Diskriminante als Linie auf dem Streudiagramm

8

Bei einem gegebenen Datenstreudiagramm kann ich die Hauptkomponenten der Daten als Achsen darstellen, die mit Punkten gekachelt sind, die Hauptkomponentenwerte sind. Sie können ein Beispieldiagramm mit der Cloud (bestehend aus 2 Clustern) und ihrer ersten Hauptkomponente sehen. Es ist leicht zu zeichnen: Rohkomponenten-Scores werden als Datenmatrix x Eigenvektor (en) berechnet ; Die Koordinate jedes Bewertungspunkts auf der ursprünglichen Achse (V1 oder V2) ist die Bewertung x cos zwischen der Achse und der Komponente (die das Element des Eigenvektors ist) .

1. Hauptkomponente nach Punkten gekachelt

Meine Frage: Ist es irgendwie möglich, einen Diskriminanten auf ähnliche Weise zu zeichnen ? Schau dir bitte mein Bild an. Ich möchte jetzt die Diskriminante zwischen zwei Clustern als eine Linie darstellen, die mit Diskriminanzwerten (nach Diskriminanzanalyse) als Punkte gekachelt ist. Wenn ja, was könnte der Algo sein?

ttnphns
quelle

Antworten:

8

OK, da niemand geantwortet hat, denke ich, dass ich es nach einigem Experimentieren selbst tun kann. Nach den Richtlinien für die Diskriminanzanalyse sei T die sscp-Matrix der gesamten Wolke (Daten X , von 2 Variablen) (von Abweichungen vom Wolkenzentrum) und W die gepoolte sscp-Matrix innerhalb des Clusters (von Abweichungen von einem Clusterzentrum). B = TW ist die sscp-Matrix zwischen Clustern. Die Singularwertzerlegung von inv (W) B ergibt U (linke Eigenvektoren), S (diagonale Matrix von Eigenwerten), V.(rechte Eigenvektoren). In meinem Beispiel von 2 Clustern ist nur der 1. Eigenwert ungleich Null (was bedeutet, dass es nur eine Diskriminante gibt), und daher verwenden wir nur den 1. Eigenvektor (Spalte) von U : U (1) . Nun sind XU (1) die gesuchten rohen Diskriminanzwerte . Um die Diskriminante als eine mit diesen gekachelte Linie anzuzeigen, multiplizieren Sie die Bewertungen mit cos zwischen der Achse und der Diskriminante (die das Element des Eigenvektors U (1) ist ) - genau wie bei der obigen Hauptkomponente . Das resultierende Diagramm ist unten.

Geben Sie hier die Bildbeschreibung ein

ttnphns
quelle
1
U(1)PU=UUXUU
@amoeba, danke für den Kommentar. Die allgemeine Formel (für jede Dimensionalität) lautet XV, wobei V die spaltennormalisierte (auf SS = 1) Matrix der Eigenvektoren der LDA-Extraktion ist. Diese normalisierten Eigenvektoren von Irisdaten zeige ich hier an: stats.stackexchange.com/a/83114/3277 ; Die Algebra von LDA ist hier: stats.stackexchange.com/a/48859/3277 . Ein Diagramm, in dem ich die normalisierten Eigenvektoren von LDA verwendet habe, ist hier: stats.stackexchange.com/a/22889/3277 .
ttnphns
XVV+XVV+XVVVV