Warum erklären alle PLS-Komponenten zusammen nur einen Teil der Varianz der Originaldaten?

10

Ich habe einen Datensatz bestehend aus 10 Variablen. Ich habe partielle kleinste Quadrate (PLS) ausgeführt, um eine einzelne Antwortvariable anhand dieser 10 Variablen vorherzusagen, 10 PLS-Komponenten extrahiert und dann die Varianz jeder Komponente berechnet. Auf den Originaldaten habe ich die Summe der Varianzen aller Variablen genommen, die 702 ist.

Dann habe ich die Varianz jeder der PLS-Komponenten durch diese Summe geteilt, um den Prozentsatz der durch die PLS erklärten Varianz zu erhalten, und überraschenderweise erklären alle Komponenten zusammen nur 44% der ursprünglichen Varianz.

Was ist die Erklärung dafür? Sollte es nicht 100% sein?

Ress
quelle
Wie ich auf der Antwortseite (y) weiß, ist die Anzahl der PLS-Komponenten die Mindestanzahl der Beobachtungen. Ich habe 20 Beobachtungen. Andererseits habe ich nur 10 unabhängige Variablen, was mich auf 10 PLS beschränkt. Meine Frage ist, wie lautet die allgemeine Formel zur Berechnung der erklärten Varianz für jede Komponente (PLS oder PCA).
Ress
mathworks.com/help/stats/plsregress.html Dieses Beispiel enthält nur eine Variable auf der Y-Seite und berechnet 10 Komponenten.
Ress

Antworten:

12

Die Summe der Abweichungen aller PLS-Komponenten beträgt normalerweise weniger als 100%.

Es gibt viele Varianten von Partial Least Squares (PLS). Was Sie hier verwendet haben, ist die PLS-Regression einer univariaten Antwortvariablen auf mehrere Variablen ; Dieser Algorithmus ist traditionell als PLS1 bekannt (im Gegensatz zu anderen Varianten siehe Rosipal & Kramer, 2006, Übersicht und Neueste Fortschritte bei partiellen kleinsten Quadraten für eine kurze Übersicht). Später wurde gezeigt, dass PLS1 einer eleganteren Formulierung namens SIMPLS entspricht (siehe Verweis auf den Paywalled Jong 1988 in Rosipal & Kramer). Die von SIMPLS bereitgestellte Ansicht hilft zu verstehen, was in PLS1 vor sich geht.X.yX

Es stellt sich heraus, dass PLS1 eine Folge linearer Projektionen , so dass:ti=Xwi

  1. Die Kovarianz zwischen und ist maximal;t iyti
  2. Alle Gewichtsvektoren haben die Einheitslänge ;wi=1
  3. Zwei beliebige PLS-Komponenten (auch als Score-Vektoren bezeichnet) und sind nicht .titj

Beachten Sie, dass Gewichtsvektoren nicht orthogonal sein müssen (und auch nicht).

Dies bedeutet, dass wenn aus Variablen besteht und Sie PLS-Komponenten gefunden haben, Sie eine nicht orthogonale Basis mit unkorrelierten Projektionen auf den Basisvektoren gefunden haben. Man kann mathematisch beweisen , dass in einer solchen Situation die Summe der Abweichungen aller dieser Vorsprünge geringer sein wird dann die Gesamtvarianz von . Sie wären gleich, wenn die Gewichtsvektoren orthogonal wären (wie z. B. in PCA), aber in PLS ist dies nicht der Fall.Xk=1010X

Ich kenne kein Lehrbuch oder Papier, in dem dieses Problem explizit behandelt wird, aber ich habe es bereits im Zusammenhang mit der linearen Diskriminanzanalyse (LDA) erläutert, die auch eine Reihe unkorrelierter Projektionen auf nicht orthogonale Einheitsgewichtsvektoren liefert (siehe hier) : Anteil der erklärten Varianz in PCA und LDA .

Amöbe sagt Reinstate Monica
quelle
Danke und ja das macht Sinn. Ich wusste nicht, dass die Ladevektoren (Gewichtsvektoren) nicht orthogonal sind. Daher wird die maximale Varianz von X nicht erfasst. Können Sie mir anhand des Matlab-Beispiels helfen, wie ich die "PCTVAR" -Werte mathematisch ermitteln kann?
Ress
Ich bin mir nicht sicher, aber ich kann darüber nachdenken. Stimmt die erste Spalte in PCTVAR(Prozentsatz der in X erläuterten Varianz) nicht mit Ihren Berechnungen überein? Oder fragen Sie nach der zweiten Spalte (Prozentsatz der Varianz in y erklärt)? Wenn Sie in die PLS-Mathematik einsteigen möchten, empfehlen wir Ihnen, die Arbeit von Rosipal & Kramer zu lesen und den Links zu folgen.
Amöbe sagt Reinstate Monica