Ich habe einen Datensatz bestehend aus 10 Variablen. Ich habe partielle kleinste Quadrate (PLS) ausgeführt, um eine einzelne Antwortvariable anhand dieser 10 Variablen vorherzusagen, 10 PLS-Komponenten extrahiert und dann die Varianz jeder Komponente berechnet. Auf den Originaldaten habe ich die Summe der Varianzen aller Variablen genommen, die 702 ist.
Dann habe ich die Varianz jeder der PLS-Komponenten durch diese Summe geteilt, um den Prozentsatz der durch die PLS erklärten Varianz zu erhalten, und überraschenderweise erklären alle Komponenten zusammen nur 44% der ursprünglichen Varianz.
Was ist die Erklärung dafür? Sollte es nicht 100% sein?
Antworten:
Die Summe der Abweichungen aller PLS-Komponenten beträgt normalerweise weniger als 100%.
Es gibt viele Varianten von Partial Least Squares (PLS). Was Sie hier verwendet haben, ist die PLS-Regression einer univariaten Antwortvariablen auf mehrere Variablen ; Dieser Algorithmus ist traditionell als PLS1 bekannt (im Gegensatz zu anderen Varianten siehe Rosipal & Kramer, 2006, Übersicht und Neueste Fortschritte bei partiellen kleinsten Quadraten für eine kurze Übersicht). Später wurde gezeigt, dass PLS1 einer eleganteren Formulierung namens SIMPLS entspricht (siehe Verweis auf den Paywalled Jong 1988 in Rosipal & Kramer). Die von SIMPLS bereitgestellte Ansicht hilft zu verstehen, was in PLS1 vor sich geht.X.y X
Es stellt sich heraus, dass PLS1 eine Folge linearer Projektionen , so dass:ti=Xwi
Beachten Sie, dass Gewichtsvektoren nicht orthogonal sein müssen (und auch nicht).
Dies bedeutet, dass wenn aus Variablen besteht und Sie PLS-Komponenten gefunden haben, Sie eine nicht orthogonale Basis mit unkorrelierten Projektionen auf den Basisvektoren gefunden haben. Man kann mathematisch beweisen , dass in einer solchen Situation die Summe der Abweichungen aller dieser Vorsprünge geringer sein wird dann die Gesamtvarianz von . Sie wären gleich, wenn die Gewichtsvektoren orthogonal wären (wie z. B. in PCA), aber in PLS ist dies nicht der Fall.X k=10 10 X
Ich kenne kein Lehrbuch oder Papier, in dem dieses Problem explizit behandelt wird, aber ich habe es bereits im Zusammenhang mit der linearen Diskriminanzanalyse (LDA) erläutert, die auch eine Reihe unkorrelierter Projektionen auf nicht orthogonale Einheitsgewichtsvektoren liefert (siehe hier) : Anteil der erklärten Varianz in PCA und LDA .
quelle
PCTVAR
(Prozentsatz der in X erläuterten Varianz) nicht mit Ihren Berechnungen überein? Oder fragen Sie nach der zweiten Spalte (Prozentsatz der Varianz in y erklärt)? Wenn Sie in die PLS-Mathematik einsteigen möchten, empfehlen wir Ihnen, die Arbeit von Rosipal & Kramer zu lesen und den Links zu folgen.