Ich versuche Informationen zu den Annahmen der PLS-Regression (single ) zu finden. Ein Vergleich der Annahmen von PLS mit denen der OLS-Regression interessiert mich besonders.
Ich habe viel Literatur zum Thema PLS gelesen / durchgesehen; Artikel von Wold (Svante und Herman), Abdi und vielen anderen, die jedoch keine zufriedenstellende Quelle gefunden haben.
Wold et al. (2001) PLS-Regression: Ein grundlegendes Werkzeug der Chemometrie erwähnt Annahmen von PLS, erwähnt dies jedoch nur
- Xs müssen nicht unabhängig sein,
- das System ist eine Funktion einiger zugrunde liegender latenter Variablen,
- Das System sollte während des gesamten Analyseprozesses eine Homogenität aufweisen
- Messfehler in ist akzeptabel.
Anforderungen an die beobachteten Daten oder Modellreste werden nicht erwähnt. Kennt jemand eine Quelle, die irgendetwas davon anspricht? Die zugrunde liegende Mathematik ist analog zu PCA (mit dem Ziel, die Kovarianz zwischen und maximieren ), ist eine multivariate Normalität von eine Annahme? Müssen Modellreste eine Varianzhomogenität aufweisen?
Ich glaube auch, dass ich irgendwo gelesen habe, dass die Beobachtungen nicht unabhängig sein müssen; Was bedeutet dies für Studien mit wiederholten Messungen?
Antworten:
Im Allgemeinen können "Annahmen" nur ein theoretisches Ergebnis (Theorem) haben.
Darüber hinaus hängt das tatsächliche Ergebnis der PLS-Regression davon ab, wie viele PLS-Komponenten im Modell enthalten sind, das als Regularisierungsparameter fungiert. Es ist nur dann sinnvoll, über Annahmen zu sprechen, wenn das Verfahren zur Auswahl dieses Parameters vollständig angegeben ist (und dies normalerweise nicht ist). Daher glaube ich, dass es für PLS überhaupt keine Optimalitätsergebnisse gibt, was bedeutet, dass die PLS-Regression keine Annahmen enthält. Ich denke, dasselbe gilt für alle anderen bestraften Regressionsmethoden wie die Hauptkomponentenregression oder die Kammregression.
Update: Ich habe dieses Argument in meiner Antwort auf " Was sind die Annahmen der Gratregression und wie werden sie getestet?" Erweitert .
Natürlich kann es immer noch Faustregeln geben , die festlegen , wann eine PLS-Regression wahrscheinlich sinnvoll ist und wann nicht. Bitte sehen Sie meine Antwort, die oben für eine Diskussion verbunden ist; erfahrene Praktiker von PLSR (ich bin keiner von ihnen) könnten sicherlich mehr dazu sagen.
quelle
Anscheinend macht PLS keine "harten" Annahmen über die gemeinsame Verteilung Ihrer Variablen. Dies bedeutet, dass Sie vorsichtig sein müssen, um geeignete Teststatistiken auszuwählen (ich gehe davon aus, dass diese fehlende Abhängigkeit von Variablenverteilungen PLS als nicht parametrische Technik klassifiziert). Ich habe folgende Vorschläge für geeignete Statistiken gefunden: 1) Verwendung des R-Quadrats für abhängige latente Variablen und 2) Resampling-Methoden zur Beurteilung der Stabilität von Schätzungen.
Der Hauptunterschied zwischen OLS / MLS und PLS besteht darin, dass erstere typischerweise die Maximalwahrscheinlichkeitsschätzung von Populationsparametern verwendet, um Beziehungen zwischen Variablen vorherzusagen, während PLS Variablenwerte für die wahre Population schätzt, um Beziehungen zwischen Gruppen von Variablen vorherzusagen (durch Assoziieren von Gruppen von Prädiktor / Antwortvariablen mit latenten Variablen).
Ich bin auch daran interessiert, replizierte / wiederholte Experimente durchzuführen, insbesondere multifaktorielle. Ich bin mir jedoch nicht sicher, wie ich mit PLS vorgehen soll.
Handbuch der kleinsten Quadrate: Konzepte, Methoden und Anwendungen (Seite 659, Abschnitt 28.4)
Wold, H. 2006. Predictor Specification. Encyclopedia of Statistical Sciences. 9.
http://www.rug.nl/staff/tkdijkstra/latentvariablesandindices.pdf (Seiten 4 und 5)
quelle