Wie werden die Konfidenzintervalle für Regressionskoeffizienten in PLS berechnet?

10

Das zugrunde liegende Modell von PLS ist, dass eine gegebene Matrix X und n gegebener Vektor y durch X = T P ' + E , y = T q ' + f , wobei T eine latente n × k- Matrix ist, und E , in Beziehung stehen. f sind Rauschausdrücke (vorausgesetzt, X , y sind zentriert).n×mXny

X=TP+E,
y=Tq+f,
Tn×kE,fX,y

PLS erzeugt Schätzungen der , und A 'Abkürzung' Vektor der Regressionskoeffizienten, ß , so daß y ~ X β . Ich möchte die Verteilung finden β unter einigen vereinfachenden Annahmen, die die folgende wahrscheinlich enthalten sollte:T,P,qβ^yXβ^β^

  1. Das Modell ist korrekt, dh für unbekanntes T , P , q ;X=TP+E,y=Tq+fT,P,q
  2. Die Anzahl der latenten Faktoren ist bekannt und wird im PLS-Algorithmus verwendet.k
  3. Die tatsächlichen Fehlerterme sind iid Null-Mittelwert-Normal mit bekannten Abweichungen;

Diese Frage ist etwas unterdefiniert, da es Dutzende von Varianten des PLS-Algorithmus gibt, aber ich würde Ergebnisse für jede von ihnen akzeptieren. Ich würde akzeptieren auch Hinweise, wie die Verteilung von abzuschätzen β über zB ein Bootstrap, aber das ist vielleicht eine andere Frage.β^

shabbychef
quelle

Antworten:

9

Kennen Sie diesen Artikel: PLS-Regression: ein grundlegendes Werkzeug der Chemometrie ? Das Ableiten von SE und CI für die PLS-Parameter ist in §3.11 beschrieben.

Ich verlasse mich im Allgemeinen auf Bootstrap, um CIs zu berechnen, wie z. B. in Abdi, H. Partielle Regression der kleinsten Quadrate und Projektion auf die Regression latenter Strukturen (PLS-Regression) vorgeschlagen . Ich erinnere mich an theoretische Lösungen, die in Tenenhaus M. (1998) diskutiert wurden. La régression PLS: Théorie et pratique (Technip), aber ich kann es vorerst nicht überprüfen, da ich das Buch nicht habe. Im Moment gibt es einige nützliche R-Pakete wie plsRglm .

PS Ich habe gerade den Artikel von Nicole Krämer in Bezug auf das plsdof R-Paket entdeckt.

chl
quelle
2

Ich entdeckte eine Arbeit von Reiss et al . al. , Partielle Konfidenzintervallberechnung der kleinsten Quadrate für die industrielle Vorhersage der Qualität am Ende der Charge , in der das Zitat erscheint:

Die PLS-Vorhersage sollte von einem Online-Konfidenzintervall begleitet werden, um die Genauigkeit der Vorhersage anzuzeigen. Die Formulierung des Konfidenzintervalls für die PLS-Vorhersage ist ein Untersuchungsgebiet, das keinen „Goldstandard“ abgeschlossen hat.

Dieses Papier enthält einen Verweis auf die 'ausgezeichnete Übersicht über solche Arbeiten', Standardfehler der Vorhersage für Mehrwege-PLS von Faber und Bro, und ein Papier von Faber und Kowalski, Ausbreitung von Messfehlern zur Validierung von Vorhersagen, die durch Hauptkomponentenregression erhalten wurden und teilweise kleinste Quadrate . Ich werde diese Ergebnisse zusammenfassen, sobald sie verfügbar sind ...

shabbychef
quelle
(+1) Gut zu wissen, danke. Ich sollte noch einmal in Michel Tenenhaus 'Arbeit schauen - ich werde Sie wissen lassen, wenn ich etwas interessant finde.
Chl