Was ist das "partielle" in partiellen Methoden der kleinsten Quadrate?

16

Worauf bezieht sich der Begriff "partiell" in der Regression der kleinsten Quadrate (PLSR) oder in der Strukturgleichungsmodellierung der kleinsten Quadrate (PLS-SEM)?

Alph
quelle
4
Beachten Sie, dass Wold Jr. den Namen "Partial Least Square" für irreführend hält und als "Projektion auf latente Räume" hätte bezeichnet werden sollen.
Momo
@Momo: Ja, ich habe darüber gelesen. Selbst wenn PLS in gewissem Maße irreführend ist, ist die "Projektion auf latente Räume" noch weniger klar, ganz zu schweigen von der Bequemlichkeit, den Begriff in schriftlicher Form zu verwenden.
Aleksandr Blekh

Antworten:

17

Ich möchte diese Frage beantworten, die weitgehend auf der historischen Perspektive basiert , die sehr interessant ist. Herman Wold, der den PLS- Ansatz (Partial Least Squares) erfunden hat, hat nicht sofort damit begonnen, den Begriff PLS zu verwenden (oder den Begriff Partial zu erwähnen ). In der Anfangszeit (1966-1969) bezeichnete er diesen Ansatz als NILES - Abkürzung für den Begriff und den Titel seiner 1966 veröffentlichten Arbeit zu diesem Thema Nichtlineare Schätzung durch Iterative Least-Squares-Verfahren .

Wie wir sehen können, werden Prozeduren, die später als partiell bezeichnet werden, als iterativ bezeichnet , wobei der Schwerpunkt auf der iterativen Natur der Prozedur zum Schätzen von Gewichten und latenten Variablen (LVs) liegt. Der Ausdruck "kleinste Quadrate" stammt aus der Verwendung der gewöhnlichen Regression kleinster Quadrate (OLS) , um andere unbekannte Parameter eines Modells zu schätzen (Wold, 1980). Es scheint, dass der Begriff "partiell" seine Wurzeln in den NILES-Prozeduren hat, in denen "die Idee umgesetzt wurde, die Parameter eines Modells in Teilmengen aufzuteilen, damit sie in Teilen geschätzt werden können" (Sanchez, 2013, S. 216; Schwerpunkt Mine). .

Die erste Verwendung des Begriffs PLS erfolgte in den in der Veröffentlichung NIPALS (Nonlinear Iterative Partial Least Squares) beschriebenen Schätzverfahren , die die nächste Periode der PLS-Geschichte markieren - die NIPALS-Modellierungsperiode . Die 1970er und 1980er Jahre werden zur Zeit der weichen Modellierung , in der Wold, beeinflusst von Karl Joreskogs LISREL-Ansatz zu SEM, den NIPALS-Ansatz in eine weiche Modellierung umwandelt, die im Wesentlichen den Kern des modernen PLS-Ansatzes bildet (der Begriff PLS ​​wird Ende der 1970er Jahre zum Mainstream) ). In den 1990er Jahren ist die nächste Periode in der PLS-Geschichte, die Sanchez (2013) als "Lücken" -Periode bezeichnet, weitgehend durch die Abnahme ihrer Nutzung gekennzeichnet. Glücklicherweise ab den 2000er Jahren ( Konsolidierungszeitraum), Erfreute sich PLS seiner Rückkehr als sehr populärer Ansatz für die SEM-Analyse, insbesondere in den Sozialwissenschaften.

UPDATE (als Antwort auf den Kommentar von Amöbe):

  • Vielleicht ist Sanchez 'Formulierung in dem von mir zitierten Satz nicht ideal. Ich denke , dass „schätzungsweise in Teilen“ bezieht latente Blöcke von Variablen. Wold (1980) beschreibt das Konzept im Detail.
  • Sie haben Recht, dass NIPALS ursprünglich für PCA entwickelt wurde. Die Verwirrung rührt von der Tatsache her, dass es sowohl lineare PLS- als auch nichtlineare PLS-Ansätze gibt. Ich denke, dass Rosipal (2011) die Unterschiede sehr gut erklärt (zumindest ist dies die beste Erklärung, die ich bisher gesehen habe).

UPDATE 2 (weitere Klarstellung):

Als Reaktion auf Bedenken, die in der Antwort von Amoeba zum Ausdruck kommen, möchte ich einige Dinge klarstellen. Es scheint mir, dass wir die Verwendung des Wortes "teilweise" zwischen NIPALS und PLS unterscheiden müssen. Das schafft zwei getrennte Fragen über 1) die Bedeutung von "teilweise" in NIPALS und 2) die Bedeutung von "teilweise" in PLS (das ist die ursprüngliche Frage von Phil2014). Während ich mir bei ersteren nicht sicher bin, kann ich bei letzteren weitere Erläuterungen geben.

Nach Wold, Sjöström und Eriksson (2001)

Das "partielle" in PLS zeigt an, dass dies eine partielle Regression ist, da ...

Mit anderen Worten, „teilweise“ ergibt sich aus der Tatsache , dass die Daten Zersetzung durch NIPALS Algorithmus für PLS können nicht alle Komponenten enthalten , also „teilweise“. Ich vermute, dass der gleiche Grund im Allgemeinen für NIPALS gilt, wenn es möglich ist, den Algorithmus für "partielle" Daten zu verwenden. Das würde "P" in NIPALS erklären.

In Bezug auf die Verwendung des Wortes "nichtlinear" in der NIPALS-Definition (nicht zu verwechseln mit nichtlinearem PLS , das eine nichtlineare Variante des PLS-Ansatzes darstellt!) Beziehe ich mich nicht auf den Algorithmus selbst , sondern auf nichtlineare Modelle , die es sein können analysiert, unter Verwendung von linearen Regressions-basierten NIPALS.

UPDATE 3 (Erklärung von Herman Wold):

Während Herman Wolds Artikel von 1969 der früheste Artikel zu NIPALS zu sein scheint, habe ich es geschafft, einen weiteren der frühesten Artikel zu diesem Thema zu finden. Dies ist ein Aufsatz von Wold (1974), in dem der "Vater" von PLS seine Begründung für die Verwendung des Wortes "partiell" in der NIPALS-Definition (S. 71) vorlegt:

3.1.4. NIPALS-Schätzung: Iterative OLS. Wenn eine oder mehrere Variablen des Modells latent sind, umfassen die Prädiktorbeziehungen nicht nur unbekannte Parameter, sondern auch unbekannte Variablen, so dass das Schätzproblem nichtlinear wird. Wie in 3.1 (iii) angegeben, löst NIPALS dieses Problem durch ein iteratives Verfahren, beispielsweise mit den Schritten s = 1, 2, ... Jeder Schritt s beinhaltet eine endliche Anzahl von OLS-Regressionen, eine für jede Prädiktorbeziehung des Modells. Jede solche Regression liefert Proxy-Schätzungen für eine Teilmenge der unbekannten Parameter und latenten Variablen (daher der Name Partial Least Squares), und diese Proxy-Schätzungen werden im nächsten Schritt des Verfahrens verwendet, um neue Proxy-Schätzungen zu berechnen.

Verweise

Rosipal, R. (2011). Nichtlineare partielle kleinste Quadrate: Eine Übersicht. In Lodhi H. und Yamanishi Y. (Hrsg.), Chemoinformatik und fortgeschrittene Perspektiven des maschinellen Lernens: Komplexe Rechenmethoden und kollaborative Techniken , S. 169-189. ACCM, IGI Global. Abgerufen von http://aiolos.um.savba.sk/~roman/Papers/npls_book11.pdf

Sanchez, G. (2013). PLS- Pfadmodellierung mit R. Berkeley, CA: Trowchez Editions. Abgerufen von http://gastonsanchez.com/PLS_Path_Modeling_with_R.pdf

Wold, H. (1974). Kausalflüsse mit latenten Variablen: Teilung der Wege im Lichte der NIPALS-Modellierung. European Economic Review, 5 , 67-86. Nordholland Verlag.

Wold, H. (1980). Modellbildung und Bewertung bei fehlendem theoretischem Wissen: Theorie und Anwendung partieller kleinster Fehlerquadrate. In J. Kmenta und JB Ramsey (Hrsg.), Evaluation of econometric models , S. 47-74. New York: Akademische Presse. Abgerufen von http://www.nber.org/chapters/c11693

Wold, S., Sjöström, M. & Eriksson, L. (2001). PLS-Regression: Ein grundlegendes Werkzeug der Chemometrie. Chemometrics and Intelligent Laboratory Systems, 58 , 109-130. doi: 10.1016 / S0169-7439 (01) 00155-1 Abgerufen von http://www.libpls.net/publication/PLS_basic_2001.pdf

Aleksandr Blekh
quelle
@amoeba: Ich glaube, dass dieses Papier PLS im Gegensatz zu anderen Ansätzen auf technischere Weise erklärt, die Sie kürzlich besprochen haben. Beachten Sie jedoch, dass sich die obige Erläuterung auf die PLS-Regression konzentriert, wohingegen PLS mehrere Klassen der Systemanalyse umfasst (siehe Folie 10 in der folgenden Präsentation). Technische Hinweise zu den Folien 25-29 sind meiner Meinung nach ebenfalls hilfreich. Die Präsentation: plsmodeling.com/pls/pls-introduction .
Aleksandr Blekh
@ Aleksandr Blekh: Das sind sehr schöne Referenzen.
Alph
Wow, die Leute geben den Perioden der PLS-Geschichte Namen! Beeindruckend.
Amöbe sagt Reinstate Monica
Im Ernst, ich habe in Sanchez 'Buch nachgeschlagen, verstehe aber immer noch nicht, was NIPALS mit "der Idee zu tun hat, die Parameter eines Modells in Teilmengen aufzuteilen, damit sie in Teilen geschätzt werden können" . Ursprünglich wurde NIPALS als Methode zur Berechnung von Hauptkomponenten vorgeschlagen, oder? Es ist ganz einfach. Ich sehe dort keine "Teilung" der Parameter in "Teilmengen", daher habe ich keine Ahnung, wovon Sanchez hier spricht. Übrigens verstehe ich "nichtlinear" in NIPALS auch nicht. PCA ist sicherlich eine lineare Technik!
Amöbe sagt Reinstate Monica
@amoeba: Bitte beachten Sie mein Update als Antwort auf Ihren Kommentar. Ich hoffe es hilft.
Aleksandr Blekh
7

XY.

Historisch gesehen wurde PLS, wie @Aleksandr gut erklärt (+1), von Wold eingeführt, der seinen NIPALS-Algorithmus verwendete, um es zu implementieren. NIPALS steht für "nichtlineare iterierte partielle Fehlerquadrate", daher ist P in PLS offensichtlich gerade von NIPALS angekommen.

Xvpvp

  1. v=Xp(pp)-1
  2. v1
  3. p=Xv(vv)-1

vpX

(Warum er es "nichtlinear" nannte, verstehe ich immer noch nicht.)

Dieser Begriff ist bemerkenswert irreführend, denn wenn dies "partiell" ist, ist auch jeder Erwartungsmaximierungsalgorithmus "partiell" (tatsächlich kann NIPALS als eine primitive Form von EM angesehen werden, siehe Roweis 1998 ). Ich denke, PLS ist ein guter Kandidat für den Wettbewerb The Most Misleading Term in Machine Learning. Leider ist es unwahrscheinlich, dass sich dies trotz der Bemühungen von Wold Jr. ändert (siehe @ Momos Kommentar oben).

Amöbe sagt Reinstate Monica
quelle
Das UPDATE 2 meiner Antwort könnte Sie mit weiteren Erläuterungen interessieren.
Aleksandr Blekh
Vielen Dank, dass Sie diese Diskussion fortgesetzt haben (um Missverständnissen vorzubeugen, sollte ich sagen, dass ich nicht versucht habe, Sie in irgendeiner Weise zu kritisieren!). Nun zu Ihrem Update2. Warum sollten wir Ihrer Meinung nach die Bedeutung von "partiell" in PLS und NIPALS unterscheiden? Das hört sich komisch an; PLS ist aus der Arbeit an NIPALS hervorgegangen, und dies legt nahe, dass sein Name einfach ein abgekürztes "niPaLS" ist. Dies scheint von Wold et al. 2001 Papier , dass Sie gefunden: „Dies beinhaltete eine einfache , aber effiziente Art und Weise die Parameter in diesen Modellen NIPALS genannt abzuschätzen [...] Dies führte wiederum zu dem Akronym PLS für diese Modelle.“ .
Amöbe sagt Reinstate Monica
1
vpX
1
Groß! Ich denke, die Frage wurde endlich zufriedenstellend beantwortet. Und ich habe deine Antwort endlich positiv bewertet, +1 :-) Ich habe meine Antwort überarbeitet, um dieses neue Verständnis zu berücksichtigen. Bezüglich Ihrer Antwort: Als Sie in Update 1 und Update 2 das Wort "teilweise" erklärten, meinten Sie wirklich das Gleiche, worauf wir uns jetzt geeinigt haben? Für mich sieht es so aus, als ob Ihre Antwort derzeit mehrere unterschiedliche Interpretationen enthält ...
Amöbe sagt Reinstate Monica
1
Ich weiß es nicht! Vielleicht ist es richtig. Können Sie erläutern, welche "nichtlinearen Modelle" mit NIPALS analysiert werden können und wie? Andererseits ist es wahrscheinlich ein ganz anderes Thema. Ich denke, der Punkt ist, dass Wold NIPALS entwickelt hat, um PCA nicht für sich selbst zu berechnen, sondern um bestimmte Anwendungen zu berücksichtigen, bei denen er sich mit nichtlinearen Problemen befassen und sie irgendwie linearisieren und auf PCA reduzieren musste. Heutzutage wird NIPALS als einfacher Algorithmus zur Berechnung führender Singularvektoren vorgestellt, aber vielleicht würde Wold von 1969 dieser Ansicht überhaupt nicht zustimmen!
Amöbe sagt Reinstate Monica