Unterschied zwischen PLS-Regression und PLS-Pfadmodellierung. Kritik an PLS

11

Diese Frage wurde hier gestellt, aber niemand gab eine gute Antwort. Ich denke, es ist eine gute Idee, es noch einmal aufzurufen, und ich möchte auch einige weitere Kommentare / Fragen hinzufügen.

  • Die erste Frage ist, was ist der Unterschied zwischen "PLS-Pfadmodellierung" und "PLS-Regression"? Was sind Strukturgleichungsmodellierung (SEM), Pfadmodellierung und Regression? Nach meinem Verständnis konzentriert sich die Regression mehr auf die Vorhersage, während der SEM-Fokus auf der Beziehung zwischen Antwort und Prädiktoren liegt und die Pfadmodellierung ein Sonderfall des SEM ist.

  • Meine zweite Frage ist, wie vertrauenswürdig PLS ist. In letzter Zeit wurde es vielfach kritisiert, wie in Rönkkö et al. 2016 und Rönkkö et al. 2015, was zur Ablehnung von auf PLS ​​basierenden Beiträgen in hochrangigen Fachzeitschriften wie dem Journal of Operations Management führt ( hier der Hinweis des Zeitschrifteneditors):

    Wir lehnen praktisch alle PLS-basierten Manuskripte ab, da wir zu dem Schluss gekommen sind, dass PLS bei den von OM-Forschern verwendeten Modellen ausnahmslos der falsche Modellierungsansatz war .

    Ich sollte beachten, dass mein Fachgebiet Spektroskopie ist, weder Management / Psychologie noch Statistik. In den oben verlinkten Artikeln sprechen die Autoren mehr über PLS als SEM-Methode, aber für mich scheint ihre Kritik auch auf die PLS-Regression anwendbar zu sein.

Ress
quelle
Ihre Links befinden sich alle hinter Paywalls.
Jeremy Miles
du liegst absolut richtig! und es tut mir leid, ich habe die PDFs, aber ich bin nicht sicher, ob ich sie hochladen oder teilen kann. Wissenschaft sollte frei sein :)
Ress
Die PLS-Regression wird unter stats.stackexchange.com/questions/179733 ausführlich erläutert und diskutiert . Leider weiß ich so gut wie nichts über "Pfadmodellierung".
Amöbe
Ich denke, "
Pfadmodellierung
Aus dem Papier von 2016: "Die meisten Einführungstexte zu PLS beschönigen die Zwecke der Gewichte und argumentieren, dass PLS SEM ist und daher einen Vorteil gegenüber der Regression mit Verbundwerkstoffen bieten muss (z. B. Gefen et al., 2011); solche Arbeiten jedoch weisen oft nicht explizit darauf hin, dass PLS selbst auch einfach eine Regression mit Verbundwerkstoffen ist. " ist irreführend. Den Hauptschwerpunkt des Arguments kann ich sehen, wenn die Autoren behaupten, dass SEM ein rein theoretisches Konstrukt sein muss und sie empirisch abgeleitete Strukturgleichungen verachten. Aber PLS leitet 'strukturierte' Gleichungen durch Kovarianz ab.
ReneBt

Antworten:

8

Die erste Frage ist, was ist der Unterschied zwischen "PLS-Pfadmodellierung" und "PLS-Regression"?

Keine, sie sind Synonyme.

Was sind Strukturgleichungsmodellierung (SEM), Pfadmodellierung und Regression? Nach meinem Verständnis konzentriert sich die Regression mehr auf die Vorhersage, während der SEM-Fokus auf der Beziehung zwischen Antwort und Prädiktoren liegt und die Pfadmodellierung ein Sonderfall des SEM ist.

SEM ist eine Form der Regression. Regression ist eine Methode, die unabhängige und abhängige Variablen korreliert und Methoden umfasst, die mehrere Variablen verwenden, die als separate Entitäten behandelt werden. SEM verwendet speziell mathematische Beziehungen zwischen den Variablen, um das endgültige Modell zu beschränken. Im Fall von PLS ist dies die Kovarianz. Mein Verständnis ist, dass die Pfadmodellierung ein domänenspezifischer Begriff ist (nicht meiner, ich bin ein Spektroskopiker wie Sie).

Meine zweite Frage ist, wie vertrauenswürdig PLS ist. In letzter Zeit wurde es vielfach kritisiert, wie in Rönkkö et al. 2016 und Rönkkö et al. 2015

Eine ausgezeichnete Gegenargumentation findet sich bei Henseler et al. 2013 Gemeinsame Überzeugungen und Realität über PLS . Ein Hauptanliegen von Rönkkö et al. ist, dass PLS in einigen Situationen, in denen ein gemeinsamer latenter Faktor angenommen wird, keine gute Leistung erbracht hat. PLS wurde entwickelt, um mit mehreren latenten Faktoren umzugehen, eine Situation, die in der realen Welt weitaus häufiger vorkommt.

Wie vertrauenswürdig? Für die Spektroskopie ist es ein ausgezeichnetes Werkzeug, hat aber seine Grenzen. Es besteht die Gefahr einer Überanpassung, da komplexe Modelle erstellt werden können, die Beiträge mehrerer zugrunde liegender Faktoren erfassen. Aus diesem Grund muss es mit Vorsicht verwendet werden, und eine angemessene externe Validierung ist unerlässlich. Diese Einschränkungen gelten jedoch für alle Modellbauwerkzeuge. Ich arbeite seit 2 Jahrzehnten hauptsächlich an realen Datensätzen und habe keinen experimentellen Datensatz gefunden, der nur einen gemeinsamen Faktor für die abhängige Variable hatte (weder basierend auf Daten noch auf wissenschaftlicher Theorie).

ReneBt
quelle
1
+1, obwohl ich wünschte, diese Antwort hätte mehr Details zu Ronkko et al. gegen Henseler et al. Uneinigkeit. Ich bin überhaupt kein Spektroskopiker, aber ich habe ein relativ gutes Verständnis von PLS als Regularisierungsmethode für die lineare Regression (so wird es in Die Elemente des statistischen Lernens von Hastie et al. Dargestellt ). Ich denke, es heißt PLS1 in der Chemometrie. Hier bezieht sich "Leistung" auf Rekonstruktionsfehler, man kann die Kreuzvalidierung verwenden, um die Regularisierungsstärke usw. zu wählen. Dies ist eine sehr vertraute Einstellung für jeden, der auf Ridge Regression oder PCR oder ähnliches gestoßen ist.
Amöbe
[Forts.] Mir ist auch PLS2 mit mehreren abhängigen Variablen bekannt, aber ich bin mir nicht sicher, wie oft dies verwendet wird. Aus dem Versuch heraus zu verstehen, was Ronkko et al. Es scheint, dass der Fokus von "SEM" ausschließlich auf der Beziehung von multiplem X zu multiplem Y liegt (ist es dann PLS2?) und vielleicht eher auf der Interpretation der Beziehung zwischen X und Y als auf der Vorhersage von Y als solchem. Ich bin mir nicht einmal sicher, was sie unter "Leistung" verstehen, und ich habe keine Ahnung, was sie anstelle von PLS bevorzugen, wenn sie PLS kritisieren.
Amöbe
Vielen Dank an ReneBT und Amöbe. Ich stellte diese Frage auf Reddit hier und jemand (soumya_ray) beantwortet , dass die Regression und SEM sind grundverschieden. Sie erklärte die technischen Unterschiede nicht. Übrigens ist ihre Antwort gegen das, was Sie gesagt haben (Ihre Antwort macht für mich Sinn).
Ress
Übrigens mache ich Bandauswahl mit PLS. Ich bestätige Ihren Standpunkt zur PLS-Leistung, obwohl dies zu guten Vorhersagen führen kann (sowohl beim Test als auch bei der Kalibrierung), aber das Modell kann grundlegend falsch oder zumindest sehr schwer zu interpretieren sein, da es Prädiktoren als wichtige Variablen auswählt, die nichts mit dem zu tun haben Antwortvariable.
Ress
Ein weiterer Kommentar zu den von den Autoren aufgeworfenen Schlüsselthemen lautet: "Der PLS-Algorithmus erzeugt somit Gewichte, die die Korrelation zwischen den benachbarten Verbundwerkstoffen im Vergleich zu den als Ausgangspunkt verwendeten einheitlich gewichteten Verbundwerkstoffen erhöhen, indem sie Korrelationen in den Daten verwenden. Dies ist jedoch der Fall." keine Garantie für das Erreichen eines globalen Optimums ". Ist ein berechtigtes Anliegen, kurz gesagt bedeutet dies, dass das Modell nur für Populationen mit derselben zugrunde liegenden Kovarianzstruktur gilt. Dies macht PLS nicht ungültig, sondern bedeutet, dass ein Modell mit Sorgfalt erstellt und verwendet werden muss.
ReneBt