Vorteil von GLMs in Endknoten eines Regressionsbaums?

8

Ich spiele also mit der Idee, einen Algorithmus zu schreiben, der einen Regressionsbaum aus den Daten vergrößert und abschneidet und dann in den Endknoten des Baums einen GLM anpasst. Ich habe versucht, mich über die Idee zu informieren, aber ich kann anscheinend keinen einheitlichen Namen für die Technik finden. Ich habe es als hybride Regressionsbäume (HRT), Modellbäume und Funktionsbäume gelesen. Suchen nach diesen Begriffen tauchen nur sehr wenig auf.

Vermisse ich einen anderen Namen dafür? Wo finde ich Forschungsergebnisse zur Wirksamkeit?

ApeWithPants
quelle

Antworten:

11

Wie Sie sagen, diese Idee wurde bereits zuvor untersucht (wenn auch unter verschiedenen Namen), und es gibt tatsächlich eine breite Literatur zu diesem Thema. Die Namen, die ich mit dieser Arbeit verbinde, sind Wei-Yin Loh, Probal Chaudhuri, Hongshik Ahn, Joao Gama, Antonio Ciampi oder Achim Zeileis. In dieser Arbeit finden Sie eine ziemlich umfassende Beschreibung der Vor- und Nachteile sowie verschiedener Algorithmen (etwas veraltet) .

Bäume mit GLM haben die folgenden (Dis-) Vorteile (von hier aus umschrieben - Sie können den Vorabdruck leicht durch Googeln finden):

  • Die funktionale Form eines GLM kann manchmal für den gesamten Datensatz zu starr erscheinen, selbst wenn das Modell gut in eine Teilstichprobe passt.

  • Insbesondere bei großen Datenmengen oder Datenmengen, bei denen das Wissen über die zugrunde liegenden Prozesse begrenzt ist, kann das Einrichten nützlicher parametrischer Modelle schwierig sein und ihre Leistung in Bezug auf die Vorhersage ist möglicherweise nicht ausreichend.

  • Bäume können nichtlineare Beziehungen einbeziehen oder die funktionale Beziehung selbst finden und können daher in Umgebungen, in denen klassische Modelle voreingenommen sind oder sogar versagen, eine höhere Vorhersagekraft haben.

  • Aufgrund ihres explorativen Charakters können Bäume mit GLM Muster aufdecken, die in mit GLM modellierten Daten verborgen sind, oder weitere Erklärungen für überraschende oder kontraintuitive Ergebnisse liefern, indem zusätzliche Informationen aus anderen Kovariaten einbezogen werden.

  • Sie können hilfreich sein, um Segmente der Daten zu identifizieren, für die ein von vornherein angenommenes Modell gut passt. Es kann sein, dass dieses Modell insgesamt eine schlechte Passform aufweist, dies jedoch auf eine gewisse Kontamination zurückzuführen ist (z. B. das Zusammenführen von zwei separaten Datendateien oder systematische Fehler während der Datenerfassung zu einem bestimmten Zeitpunkt). Bäume mit GLM partitionieren die Daten möglicherweise so, dass wir die Segmente mit schlechter Anpassung finden und Segmente finden können, für die die Anpassung möglicherweise recht gut ist.

  • Die baumartige Struktur ermöglicht es, dass die Effekte dieser Kovariaten nichtlinear und hochgradig interaktiv sind, anstatt einen linearen Einfluss auf den verknüpften Mittelwert anzunehmen.

  • Bäume mit GLM können zu zusätzlichen Erkenntnissen für ein a priori angenommenes parametrisches Modell führen, insbesondere wenn die zugrunde liegenden Mechanismen zu komplex sind, um vom GLM erfasst zu werden.

  • Bäume mit GLM können automatisch Interaktionen, Nichtlinearität, Modellfehlspezifikationen, unberücksichtigten kovariaten Einfluss usw. erkennen.

  • Sie können als Erkundungswerkzeug in komplexen und großen Datenmengen verwendet werden, für die es eine Reihe von Vorteilen bietet.

  • Im Vergleich zu einem globalen GLM kann ein GLM-Modellbaum das Problem der Verzerrung und Modellfehlspezifikation verringern und eine bessere Anpassung ermöglichen.

  • Im Vergleich zu Baumalgorithmen mit Konstanten kann die Angabe eines parametrischen Modells in den Endknoten zusätzliche Stabilität hinzufügen und daher die Varianz der Baummethoden verringern.

  • Als Hybrid aus Bäumen und klassischen GLM-Modellen liegt die Leistung normalerweise zwischen diesen beiden Polen: Sie weisen tendenziell eine höhere Vorhersagekraft auf als klassische Modelle, jedoch weniger als nicht parametrische Bäume.

  • Sie erhöhen die Komplexität im Vergleich zum klassischen Modell aufgrund des Aufteilungsprozesses, sind jedoch normalerweise sparsamer als nicht parametrische Bäume.

  • Sie zeigen eine höhere Vorhersagevarianz als ein globales Modell in Bootstrap-Experimenten, jedoch viel weniger als nicht parametrische Bäume (auch beschnittene).

  • Die Verwendung eines GLM im Knoten eines Baums führt normalerweise zu kleineren Bäumen

  • Die Verwendung eines GLM im Knoten eines Baums führt normalerweise zu stabileren Vorhersagen im Vergleich zu einem Baum mit nur einer Konstanten (jedoch nicht so stabil wie Absacken oder Wälder von Bäumen).

  • Die VC-Dimension eines Baums mit GLM in den Knoten ist höher als der entsprechende Baum mit nur einer Konstanten (da letzterer ein Sonderfall des ersteren ist).

In Bezug auf die "Wirksamkeit" (ich nehme an, Sie meinen die prädiktive Leistung) von Bäumen mit GLM bieten die meisten der in den beiden obigen Links zitierten Artikel eine Untersuchung dazu. Ein umfassender, umfassender Vergleich aller Algorithmen mit Wettbewerbern wie Standardbäumen wurde jedoch nach meinem besten Wissen nicht durchgeführt.

Momo
quelle