Basisklassifikatoren zum Boosten

8

Boosting-Algorithmen wie AdaBoost kombinieren mehrere "schwache" Klassifikatoren zu einem einzigen stärkeren Klassifikator. Obwohl theoretisch ein Boosting mit jedem Basisklassifikator möglich sein sollte, scheinen in der Praxis baumbasierte Klassifikatoren am häufigsten zu sein.

Warum ist das? Welche Eigenschaften von Baumklassifikatoren machen sie für diese Aufgabe am besten geeignet? Gibt es noch andere Basisklassifikatoren, die ebenfalls stark vom Boosten profitieren? Ich frage mit Blick auf Klassifizierungsprobleme, würde mich aber auch für Antworten zu Regressionsanwendungen interessieren.

Martin O'Leary
quelle

Antworten:

10

Ich bin mir ziemlich sicher, dass Sie Recht haben und dass es keinen Grund gibt, der die Verwendung von Entscheidungsbäumen anstelle anderer Klassifikatoren erfordert. Trotzdem denke ich, dass es einige Gründe gibt, warum sie oft verwendet werden. Geschwindigkeit ist ein Faktor: Für das Boosten müssen möglicherweise viele Klassifikatoren trainiert werden . Wenn jedes ein riesiges, mehrschichtiges neuronales Netzwerk ist, wird der gesamte Vorgang sehr langsam sein.

Noch wichtiger ist, dass Entscheidungsbäume "gut genug" sind. Da die ganze Idee hinter dem Boosten darin besteht, schwache Klassifikatoren zusammenzufassen, gibt es keinen großen Anreiz, schwergewichtige Lösungen zu verwenden, die möglicherweise mehr Optimierung erfordern (z. B. das Herumspielen mit den Hyperparametern und dem Kernel für SVMs).

Schließlich sind Boosting- und Entscheidungsbäume zumindest in meinem Kopf konzeptionell etwas ähnlich (z. B. einen Knoten hinzufügen / einen neuen Klassifikator erstellen). Viele der Lerninhalte des Ensembles scheinen Bäume zu verwenden. Ich denke, Sie könnten einen "zufälligen Wald" von Naive Bayes-Lernenden haben, wenn Sie es wirklich wollten.

Matt Krause
quelle
1
Ich war mir nicht ganz sicher, aber dieser Thread kommt zu ähnlichen Ergebnissen: stats.stackexchange.com/questions/13597/…
Matt Krause
Ich denke, Geschwindigkeit könnte hier so etwas wie ein roter Hering sein - meistens hätte ich lieber einen genaueren Klassifikator als etwas, das etwas schneller zu trainieren ist. Immerhin ist die CPU-Zeit heutzutage ziemlich billig.
Martin O'Leary
Richtig, richtig, obwohl der Reiz des Boostings darin besteht, dass Sie mit Methoden, die Ihnen normalerweise nur schnelle Vorhersagen liefern können, schnelle und genaue Vorhersagen erhalten können. Das heißt, ich hätte sie in dieser Reihenfolge hervorheben sollen: Gut genug> Geschwindigkeit> was auch immer in meinem Kopf vorgeht :-)
Matt Krause
Ich verstehe, was Sie sagen, aber ich finde immer noch, dass "gut genug" eine unbefriedigende Antwort ist. Ich verstehe Ihren Standpunkt jedoch, dass Sie nicht mit Hyperparametern herumspielen müssen.
Martin O'Leary
9

Es gibt einige Merkmale, die zum Verständnis der Ensemble-Methoden beitragen können.

Absacken

Die wahrscheinlich einfachste Ensemble-Methode, das Absacken, das nichts anderes als eine Sammlung ähnlicher homogener Klassifikatoren ist, die auf neu abgetasteten Trainingsdaten basieren und durch eine Kombinationsmethode zusammengehalten werden, verbessert die durch Instabilität in den Basisklassifikatoren verursachte Varianz durch Mittelung ihrer Ausgaben. Das Ensemble nutzt diese Instabilität, um die Varianzkomponente des Fehlers des Basisklassifikators und in geringerem Maße deren Vorspannung anzugehen.

Sie können sich das Absacken als einen signifikanten Grad an Glättung für einen ansonsten sehr instabilen "schwachen" Basisklassifikator vorstellen. Ein Grund, warum schwache Klassifikatoren neben ihrer Tendenz zur Recheneffizienz ausgewählt werden, ist, dass sie eine höhere Diversität aufweisen, die ist eine vorteilhafte Eigenschaft für Ensembles.

Wenn Sie sich ein eingesacktes Ensemble mit sehr starken stabilen Klassifikatoren vorstellen, stimmen diese sehr gut mit der Klassifizierung der dem Ensemble vorgestellten Beispiele überein. Tatsächlich stimmen alle gleich ab. Ein Ausschuss, in dem alle Mitglieder gleichermaßen abstimmen, hat gegenüber einem einzelnen Mitglied des Ausschusses wenig Nutzen.

Um effektiv arbeiten zu können, muss ein Ensemble ein gewisses Maß an Vielfalt unter seinen Mitgliedern aufweisen. Offensichtlich ist ein Ausschuss von Mitgliedern, die fast zufällige Meinungen äußern, auch nicht von großem Nutzen. Es wird also eine Zwischenposition zwischen diesen Extremen gesucht.

In der Praxis wird dieser Kompromiss, da keine vollständige Theorie zu diesem Thema existiert, mithilfe empirischer Methoden wie Kreuzvalidierung oder Durchführung von Versuchen gefunden. Diese werden verwendet, um eine geeignete Festigkeit für den Basisklassifikator zu messen.

Da diese Suche nach einem optimalen Ensemble normalerweise das Anpassen der Parameter der Basisklassifizierer und des Ensembles selbst umfasst, ist es wünschenswert, dass die Anzahl solcher Parameter so klein wie möglich gehalten wird. Wenn nicht, bedeutet die Dimensionalität des Parametersuchraums schnell, dass das Finden des globalen Minimums rechenintensiv ist. Entscheidungsbäume sind eine beliebte Wahl, da sie, wie bereits erwähnt, effektiv verwendet werden können, ohne dass Parameter erforderlich sind.

Zufällige Wälder

Zufällige Wälder, bei denen es sich hauptsächlich um eingesackte Entscheidungsbäume handelt, nutzen die signifikante Instabilität von Bäumen durch Injizieren einer starken stochastischen Komponente [die Permutationen einer kleinen Anzahl von Merkmalen / Faktoren an jedem Entscheidungsknoten innerhalb eines Baums], um Vielfalt innerhalb des Ensembles zu erzeugen. Da jedem Knoten eines Baums eine neue zufällige Auswahl von Merkmalen angezeigt wird, sind die Bäume sehr unterschiedlich. Das Ensemble hat dann den Effekt, die Varianz und Verzerrung der vielfältigen Baumsammlung zu mitteln.

Um effektiv zu sein, muss ein "zufälliger Wald" aus naiven Bayes-Klassifikatoren oder einem anderen stabilen Basisklassifikator wie SVMs ein stochastisches Element hinzufügen. Bei stabilen Klassifikatoren führen relativ kleine Abweichungen in den Trainingsdaten, wie sie beispielsweise beim Absacken auftreten, zu sehr ähnlichen Klassifikatoren.

Um die Vielfalt zu erhöhen, könnten andere Ansätze angewendet werden. Zum Beispiel das Permutieren der angezeigten Merkmale für jeden Basisklassifizierer. Dies hat eine Einschränkung dahingehend, dass die signifikante verfügbare Diversität auf die Anzahl der Kombinationen des Merkmalssatzes beschränkt bleibt. Sobald die Kombinationen erschöpft sind, stehen dem Ensemble keine neuen Klassifikatoren zur Verfügung, die anders abstimmen würden als bestehende Mitglieder.

Bei Problemen mit relativ wenigen Funktionen wird der verfügbare Klassifikatorpool dadurch stark eingeschränkt. Es wäre möglich, weitere Zufallsquellen zu injizieren, beispielsweise durch aggressive Unterabtastung der Trainingsdaten. Der Beweis scheint zu sein, dass ein solcher Ansatz im allgemeinen Fall der besonderen Mischung aus Voreingenommenheit und Vielfalt, die ein zufälliger Wald bietet, unterlegen ist.

Es ist möglich, andere instabile Basisklassifikatoren wie mehrschichtige Perzeptrone (neuronale Netze), die nur wenige Knoten und begrenzte Trainingsmengen aufweisen, oder punktbasierte raumfüllende Ansätze, beispielsweise stochastische Diskriminierung, erfolgreich zu verwenden, um Diversität in Ensemble-Methoden zu injizieren. Natürlich ist bei MLPs ein gewisses Maß an Parametereinstellung unerlässlich.

Erhöhen

Boosting verfolgt beim Aufbau des Ensembles einen anderen Ansatz als das einfache agglomerative Modell von Bagging. Ich nehme an, wenn Sie sich das Absacken als ein flaches Ensemble-Modell vorstellen, konstruiert Boosting einen geschichteten Klassifikator.

Jede Boosting-Runde wählt einen neuen Klassifikator aus einer Reihe potenzieller Klassifikatoren aus, die aus Trainingsdaten erstellt wurden, die gemäß den Fehlklassifizierungen der vorherigen Runde gewichtet oder neu abgetastet wurden. Der neue Klassifikator wird ausgewählt, um den gesamten Ensemblefehler zu minimieren.

Dies steht in scharfem Gegensatz zu dem Mangel an Auswahlkriterien, die bei der Konstruktion zufälliger Waldensembles auftreten. Jeder neue Basisklassifikator muss sich speziell auf die Schwachstellen des vorhandenen Ensembles konzentrieren, was dazu führt, dass ein aggressives Boosten den Trainingsfehler verringert.

In den frühen Stadien des Ensemble-Aufbaus hat Boosting nur wenige schwache Klassifikatoren und jeder konzentriert sich auf verschiedene Bereiche des Trainingsraums. Dies hat zur Folge, dass in erster Linie die Verzerrung verringert wird. Mit zunehmender Ensemblegröße verringert sich der Spielraum für die Reduzierung der Vorspannung und der Fehler aufgrund der Varianz wird verbessert.

Der Vorteil der Instabilität des Basisklassifikators für das Boosten besteht darin, dass mit zunehmendem Ensemble die Anzahl der verbleibenden falsch klassifizierten Beispiele abnimmt. Ein höheres Maß an Diversität ist erforderlich, um einen Klassifikator zu generieren, der die verbleibenden Stichproben sinnvoll anders betrachtet als seine Vorgänger.

Die Stärke dieses Ansatzes zeigt sich in der Tatsache, dass akzeptable Ergebnisse nur mit Entscheidungsstümpfen erzielt werden können, obwohl sich MLPs im Allgemeinen als sehr effektiv erwiesen haben.

Aufgrund dieser ständigen Konzentration auf die falsch klassifizierten Beispiele besteht die Schwäche von Boosting darin, dass es anfällig für Rauschen sein kann. In gewissem Maße versucht logitboost, dieses Versagen zu beheben.

Kein freies Mittagessen

Es sei daran erinnert, dass es keine einheitliche Theorie des maschinellen Lernens gibt und dass die Ergebnisse eines bestimmten Klassifikators stark von der Art der Daten abhängen, mit denen er verwendet wird. A priori gibt es also keinen festen Grund, zu behaupten, ein Klassifizierertyp sei einem anderen überlegen, außer dem Konsens, der aus früheren Experimenten mit ähnlichen Daten und dem allgemeinen Nutzen eines Algorithmus für eine Vielzahl von Datensätzen abgeleitet wurde. Um eine gute Lösung zu erhalten, sollten Sie mit einer Handvoll gängiger Ansätze experimentieren.

image_doctor
quelle
+1 für NFL zu erwähnen, aber ich würde behaupten , dass NFL ist die ‚große einheitliche Theorie‘ des maschinellen Lernens, oder so nah an so etwas wie wir jemals wahrscheinlich zu sehen sind ...
John Doucette