Verwenden Boosting-Techniken Abstimmungen wie jede andere Ensemble-Methode?

8

Können wir alle Ensemblemethoden durch Abstimmung verallgemeinern? Verwenden Boosting-Methoden auch Abstimmungen, um die schwachen Lernenden in das endgültige Modell zu bringen?

Mein Verständnis der Technik:

  • Boosting: Fügt kontinuierlich schwache Lernende hinzu, um die Datenpunkte zu verbessern, die nicht korrekt klassifiziert wurden.
  • Ensemble-Technik: Verwendet mehrere Lernende, um eine bessere Vorhersage zu erhalten als von einem allein. Dies wird in Wikipedia erklärt.
Pritywiz
quelle

Antworten:

7

Boosting kann allgemein als (gewichtetes) Voting verstanden werden

Im Falle des Boostings gibt einer seiner Erfinder in dieser Einführung zu AdaBoost (Schwerpunkt Mine) eine positive Antwort :

Die endgültige oder kombinierte Hypothese berechnet das Vorzeichen einer gewichteten Kombination schwacher Hypothesen Dies entspricht der Aussage, dass als gewichtete Mehrheitsabstimmung von berechnet wird die schwachen Hypothesen denen jeweils das Gewicht zugewiesen ist . (In diesem Kapitel verwenden wir die Begriffe "Hypothese" und "Klassifikator" synonym.)F ( x ) = T t = 1 α t h t ( x ) H h t α tH

F(x)=t=1Tαtht(x)
H htαt

Ja, das endgültige Modell ist eine gewichtete Abstimmung aller schwachen Lernenden, die für diese Iteration geschult wurden. Ebenso finden Sie diesen Ausschnitt auf Wikipedia über Boosting im Allgemeinen:

Während das Boosten nicht algorithmisch eingeschränkt ist, bestehen die meisten Boosting-Algorithmen darin, schwache Klassifikatoren in Bezug auf eine Verteilung iterativ zu lernen und sie einem endgültigen starken Klassifikator hinzuzufügen. Wenn sie hinzugefügt werden, werden sie normalerweise in einer Weise gewichtet, die normalerweise mit der Genauigkeit der schwachen Lernenden zusammenhängt.

Beachten Sie auch die darin erwähnte Erwähnung, dass die ursprünglichen Boosting-Algorithmen eine "Mehrheit" verwendeten. Der Begriff der Abstimmung ist ziemlich fest in der Steigerung verankert: Sein Leitprinzip besteht darin, ein Ensemble bei jeder Iteration zu verbessern, indem ein neuer Wähler hinzugefügt wird und dann entschieden wird, wie viel Gewicht jeder Stimme gegeben werden soll.

Intuition gilt für das Beispiel der Gradientenverstärkung : Bei jeder Iteration finden wir einen neuen Lernenden , der an Pseudo-Residuen angepasst ist, und optimieren dann , um zu entscheiden, wie viel Gewicht "Stimme" geben .h m γ m h mmhmγmhm

Die Erweiterung auf alle Ensemble-Methoden führt zu Gegenbeispielen

So wie es ist, würden einige feststellen, dass sogar der Begriff der Gewichtung die Wahlmetapher erweitert. Berücksichtigen Sie bei der Überlegung, ob diese Intuition auf alle Lernmethoden des Ensembles ausgedehnt werden soll, diesen Ausschnitt:

Ensembles kombinieren mehrere Hypothesen, um eine (hoffentlich) bessere Hypothese zu bilden. Der Begriff Ensemble ist normalerweise Methoden vorbehalten, die mehrere Hypothesen mit demselben Basislerner erstellen.

Und diese auf dem Beispiel Ensemble-Methode des Stapelns :

Beim Stapeln (manchmal auch als gestapelte Generalisierung bezeichnet) wird ein Lernalgorithmus trainiert, um die Vorhersagen mehrerer anderer Lernalgorithmen zu kombinieren. Zuerst werden alle anderen Algorithmen unter Verwendung der verfügbaren Daten trainiert, dann wird ein Kombiniereralgorithmus trainiert, um eine endgültige Vorhersage unter Verwendung aller Vorhersagen der anderen Algorithmen als zusätzliche Eingaben zu treffen. Wenn ein beliebiger Kombiniereralgorithmus verwendet wird, kann das Stapeln theoretisch jede der in diesem Artikel beschriebenen Ensemble-Techniken darstellen, obwohl in der Praxis häufig ein einschichtiges logistisches Regressionsmodell als Kombinierer verwendet wird.

Wenn Sie Ensemble-Methoden so definieren, dass sie Stapelmethoden mit einem beliebigen Kombinierer enthalten, können Sie Methoden erstellen, die meiner Ansicht nach den Begriff der Abstimmung über seine Grenzen hinaus erweitern. Es ist schwer zu erkennen, wie eine Sammlung schwacher Lernender, die über einen Entscheidungsbaum oder ein neuronales Netzwerk kombiniert werden, als "Abstimmung" angesehen werden kann. (Abgesehen von der ebenfalls schwierigen Frage, wann sich diese Methode als praktisch nützlich erweisen könnte.)

Einige Einführungen beschreiben Ensembles und Abstimmungen als synonym; Ich bin mit der neueren Literatur zu diesen Methoden nicht vertraut genug, um zu sagen, wie diese Begriffe in letzter Zeit allgemein angewendet werden, aber ich hoffe, diese Antwort gibt eine Vorstellung davon, wie weit der Begriff der Abstimmung reicht.

Sean Easter
quelle
Bitte erläutern Sie, wie die Abstimmung in einer Gradientenverstärkungsmaschine erfolgt. Bei jeder Iteration wird ein schwacher Lernender hinzugefügt. Wo wird hier abgestimmt? Können wir die Abstimmung verallgemeinern, um sie in allen Boosting- und auch in allen Ensemble-Techniken zu verwenden?
Pritywiz
1
Zur ersten Frage: Wenn Sie der Beschreibung der Gradientenverstärkung hier unter "Algorithmus" folgen , finden Sie den endgültigen Lernenden, der als gewichtetes Ziel schwacher Lernender beschrieben wird. Im Wesentlichen lautet die Abstimmungsmetapher: Bei jeder Iteration fügen Sie einen neuen Wähler hinzu, der sich auf die Pseudoreste konzentriert, und optimieren dann , um zu entscheiden, wie viel Gewicht diese neue Abstimmung geben soll. γm
Sean Easter
1
Zum zweiten glaube ich nicht, dass die Abstimmungsmetapher Wasser für alle Ensemblemethoden enthält. Wenn Sie wie in den allgemeinen Beispielen hier beschrieben über das Stapeln lesen , werden Sie feststellen, dass ein beliebiger Kombiniereralgorithmus verwendet werden kann, der die Vorhersagen anderer Lernender als Eingabe behandelt. Es ist schwer zu erkennen, wie man beispielsweise einen Entscheidungsbaum als Abstimmungsmechanismus unter den Lernenden betrachten könnte. Ist das hilfreich?
Sean Easter
4

Das Boosten unterscheidet sich vom Absacken (Abstimmen). Ich sehe keine Möglichkeit, Boosting als "Abstimmung" zu interpretieren (weitere Details finden Sie in meiner Bearbeitung).

  • Eine Abstimmung (insbesondere eine Mehrheitsentscheidung) bedeutet normalerweise eine kombinierte Entscheidung von "getrennten / weniger korrelierten" Wochenklassifikatoren.

  • Beim Boosten bauen wir einen Klassifikator auf einen anderen. Sie sind also keine "getrennten Kollegen", sondern einer ist "weniger schwächer als der andere".

Meine Antworten hier geben eine Aufschlüsselung nach Iterationen.

Wie funktioniert Linear Base Leaner beim Boosten? Und wie funktioniert es in der xgboost-Bibliothek?

Das Beispiel versucht, eine quadratische Funktion zu approximieren, indem der Entscheidungsstumpf verstärkt wird.

  • Die ersten beiden Diagramme sind Grundwahrheit und Boosting-Modell nach vielen Iterationen. Sie sind Konturdiagramme. Die X- und Y-Achse sind zwei Merkmale, und der Funktionswert wird durch die Farbe dargestellt.

Geben Sie hier die Bildbeschreibung ein

  • Dann zeige ich die ersten 4 Iterationen. Sie können sehen, dass wir nicht 4 Modelle mitteln / abstimmen, sondern das Modell über jede Iteration verbessern.

Geben Sie hier die Bildbeschreibung ein


Nachdem ich eine andere Antwort gesehen habe, hängt die Antwort auf diese Frage davon ab, wie wir "Abstimmung" definieren. Betrachten wir die gewichtete Summe als Abstimmung? Wenn ja, dann können wir meiner Meinung nach immer noch sagen, dass Boosting durch Abstimmung verallgemeinert werden kann.

Haitao Du
quelle
Ich verstehe Boosting als richtig von Ihnen erklärt, während wir in Adaboost sagen können, dass eine gewichtete Mehrheit aller schwachen Klassifikatoren der endgültige Klassifikator ist, aber es ist nicht dasselbe im Fall von GBM. Wir können also nicht die Abstimmung verallgemeinern, die in allen Ensemble-Techniken verwendet wird, nicht wahr? Ich bin ratlos .. und genau meine Verwirrung ..
Pritywiz
1
@pritywiz Ich denke, eine andere Antwort ist auch richtig. Das Wort "Abstimmung" ist nicht ganz klar. Die endgültige Form von GBM ist immer noch additiv mit unterschiedlichen Gewichten. Betrachten wir gewichtete Summe = Abstimmung?
Haitao Du