Was sind die theoretischen Garantien des Absackens?

17

Ich habe (ungefähr) gehört, dass:

Absacken ist eine Technik, um die Varianz eines Prädiktors / Schätzers / Lernalgorithmus zu verringern.

Ich habe jedoch noch nie einen formalen mathematischen Beweis für diese Aussage gesehen. Weiß jemand, warum dies mathematisch wahr ist? Es scheint nur eine so allgemein akzeptierte / bekannte Tatsache zu sein, dass ich einen direkten Hinweis darauf erwarten würde. Ich wäre überrascht, wenn es keine gibt. Weiß auch jemand, welche Auswirkung dies auf die Voreingenommenheit hat?

Gibt es andere theoretische Garantien für Vorgehensweisen, die jeder für wichtig hält und die er teilen möchte?

Charlie Parker
quelle

Antworten:

21

Der Hauptanwendungsfall für das Absacken besteht darin, die Varianz von Modellen mit geringer Vorspannung zu verringern, indem sie zusammengefügt werden. Dies wurde empirisch in der wegweisenden Arbeit " Ein empirischer Vergleich von Abstimmungsklassifizierungsalgorithmen: Bagging, Boosting und Varianten " von Bauer und Kohavi untersucht . Es funktioniert normalerweise wie angegeben.

Entgegen der landläufigen Meinung wird jedoch nicht garantiert, dass das Absacken die Varianz verringert . Eine neuere und meiner Meinung nach bessere Erklärung ist, dass das Absacken den Einfluss von Hebelpunkten verringert. Hebelpunkte sind diejenigen, die das resultierende Modell überproportional beeinflussen, z. B. Ausreißer in der Regression der kleinsten Quadrate. Es ist selten, aber möglich, dass Hebelpunkte die resultierenden Modelle positiv beeinflussen. In diesem Fall verringert Absacken die Leistung. Schauen Sie sich " Bagging Equalizes Influence " von Grandvalet an .

Um Ihre Frage abschließend zu beantworten: Die Auswirkung des Absackens hängt weitgehend von den Hebelpunkten ab. Es gibt nur wenige theoretische Garantien, außer dass das Absacken die Rechenzeit in Bezug auf die Beutelgröße linear verlängert! Das heißt, es ist immer noch eine weit verbreitete und sehr mächtige Technik. Wenn Sie beispielsweise mit Etikettengeräuschen lernen, können durch das Absacken robustere Klassifikatoren erzeugt werden .

Rao und Tibshirani haben eine Bayes'sche Interpretation in " Die Out-of-Bootstrap-Methode zur Modellmittelung und -auswahl " gegeben :

In diesem Sinne stellt die Bootstrap-Verteilung eine (ungefähre) nichtparametrische, nicht informative hintere Verteilung für unseren Parameter dar. Diese Bootstrap-Verteilung wird jedoch schmerzlos erhalten, ohne dass zuvor eine formelle Angabe gemacht werden muss und ohne dass eine Stichprobe aus der posterioren Verteilung gezogen werden muss. Daher können wir uns die Bootstrap-Verteilung als "Bayes posterior" eines armen Mannes vorstellen.

Marc Claesen
quelle
1
Wie bezieht sich die Erklärung zu den Hebelpunkten auf Bäume, die häufig zum Absacken empfohlen werden? Während klar ist, welche hohen Hebelpunkte für die lineare Regression gelten, was sind diese Punkte für Bäume?
DavidR
Ich habe einen weiteren Verweis auf diese Frage gefunden: quora.com/… was denkst du? Widerspricht dies der Tatsache, dass du sagtest, dass es die Varianz theoretisch nicht verringert?
Charlie Parker
Ich habe gesehen, dass Wikipedia sagt, dass Bagging (auch Bootstrap-Aggregation genannt) die Varianz verringert. Wenn es keine theoretischen Beweise dafür gibt, bedeutet dies, dass der Artikel falsch ist?
Charlie Parker
In den meisten Fällen verringert das Absacken die Varianz, dies ist jedoch nicht der eigentliche Mechanismus. Grandvalet hat Beispiele gezeigt, bei denen die Varianz erhöht wird, und es wurde gezeigt, dass der Mechanismus in engerem Zusammenhang mit dem Ausgleich des Einflusses von Datenpunkten steht, die das Modell stark beeinflussen, z.
Marc Claesen