Was sind die Gemeinsamkeiten und Unterschiede zwischen diesen 3 Methoden: Absacken, Erhöhen, Stapeln? Welches ist das beste? Und warum? Kannst du mir für jeden ein Beispiel
Bagging oder Bootstrap-Aggregation ist ein Sonderfall der Modellmittelung. Bei einem Standard-Trainingssatz generiert das Absacken neue Trainingssätze durch Bootstrapping, und dann werden die Ergebnisse der Verwendung einer Trainingsmethode für die generierten Datensätze gemittelt. Das Absacken kann die Ergebnisse einiger instabiler Methoden wie Bäume stabilisieren. m m m m
Was sind die Gemeinsamkeiten und Unterschiede zwischen diesen 3 Methoden: Absacken, Erhöhen, Stapeln? Welches ist das beste? Und warum? Kannst du mir für jeden ein Beispiel
Kurzdefinition von Boosten : Können schwache Lernende einen einzigen starken Lernenden hervorbringen? Ein schwacher Lernender wird definiert als ein Klassifikator, der nur geringfügig mit der wahren Klassifikation korreliert (er kann Beispiele besser kennzeichnen als zufälliges Erraten)....
Ich verfolge schon seit langer Zeit Kaggle-Wettbewerbe und stelle fest, dass viele Gewinnstrategien mindestens einen der "großen Dreier" beinhalten: Absacken, Boosten und Stapeln. Bei Regressionen scheint es nicht sinnvoll zu sein, ein bestmögliches Regressionsmodell zu erstellen, sondern mehrere...
Ich verstehe nicht genau, was mit Knotengröße gemeint ist. Ich weiß, was ein Entscheidungsknoten ist, aber nicht, wie groß er
Ich habe (ungefähr) gehört, dass: Absacken ist eine Technik, um die Varianz eines Prädiktors / Schätzers / Lernalgorithmus zu verringern. Ich habe jedoch noch nie einen formalen mathematischen Beweis für diese Aussage gesehen. Weiß jemand, warum dies mathematisch wahr ist? Es scheint nur eine so...
Wann sollte ich bei einem Klassifizierungsproblem, bei dem das Ziel darin besteht, die Zugehörigkeit zu einer außerhalb der Stichprobe liegenden Klasse genau vorherzusagen, im Allgemeinen keinen Ensemble-Klassifizierer verwenden? Diese Frage steht in engem Zusammenhang mit Warum nicht immer...
Es gibt viele Blog-Posts, YouTube-Videos usw. über die Idee , Bäume zu fangen oder zu vermehren . Mein allgemeines Verständnis ist, dass der Pseudocode für jedes ist: Absacken: Nehmen Sie N zufällige Stichproben von x% der Stichproben und y% der Merkmale Passen Sie Ihr Modell (z. B....
Bei der Verwendung von Bootstrapping für die Modellbewertung dachte ich immer, dass die Out-of-Bag-Proben direkt als Testsatz verwendet wurden. Dies scheint jedoch nicht der Fall zu sein für den veralteten Scikit-Lernansatz,Bootstrap bei dem der Testsatz aus dem Zeichnen mit Ersetzen aus der...
Ich analysiere einen Datensatz unter Verwendung eines gemischten Effektmodells mit einem festen Effekt (Bedingung) und zwei zufälligen Effekten (Teilnehmer aufgrund des innerhalb des Motivs und des Paares). Das Modell wurde mit dem erzeugten lme4Paket:
Für das Boosten von Algorithmen würde ich sagen, dass sie sich ziemlich gut entwickelt haben. Anfang 1995 wurde AdaBoost eingeführt und nach einiger Zeit wurde es Gradient Boosting Machine (GBM). Vor kurzem wurde um 2015 XGBoost eingeführt, das genau ist, Überanpassungen handhabt und bei mehreren...
Es scheint mir, dass das Lernen von Ensembles immer eine bessere Prognoseleistung liefert als mit nur einer einzelnen Lernhypothese. Also, warum benutzen wir sie nicht die ganze Zeit? Meine Vermutung liegt vielleicht an Recheneinschränkungen? (Selbst dann verwenden wir schwache Prädiktoren, also...
Durch Lesen der hervorragenden statistischen Modellierung: Die beiden Kulturen (Breiman 2001) können wir den Unterschied zwischen traditionellen statistischen Modellen (z. B. lineare Regression) und Algorithmen für maschinelles Lernen (z. B. Bagging, Random Forest, Boosted trees ...)...
Ein zufälliger Wald ist eine Sammlung von Entscheidungsbäumen, die dem Absackkonzept folgen. Wenn wir von einem Entscheidungsbaum zum nächsten übergehen, wie werden dann die Informationen, die der letzte Entscheidungsbaum gelernt hat, zum nächsten weitergeleitet? Denn meines Wissens gibt es nichts...
Wenn wir einen ausgewachsenen Entscheidungsbaum (dh einen nicht beschnittenen Entscheidungsbaum) betrachten, weist er eine hohe Varianz und eine geringe Verzerrung auf. Bagging und Random Forests verwenden diese Modelle mit hoher Varianz und aggregieren sie, um die Varianz zu verringern und damit...
Scikit Learn scheint für die Modellaggregationstechnik eine probabilistische Vorhersage anstelle einer Mehrheitsentscheidung zu verwenden, ohne zu erklären, warum (1.9.2.1. Random Forests). Gibt es eine klare Erklärung dafür, warum? Gibt es außerdem ein gutes Papier oder einen Übersichtsartikel...
Beim Absacken werden N Lernende auf N verschiedenen Bootstrap-Beispielen erstellt und dann der Mittelwert ihrer Vorhersagen ermittelt. Meine Frage ist: Warum nicht eine andere Art von Probenahme verwenden? Warum Bootstrap-Beispiele
Ich bin ein bisschen verwirrt. Ich habe dieses Papier gelesen, in dem erklärt wurde, dass die Absacktechnik die Varianz stark verringert und die Vorspannung nur geringfügig erhöht. Ich habe es nicht verstanden, warum es die Varianz reduziert. Ich weiß, was Varianz und Voreingenommenheit sind. Bias...
Basierend auf Gradient Boosting Tree vs Random Forest . GBDT und RF verwenden unterschiedliche Strategien, um Verzerrung und Varianz zu bekämpfen. Meine Frage ist, ob ich einen Datensatz (mit Ersatz) erneut abtasten kann, um mehrere GBDT zu trainieren und ihre Vorhersagen als Endergebnis zu...
Ich kam durch mehrere Posts und Papiere, in denen behauptet wurde, dass das Beschneiden von Bäumen in einem "Absack" -Baumensemble nicht erforderlich ist (siehe 1 ). Ist es jedoch notwendigerweise (oder zumindest in einigen bekannten Fällen) schädlich, die einzelnen Bäume in einem Ensemble zu...