Grundlegendes zur Bagged Logistic Regression (und einer Python-Implementierung)

7

Ich versuche, einen akademischen Artikel zu verstehen, den ich über die logistische Regression für Marketing-Zuschreibungen lese - http://www.turn.com.akadns.net/sites/default/files/whitepapers/TURN_Tech_WP_Data-driven_Multi-touch_Attribution_Models.pdf

Insbesondere dieser Absatz:

Schritt 1. Für einen bestimmten Datensatz einen Anteil (ps) aller Stichprobenbeobachtungen und einen Anteil (pc) aller Kovariaten abtasten. Passen Sie ein logistisches Regressionsmodell an die abgetasteten Kovariaten und die abgetasteten Daten an. Notieren Sie die geschätzten Koeffizienten - wir empfehlen, ps und pc so zu wählen, dass Werte um 0,5 angenommen werden, wenn sowohl die Variabilität als auch die Genauigkeit von Bedeutung sind

Kann jemand bitte erklären, was dies in (hoffentlich) einfachem Englisch bedeutet? Nach meinem Verständnis besteht die Idee darin, die logistische Regression für 0,5 zufällige Teilmengen der Stichprobendaten fortzusetzen und dann alle logarithmischen ungeraden Koeffizienten zu mitteln, die einen Auswahlschwellenwert von 0,5 erfüllen.

Völlig optionale Bonuspunkte 1 : Nebenbei bemerkt, ähnelt diese Implementierung der Idee einer randomisierten logistischen Regression in Scikit Learn für Python? Wenn nicht, was ist der Unterschied? http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RandomizedLogisticRegression.html

Vollständig optionale Bonuspunkte 2 : Gibt es eine Möglichkeit, geordnete Effekte in ein verpacktes logistisches Regressionsmodell einzubeziehen (z. B. die Reihenfolge, in der die Prädiktorvariablen, in diesem Fall Werbung, angezeigt wurden - dies betrifft jedoch zweitens die Hauptfrage).

user3682157
quelle
Nicht genug Repräsentanten, um Kommentare abzugeben, daher wird dies als Ergänzung zu den bisher vorgeschlagenen hinzugefügt. Mit können Sie das sklearn.ensemble.BaggingClassifiererreichen, was die Autoren getan haben. BaggingClassifier
Jason Wolosonovich

Antworten:

7

Bagging ist eine Ensemble-Methode, bei der Sie Modelle anhand unabhängiger Stichproben der Trainingsdaten trainieren und deren Vorhersagen kombinieren (Durchschnitt, Abstimmung, ...). Dies führt im Allgemeinen zu genaueren Vorhersagen als die einzelnen Modelle. Technisch gesehen bedeutet Absacken, dass die Proben mit Ersatz entnommen werden und dieselbe Größe wie der vollständige Datensatz haben. Der Begriff wird jedoch manchmal auch auf andere Stichprobenverfahren angewendet.

Bagged Logistic Regression bedeutet Bagging mit logistischer Regression für die einzelnen Modelle, aber Bagging im losen Sinne des Wortes. Sie kombinieren wirklich Unterabtastung (dh Abtastung ohne Ersatz) mit zufälligen Unterabschnitten (Abtastung der Spalten / Merkmale).

Im Zitat psist der Bruchteil der in jeder Stichprobe enthaltenen Zeilen / Elemente und pcder Bruchteil der Spalten / Merkmale. Sie verwenden lediglich eine statistische Terminologie, bei der Beobachtungen die Zeilen und Kovariaten die Spalten sind.

Dies entspricht in etwa dem, was sklearn.linear_model.RandomizedLogisticRegressionintern geschieht. Die Hauptunterschiede bestehen darin, dass RandomizedLogisticRegression keine Spaltenabtastung unterstützt und auch kein Vorhersagemodell ist. Es wird nur zur Auswahl relevanter Funktionen verwendet.

Das Absacken bietet eigentlich nichts Besonderes für den Umgang mit Sequenzierungsinformationen. Sie können Funktionen erstellen, die die Sequenzierungsinformationen wie bei jeder anderen Methode des maschinellen Lernens codieren. Wenn dies jedoch die Hauptsache ist, an der Sie interessiert sind, sollten Sie sich mit speziellen Methoden befassen.

Daniel Mahler
quelle
1
sklearn.linear_model.RandomizedLogisticRegressionwird in Version 0.21
Jan Kukacka