Ich versuche, einen akademischen Artikel zu verstehen, den ich über die logistische Regression für Marketing-Zuschreibungen lese - http://www.turn.com.akadns.net/sites/default/files/whitepapers/TURN_Tech_WP_Data-driven_Multi-touch_Attribution_Models.pdf
Insbesondere dieser Absatz:
Schritt 1. Für einen bestimmten Datensatz einen Anteil (ps) aller Stichprobenbeobachtungen und einen Anteil (pc) aller Kovariaten abtasten. Passen Sie ein logistisches Regressionsmodell an die abgetasteten Kovariaten und die abgetasteten Daten an. Notieren Sie die geschätzten Koeffizienten - wir empfehlen, ps und pc so zu wählen, dass Werte um 0,5 angenommen werden, wenn sowohl die Variabilität als auch die Genauigkeit von Bedeutung sind
Kann jemand bitte erklären, was dies in (hoffentlich) einfachem Englisch bedeutet? Nach meinem Verständnis besteht die Idee darin, die logistische Regression für 0,5 zufällige Teilmengen der Stichprobendaten fortzusetzen und dann alle logarithmischen ungeraden Koeffizienten zu mitteln, die einen Auswahlschwellenwert von 0,5 erfüllen.
Völlig optionale Bonuspunkte 1 : Nebenbei bemerkt, ähnelt diese Implementierung der Idee einer randomisierten logistischen Regression in Scikit Learn für Python? Wenn nicht, was ist der Unterschied? http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RandomizedLogisticRegression.html
Vollständig optionale Bonuspunkte 2 : Gibt es eine Möglichkeit, geordnete Effekte in ein verpacktes logistisches Regressionsmodell einzubeziehen (z. B. die Reihenfolge, in der die Prädiktorvariablen, in diesem Fall Werbung, angezeigt wurden - dies betrifft jedoch zweitens die Hauptfrage).
quelle
sklearn.ensemble.BaggingClassifier
erreichen, was die Autoren getan haben. BaggingClassifierAntworten:
Bagging ist eine Ensemble-Methode, bei der Sie Modelle anhand unabhängiger Stichproben der Trainingsdaten trainieren und deren Vorhersagen kombinieren (Durchschnitt, Abstimmung, ...). Dies führt im Allgemeinen zu genaueren Vorhersagen als die einzelnen Modelle. Technisch gesehen bedeutet Absacken, dass die Proben mit Ersatz entnommen werden und dieselbe Größe wie der vollständige Datensatz haben. Der Begriff wird jedoch manchmal auch auf andere Stichprobenverfahren angewendet.
Bagged Logistic Regression bedeutet Bagging mit logistischer Regression für die einzelnen Modelle, aber Bagging im losen Sinne des Wortes. Sie kombinieren wirklich Unterabtastung (dh Abtastung ohne Ersatz) mit zufälligen Unterabschnitten (Abtastung der Spalten / Merkmale).
Im Zitat
ps
ist der Bruchteil der in jeder Stichprobe enthaltenen Zeilen / Elemente undpc
der Bruchteil der Spalten / Merkmale. Sie verwenden lediglich eine statistische Terminologie, bei der Beobachtungen die Zeilen und Kovariaten die Spalten sind.Dies entspricht in etwa dem, was
sklearn.linear_model.RandomizedLogisticRegression
intern geschieht. Die Hauptunterschiede bestehen darin, dass RandomizedLogisticRegression keine Spaltenabtastung unterstützt und auch kein Vorhersagemodell ist. Es wird nur zur Auswahl relevanter Funktionen verwendet.Das Absacken bietet eigentlich nichts Besonderes für den Umgang mit Sequenzierungsinformationen. Sie können Funktionen erstellen, die die Sequenzierungsinformationen wie bei jeder anderen Methode des maschinellen Lernens codieren. Wenn dies jedoch die Hauptsache ist, an der Sie interessiert sind, sollten Sie sich mit speziellen Methoden befassen.
quelle
sklearn.linear_model.RandomizedLogisticRegression
wird in Version 0.21