Die Unterschiede zwischen randomisierter logistischer Regression und logistischer Plain-Vanilla-Regression

12

Ich würde gerne die Unterschiede zwischen Randomized Logistic Regression (RLR) und Plain Logistic Regression (LR) kennenlernen, daher lese ich eine Arbeit "Stability Selection" von Meinshausen, et al. ; Ich verstehe jedoch nicht, was RLR ist und was die Unterschiede zwischen RLR und LR sind.

Könnte jemand darauf hinweisen, was ich lesen sollte, um RLR zu verstehen? Oder gibt es zunächst ein einfaches Beispiel?

Hendra Bunyamin
quelle
1
RLR ist kein Standardbegriff. Bitte definieren Sie die Methode.
Frank Harrell
Danke @FrankHarrell ... Die Methode stammt aus einer Scikit-Lernbibliothek .
Hendra Bunyamin
Jetzt, wo es eine neue Website für den Austausch von Stapeln für maschinelles Lernen / Big Data gibt, ist diese Frage vielleicht drüben.
Placidia
4
@Placidia Das ist ein guter Vorschlag. Ihre eigene Antwort zeigt jedoch, warum diese Frage hierher gehört: Wir sind in der Lage, eine ausgewogene Perspektive bereitzustellen, die sowohl die statistischen als auch die ML-Aspekte der Frage genau charakterisiert und vergleicht. Obwohl es möglich ist , dass jemand auf der "Data Science" -Seite eine solche Antwort beisteuert, ist es meiner Erfahrung nach unwahrscheinlich, dass dies der Fall ist.
Whuber
3
Ich bin verblüfft darüber, dass es sich bei der neuen Website um Call Data Science handelt, bei der es mehr als die Hälfte um Statistiken geht, worum es auf dieser Website geht.
Frank Harrell

Antworten:

17

Vielleicht möchten Sie diese Referenz überprüfen . Sci-Kit Learn implementiert eine randomisierte logistische Regression und die Methode wird dort beschrieben.

Um Ihre Frage zu beantworten, unterscheiden sich die beiden Methoden stark in ihren Zielen. Bei der logistischen Regression geht es darum, ein Modell anzupassen, und bei RLR geht es darum, die Variablen zu finden, die in das Modell einfließen.

Die logistische Vanille-Regression ist ein verallgemeinertes lineares Modell. Für eine binäre Antwort nehmen wir an, dass die logarithmische Wahrscheinlichkeit der Antwort eine lineare Funktion einer Reihe von Prädiktoren ist. Die Koeffizienten der Prädiktoren werden unter Verwendung der maximalen Wahrscheinlichkeit geschätzt, und die Inferenz über die Parameter basiert dann auf den Eigenschaften großer Stichproben des Modells. Für die besten Ergebnisse wird normalerweise davon ausgegangen, dass das Modell recht einfach und gut verständlich ist. Wir wissen, welche unabhängigen Variablen die Reaktion beeinflussen. Wir wollen die Parameter des Modells schätzen.

In der Praxis wissen wir natürlich nicht immer, welche Variablen in das Modell einbezogen werden sollen. Dies gilt insbesondere für Situationen des maschinellen Lernens, in denen die Anzahl der potenziellen erklärenden Variablen sehr groß und ihre Werte gering sind.

Im Laufe der Jahre haben viele Menschen versucht, die Techniken der statistischen Modellanpassung zum Zweck der variablen Auswahl ("Merkmalauswahl") zu verwenden. Mit zunehmender Zuverlässigkeit:

  1. Passen Sie ein großes Modell an und lassen Sie Variablen mit nicht signifikanten Wald-Statistiken fallen. Produziert nicht immer das beste Modell.
  2. Schauen Sie sich alle möglichen Modelle an und wählen Sie die "besten" aus. Rechenintensiv und nicht robust.
  3. Passen Sie das große Modell mit einem L1-Strafbegriff (Lasso-Stil) an. Nutzlose Variablen werden in die Passung eingefügt. Besser, aber mit spärlichen Matrizen instabil.
  4. Randomisierungsmethode 3. Nehmen Sie zufällige Teilmengen, passen Sie jedem ein benachteiligtes Modell an und sortieren Sie die Ergebnisse. Variablen, die häufig vorkommen, werden ausgewählt. Wenn die Antwort binär ist, handelt es sich um eine randomisierte logistische Regression. Eine ähnliche Technik kann mit kontinuierlichen Daten und dem allgemeinen linearen Modell erstellt werden.
Placidia
quelle
1
+1 Es ist eine Freude, eine so gut artikulierte, lesbare und informative Übersicht über eine allgemeine Methodik zu sehen.
Whuber