Wie kann die schrittweise logistische Regression überprüft werden?

7

Ich habe ein konzeptionelles Problem mit dem Verständnis, wie eine schrittweise logistische Regression validiert werden kann. Jedes Mal, wenn der Trainingssatz geteilt wird, ist es sehr wahrscheinlich, dass unterschiedliche Merkmale basierend auf den Kriterien für Penter und Premove ausgewählt werden. Sollte ich jedes Mal eine Kreuzvalidierung mit einem anderen gewählten Modell durchführen oder sollte ich eine Grundwahrheit finden und mit der Kreuzvalidierung fortfahren? Ich denke, letzteres klingt vernünftiger, aber ich befürchte, dass ich irgendwo die Testblindheit gefährde. Hilfe wird geschätzt.

Theoden
quelle
Eine schrittweise Regression ist oft kein nützlicher Ansatz, da die Ergebnisse stark von der jeweiligen Stichprobe abhängen können. Warum müssen Sie die Anzahl der Variablen begrenzen und wofür verwenden Sie die Ergebnisse Ihrer Regressionsanalyse?
EdM
Das Ziel ist eine hohe und niedrige Klassifizierung. Der Grund, warum ich Logistik verwende, ist, dass einige der Funktionen stark korrelieren. Ich möchte nicht zu stark regulieren und ich möchte mich auch nicht mit Singularitäten befassen müssen. Logistik hilft dabei.
Theoden
4
Ich denke, Ihre Ziele würden durch die Verwendung eines regulierten Modells wie der elastischen Netzregression und der Kreuzvalidierung zur Auswahl des Schrumpfungsbetrags mit der besten Leistung außerhalb der Stichprobe gut erreicht. Es erreicht eine variable Auswahl und Korrektur der Korrelation ohne die Nachteile einer schrittweisen Regression.
Sycorax sagt Reinstate Monica

Antworten:

12

Die Elemente des statistischen Lernens geben die Antwort ganz klar wieder (zweite Ausgabe, S. 246):

Im Allgemeinen muss bei einem mehrstufigen Modellierungsverfahren die Kreuzvalidierung auf die gesamte Sequenz von Modellierungsschritten angewendet werden. Insbesondere müssen Proben „weggelassen“ werden, bevor Auswahl- oder Filterungsschritte angewendet werden. Es gibt eine Einschränkung: Erste unbeaufsichtigte Screening-Schritte können durchgeführt werden, bevor die Proben weggelassen werden.

Bei dieser Art der Analyse besteht das Problem darin, dass die aus Ihrer Stichprobe abgeleitete "Grundwahrheit" möglicherweise nicht die "Grundwahrheit" in der Bevölkerung darstellt. Eine Kreuzvalidierung kann bei der Verallgemeinerung der Ergebnisse auf die Grundgesamtheit hilfreich sein, jedoch nur, wenn alle Schritte des Modellierungsverfahrens für jede Validierungsfalte wiederholt werden.

Wie sowohl ich als auch @ user777 empfehlen, sind Sie wahrscheinlich besser dran, wenn Sie eine andere Methode als die schrittweise Auswahl verwenden, um mit Ihren korrelierten Prädiktorvariablen umzugehen. Bei stark korrelierten Prädiktoren führt die schrittweise Auswahl mit ziemlicher Sicherheit zu einer sehr unterschiedlichen Auswahl von Prädiktoren von Falte zu Falte. Regularisierungsmethoden gehen viel besser mit korrelierten Prädiktoren um. Die Ridge-Regression ist beispielsweise im Wesentlichen eine Hauptkomponenten-Regression mit Gewichten auf den Komponenten, so dass stark korrelierte Variablen dazu neigen, in denselben Komponenten zusammen aufzutauchen.

EdM
quelle
Gut. Vielen Dank an beide. Ich werde den Abschnitt lesen und sehen, wie ich Ihre Empfehlung berücksichtigen kann.
Theoden
Ich würde eine Ensemble-Variablenauswahlmethode namens Bootstrap-Aggregation oder Bagging empfehlen, um Ihre Variablen auszuwählen und einige der Probleme zu vermeiden, auf die andere hingewiesen haben. en.wikipedia.org/wiki/Bootstrap_aggregating .
StatsStudent
9

Die 1970er Jahre riefen an. Es will seine antiquierte, baufällige schrittweise Regression zurück.

Die 1990er Jahre riefen an. Sie sollen die heuristischen Ad-hoc-Methoden anwenden, einschließlich LASSO !!!!, die in den Elementen des statistischen Lernens empfohlen werden, wie in der Antwort von EdM angegeben.

Das neue Jahrtausend heißt. Es sagt Ihnen, dass Sie diesen ganzen Ad-hoc-Unsinn vergessen und einen systematischen Optimierungsansatz für gemischte Ganzzahlen anwenden müssen, um die besten Teilmengen auszuwählen. Das ist der richtige Weg, Baby. "Beste Auswahl von Teilmengen über ein modernes Optimierungsobjektiv", Bertsimas, King, Mazumder . Es wird die Elemente des statistischen Lernens Empfehlungen aus dem Wasser blasen. Natürlich gibt es möglicherweise noch keine R-Pakete in Dosen, die sofort einsatzbereit sind.

Endgültige Version des Artikels, der später in The Annals of Statistics (Open Access) veröffentlicht wurde .

Mark L. Stone
quelle
2
Die Elemente des statistischen Lernens stellen die Regression der besten Teilmenge als erstes Beispiel für eine Technik zur Variablenauswahl dar (S. 57). In diesem speziellen Fall befürchte ich, dass jede Technik zur Variablenauswahl aufgrund der Korrelationen zwischen den Prädiktorvariablen zu Problemen führen könnte. Bei der Kreuzvalidierung oder beim Bootstrapping führt die Auswahl der besten Teilmenge wahrscheinlich auch zu einer Vielzahl von besten Teilmengen, dem anfänglichen Problem, das vom OP festgestellt wurde. Ich habe daher in meiner Antwort bewusst eher die Gratregression als LASSO als Beispiel gewählt.
EdM
1
Mein Punkt ist, dass alle diesbezüglichen Empfehlungen in Die Elemente des statistischen Lernens ad hoc sind. Es ist Zeit, weiterzumachen und bessere Ansätze zu verwenden, die die moderne Optimierung erleichtert. Hast du die Zeitung gelesen, die ich verlinkt habe? Ridge Regression war zu seiner Zeit schön. Es ist Zeit weiterzugehen.
Mark L. Stone
5
Das Papier macht einen überzeugenden Fall, dass die Optimierung mit gemischten Ganzzahlen eine überlegene Methode ist, wenn Sie die beste k- Funktionsanpassung (von insgesamt p Merkmalen) für eine Antwort finden möchten . Was zumindest aus diesem Artikel nicht so klar hervorgeht, ist, ob die Sparsamkeit des ausgewählten Prädiktorsatzes immer das beste Ziel ist, insbesondere für Vorhersagemodelle, die aus Daten mit mehreren korrelierten Prädiktoren im Fall (was ich im OP genommen habe) sein). Dieser Ansatz funktioniert möglicherweise besser als LASSO für die Variablenauswahl. Gibt es jedoch eine Dokumentation, dass er für die Vorhersage besser funktioniert als die Ridge-Regression? n>p
EdM
1
Das bleibt als Übung für den Leser :)
Mark L. Stone
1
Lies einfach die Zeitung. Ursprünglich entschied ich mich für die schrittweise Vorwärtsauswahl, um das Modell zu trainieren, da die Daten und weitere Variablen in Zeitschritten erfasst werden und es mir intuitiv erschien, das Modell auf diese Weise zu verfeinern. Nachdem alle Daten erfasst wurden, n >> p. Nachdem ich die Zeitung gelesen habe, kann ich sehen, wie die Verwendung von MIO und Rückrufen eine großartige Lösung für das Training im laufenden Betrieb ist.
Danny Lieberman