GLM nach Modellauswahl oder Regularisierung

12

Ich möchte diese Frage in zwei Teile teilen. Beide befassen sich mit einem verallgemeinerten linearen Modell, aber das erste befasst sich mit der Modellauswahl und das andere mit der Regularisierung.

Hintergrund: Ich benutze GLMs (lineare, logistische, Gamma-Regressions-) Modelle sowohl zur Vorhersage als auch zur Beschreibung. Wenn ich mich auf die " normalen Dinge beziehe, die man mit einer Regression macht ", meine ich hauptsächlich die Beschreibung mit (i) Konfidenzintervallen um Koeffizienten, (ii) Konfidenzintervallen um Vorhersagen und (iii) Hypothesentests bezüglich linearer Kombinationen der Koeffizienten wie " gibt es einen Unterschied zwischen Behandlung A und Behandlung B? "

Verlieren Sie legitimerweise die Fähigkeit, diese Dinge unter Verwendung der normalen Theorie unter jeder der folgenden Bedingungen zu tun? Und wenn ja, sind diese Dinge wirklich nur für Modelle geeignet, die für die reine Vorhersage verwendet werden?

I. Wenn ein GLM über einen Modellauswahlprozess angepasst wurde (der Vollständigkeit halber sei es ein schrittweises Verfahren basierend auf AIC).

II. Wenn ein GLM über eine Regularisierungsmethode angepasst wurde (z. B. mit glmnet in R).

Meiner Meinung nach lautet die Antwort für I. technisch gesehen, dass Sie einen Bootstrap für die " normalen Dinge, die man mit einer Regression macht " verwenden sollten, aber niemand hält sich wirklich daran.

Füge hinzu:
Nachdem ich ein paar Antworten erhalten und an anderer Stelle gelesen habe, ist hier meine Meinung dazu (für alle anderen, die davon profitieren und Korrekturen erhalten).

I.
A) RE: Fehler generalisieren. Um die Fehlerraten für neue Daten zu verallgemeinern, kann die Kreuzvalidierung funktionieren, wenn keine Wartezeit festgelegt ist. Sie müssen den Vorgang jedoch für jede Falte vollständig wiederholen - unter Verwendung von verschachtelten Schleifen - jedes Mal unabhängig gemacht. Diese Idee sollte für jeden Modellierungsaufwand gelten (einschließlich der bestraften Methoden).

B) RE: Hypothesentest und Konfidenzintervalle von GLM.Wenn Sie die Modellauswahl (Featureauswahl, Parametereinstellung, Variablenauswahl) für ein verallgemeinertes lineares Modell verwenden und ein Hold-Out-Set vorhanden ist, ist es zulässig, das Modell auf einer Partition zu trainieren und dann das Modell auf die verbleibenden Daten oder den gesamten Datensatz anzupassen Verwenden Sie dieses Modell / diese Daten, um Hypothesentests usw. durchzuführen. Wenn kein Hold-Out-Set vorhanden ist, kann ein Bootstrap verwendet werden, solange der gesamte Vorgang für jedes Bootstrap-Beispiel wiederholt wird. Dies schränkt die Hypothesentests ein, die durchgeführt werden können, da zum Beispiel möglicherweise nicht immer eine Variable ausgewählt wird.

C) RE: Keine Vorhersage für zukünftige DatensätzePassen Sie dann ein zielgerichtetes Modell an, das von der Theorie und einigen Hypothesentests geleitet wird, und überlegen Sie sogar, alle Variablen im Modell zu belassen (signifikant oder nicht) (nach Hosmer und Lemeshow). Dies ist eine klassische Regressionsmodellierung mit kleinen variablen Mengen, die dann die Verwendung von CIs und Hypothesentests ermöglicht.

D) RE: Bestrafte Regression. Keine Ratschläge, vielleicht ist dies nur zur Vorhersage geeignet (oder als eine Art Merkmalsauswahl, um dann auf einen anderen Datensatz wie in B oben angewendet zu werden), da die eingeführte Verzerrung CIs und Hypothesentests unklug macht - selbst mit dem Bootstrap.

B_Miner
quelle
1
Menschen tun dies manchmal - unwissentlich (dh sie missbrauchen Statistiken, weil sie das gewünschte Ergebnis erzielen) und wissentlich (sie haben bootstrap gemacht und es hat das Ergebnis nicht wesentlich beeinflusst). Ihr Punkt ist gültig, und Professor Harrell weist im Vorwort seines Buches darauf hin, dass Bootstrap von Vorteil ist.
Suncoolsu
Hier ist so etwas wie "Ja" für Ihren Punkt (II): arxiv.org/abs/1001.0188
Alex

Antworten:

5

Sie könnten David Freedmans Artikel " Ein Hinweis zum Screening von Regressionsgleichungen " (ungated) lesen.

Unter Verwendung vollständig unkorrelierter Daten in einer Simulation zeigt er, dass ein Standard-Screeningverfahren bei vielen Prädiktoren im Verhältnis zur Anzahl der Beobachtungen eine endgültige Regression erzeugt, die viele (mehr als zufällig) signifikante Prädiktoren und ein hoch signifikantes F enthält Statistik. Das endgültige Modell legt nahe, dass es das Ergebnis effektiv vorhersagt, aber dieser Erfolg ist falsch. Er illustriert diese Ergebnisse auch mit asymptotischen Berechnungen. Lösungsvorschläge umfassen das Screening einer Stichprobe und die Bewertung des Modells anhand des vollständigen Datensatzes sowie die Verwendung von mindestens einer Größenordnung mehr Beobachtungen als Prädiktoren.

Charlie
quelle
Hinweis: Damit der Bootstrap eine effektive Lösung darstellt, müssen Sie den gesamten Vorgang starten, bevor ein Screening durchgeführt wird, das Bootstrap-Beispiel überprüfen und dann die Koeffizienten berechnen. Aber jetzt haben Sie in jeder Regression unterschiedliche Mengen an Prädiktoren und es ist nicht mehr klar, wie die Verteilung für eine von ihnen berechnet werden soll. Bootstrapping-Konfidenzintervalle für vorhergesagte Werte des Ergebnisses können jedoch effektiv sein.
Charlie
@charlie: [Lies ich dir richtig, dass du nur mit I. (Modellauswahl) sprichst, nicht mit II. (bestraft)] Sagen Sie, dass es für Vorhersageintervalle gültig ist, die Modellauswahl zu verwenden und dann die Vorhersagen von diesem Modell zu booten, aber für alles andere müssen Sie den gesamten Prozess booten?
B_Miner
@charlie In Bezug auf die vorgeschlagene Lösung des Screenings an einer Probe. Wäre dies in etwa so, als würden Sie die Daten partitionieren, (ab) einen Satz verwenden (Modellauswahl usw.) und dann dieses Modell auf die verbleibenden Daten anwenden - und auf diese Daten mit dem Modell, das unter Verwendung der traditionellen Theorie für Hypothesentests, CIs, angepasst wurde etc?
B_Miner
Ich habe nur an die Modellauswahl gedacht, aber das liegt hauptsächlich daran, dass ich nicht so viel über bestrafte Regression weiß. Ich würde sagen, dass Sie den gesamten Prozess booten müssen, um Rückschlüsse auf Vorhersagen aus dem Modell zu ziehen. Das ganze Problem ist, dass Sie in jeder Stichprobe wahrscheinlich falsche Korrelationen finden, die sich vergrößern, wenn Sie einige Variablen einbeziehen und andere weglassen. Die einzige Möglichkeit, dies zu umgehen, besteht darin, sich mehrere Beispiele anzusehen - dh Bootstrap. Natürlich macht das niemand.
Charlie
Richtig, Sie verwenden eine Partition Ihres Beispiels, um Ihr Modell mithilfe von Modellauswahlverfahren zu erstellen, und ziehen dann Ihre Schlussfolgerungen entweder für die andere Partition oder für das vollständige Beispiel.
Charlie
2

Zu 1) Ja, Sie verlieren dies. Siehe z. B. Harrell Regression Modeling Strategies, ein von Wiley veröffentlichtes Buch oder einen Beitrag von David Cassell mit dem Titel "Stopping Stepwise", verfügbar unter z. B. www.nesug.org/proceedings/nesug07/sa/sa07.pdf

Peter Flom - Wiedereinsetzung von Monica
quelle
Ich habe dieses Papier gesehen - sehr interessant. Zwei Fragen. 1) Nehmen wir die logistische Regression. Es hört sich so an, als ob die einzige Möglichkeit, CI- oder Hypothesentests durchzuführen, darin besteht, ein Modell im Stil von Hosmer und Lemeshow zu erstellen (wobei Datensätze mit großem p ausgeschlossen sind). Sie müssen das Modell also nur noch für Punktschätzungen verwenden? 2) In Ihrem Beitrag wird unter anderem das Lasso erörtert. Sind Sie der Meinung, dass dies ein späteres Testen von Hypothesen ermöglicht oder "einfach" als bessere Option für die Modellauswahl angegeben wird?
B_Miner