Ich möchte diese Frage in zwei Teile teilen. Beide befassen sich mit einem verallgemeinerten linearen Modell, aber das erste befasst sich mit der Modellauswahl und das andere mit der Regularisierung.
Hintergrund: Ich benutze GLMs (lineare, logistische, Gamma-Regressions-) Modelle sowohl zur Vorhersage als auch zur Beschreibung. Wenn ich mich auf die " normalen Dinge beziehe, die man mit einer Regression macht ", meine ich hauptsächlich die Beschreibung mit (i) Konfidenzintervallen um Koeffizienten, (ii) Konfidenzintervallen um Vorhersagen und (iii) Hypothesentests bezüglich linearer Kombinationen der Koeffizienten wie " gibt es einen Unterschied zwischen Behandlung A und Behandlung B? "
Verlieren Sie legitimerweise die Fähigkeit, diese Dinge unter Verwendung der normalen Theorie unter jeder der folgenden Bedingungen zu tun? Und wenn ja, sind diese Dinge wirklich nur für Modelle geeignet, die für die reine Vorhersage verwendet werden?
I. Wenn ein GLM über einen Modellauswahlprozess angepasst wurde (der Vollständigkeit halber sei es ein schrittweises Verfahren basierend auf AIC).
II. Wenn ein GLM über eine Regularisierungsmethode angepasst wurde (z. B. mit glmnet in R).
Meiner Meinung nach lautet die Antwort für I. technisch gesehen, dass Sie einen Bootstrap für die " normalen Dinge, die man mit einer Regression macht " verwenden sollten, aber niemand hält sich wirklich daran.
Füge hinzu:
Nachdem ich ein paar Antworten erhalten und an anderer Stelle gelesen habe, ist hier meine Meinung dazu (für alle anderen, die davon profitieren und Korrekturen erhalten).
I.
A) RE: Fehler generalisieren. Um die Fehlerraten für neue Daten zu verallgemeinern, kann die Kreuzvalidierung funktionieren, wenn keine Wartezeit festgelegt ist. Sie müssen den Vorgang jedoch für jede Falte vollständig wiederholen - unter Verwendung von verschachtelten Schleifen - jedes Mal unabhängig gemacht. Diese Idee sollte für jeden Modellierungsaufwand gelten (einschließlich der bestraften Methoden).
B) RE: Hypothesentest und Konfidenzintervalle von GLM.Wenn Sie die Modellauswahl (Featureauswahl, Parametereinstellung, Variablenauswahl) für ein verallgemeinertes lineares Modell verwenden und ein Hold-Out-Set vorhanden ist, ist es zulässig, das Modell auf einer Partition zu trainieren und dann das Modell auf die verbleibenden Daten oder den gesamten Datensatz anzupassen Verwenden Sie dieses Modell / diese Daten, um Hypothesentests usw. durchzuführen. Wenn kein Hold-Out-Set vorhanden ist, kann ein Bootstrap verwendet werden, solange der gesamte Vorgang für jedes Bootstrap-Beispiel wiederholt wird. Dies schränkt die Hypothesentests ein, die durchgeführt werden können, da zum Beispiel möglicherweise nicht immer eine Variable ausgewählt wird.
C) RE: Keine Vorhersage für zukünftige DatensätzePassen Sie dann ein zielgerichtetes Modell an, das von der Theorie und einigen Hypothesentests geleitet wird, und überlegen Sie sogar, alle Variablen im Modell zu belassen (signifikant oder nicht) (nach Hosmer und Lemeshow). Dies ist eine klassische Regressionsmodellierung mit kleinen variablen Mengen, die dann die Verwendung von CIs und Hypothesentests ermöglicht.
D) RE: Bestrafte Regression. Keine Ratschläge, vielleicht ist dies nur zur Vorhersage geeignet (oder als eine Art Merkmalsauswahl, um dann auf einen anderen Datensatz wie in B oben angewendet zu werden), da die eingeführte Verzerrung CIs und Hypothesentests unklug macht - selbst mit dem Bootstrap.
Antworten:
Sie könnten David Freedmans Artikel " Ein Hinweis zum Screening von Regressionsgleichungen " (ungated) lesen.
Unter Verwendung vollständig unkorrelierter Daten in einer Simulation zeigt er, dass ein Standard-Screeningverfahren bei vielen Prädiktoren im Verhältnis zur Anzahl der Beobachtungen eine endgültige Regression erzeugt, die viele (mehr als zufällig) signifikante Prädiktoren und ein hoch signifikantes F enthält Statistik. Das endgültige Modell legt nahe, dass es das Ergebnis effektiv vorhersagt, aber dieser Erfolg ist falsch. Er illustriert diese Ergebnisse auch mit asymptotischen Berechnungen. Lösungsvorschläge umfassen das Screening einer Stichprobe und die Bewertung des Modells anhand des vollständigen Datensatzes sowie die Verwendung von mindestens einer Größenordnung mehr Beobachtungen als Prädiktoren.
quelle
Zu 1) Ja, Sie verlieren dies. Siehe z. B. Harrell Regression Modeling Strategies, ein von Wiley veröffentlichtes Buch oder einen Beitrag von David Cassell mit dem Titel "Stopping Stepwise", verfügbar unter z. B. www.nesug.org/proceedings/nesug07/sa/sa07.pdf
quelle