Schätzung der quadratischen und statistischen Signifikanz anhand des bestraften Regressionsmodells

Ich benutze das R-Paket bestraft , um geschrumpfte Koeffizientenschätzungen für einen Datensatz zu erhalten, bei dem ich viele Prädiktoren und wenig Wissen darüber habe, welche wichtig sind. Gibt es, nachdem ich die Abstimmungsparameter L1 und L2 ausgewählt und mit meinen Koeffizienten zufrieden bin, eine statistisch fundierte Möglichkeit, die Modellanpassung mit so etwas wie R-Quadrat zusammenzufassen?

Außerdem bin ich daran interessiert, die Gesamtbedeutung des Modells zu testen (dh ist R² = 0 oder ist alles = 0).

Ich habe die Antworten auf eine ähnliche Frage gelesen, die hier gestellt wurde , aber meine Frage wurde nicht ganz beantwortet. Es gibt ein exzellentes Tutorial zum R-Paket, das ich hier verwende , und der Autor Jelle Goeman hatte am Ende des Tutorials den folgenden Hinweis zu Konfidenzintervallen von bestraften Regressionsmodellen:

Es ist eine sehr natürliche Frage, nach Standardfehlern von Regressionskoeffizienten oder anderen geschätzten Größen zu fragen. Grundsätzlich können solche Standardfehler einfach berechnet werden, z. B. mit dem Bootstrap.

Dieses Paket bietet sie jedoch absichtlich nicht an. Der Grund dafür ist, dass Standardfehler für stark verzerrte Schätzungen, wie sie sich aus strafbaren Schätzmethoden ergeben, nicht sehr aussagekräftig sind. Die bestrafte Schätzung ist ein Verfahren, das die Varianz von Schätzern durch Einführung einer erheblichen Verzerrung verringert. Die Vorspannung jedes Schätzers ist daher eine Hauptkomponente seines mittleren quadratischen Fehlers, während seine Varianz möglicherweise nur einen kleinen Teil dazu beiträgt.

Leider ist es in den meisten Anwendungen der bestraften Regression nicht möglich, eine ausreichend genaue Schätzung der Verzerrung zu erhalten. Bootstrap-basierte Berechnungen können nur eine Einschätzung der Varianz der Schätzungen geben. Zuverlässige Schätzungen des Bias sind nur verfügbar, wenn zuverlässige unverzerrte Schätzungen verfügbar sind, was in Situationen, in denen bestrafte Schätzungen verwendet werden, normalerweise nicht der Fall ist.

Das Melden eines Standardfehlers einer bestraften Schätzung erzählt daher nur einen Teil der Geschichte. Es kann einen irrtümlichen Eindruck von großer Präzision geben, wobei die durch die Vorspannung verursachte Ungenauigkeit völlig ignoriert wird. Es ist sicherlich ein Fehler, Vertrauensaussagen zu machen, die nur auf einer Einschätzung der Varianz der Schätzungen beruhen, wie dies bei Bootstrap-basierten Vertrauensintervallen der Fall ist.

regression lasso stepwise-regression ridge-regression Stephen Turner
quelle

Natürlich kann ich eine Schätzung des R-Quadrats schnell erhalten, indem ich ein lineares Modell anpasse, das die angepassten Werte aus den ursprünglichen Daten vorhersagt, und das R-Quadrat daraus entnehme. Dies scheint jedoch eine massiv überzogene und voreingenommene Schätzung von R-Quadrat zu sein.

Stephen Turner

Ich füge dies als Kommentar hinzu, da ich in einem Post in der Nähe eine "ähnliche" Frage stelle (damit ich nicht weiß, ob ich eine Antwort geben kann ), aber für Ihre Frage scheint es so, als könnten Sie das R-Quadrat berechnen, ohne eine zu benötigen Verteilungsannahmen (sie werden jedoch in gewöhnlicher Weise für Hypothesentests benötigt). Können Sie ein Hold-Out-Set nicht verwenden, um das R-Quadrat zu berechnen, oder eine k-fache Validierung, wenn Sie nicht über genügend Daten verfügen (bei jeder Falte führen Sie Ihren vollständigen Strafprozess durch und mitteln Sie die R-Quadrate aus jeder der Faltungen, ohne dies zu tun) in der Armatur verwendet)?

B_Miner

@B_Miner,

fache Kreuzvalidierung liefert tendenziell ziemlich voreingenommene Schätzungen von

, da es im Allgemeinen nicht die wahre interessierende Menge schätzt. Viele (die meisten?) Ähnliche Verfahren haben das gleiche Problem.

k

$k$

R^{2}

$R^2$

Kardinal

@Stephen, ist

wirklich die Menge, an der Sie interessiert sind? Aufgrund der durch die Bestrafung hervorgerufenen Verzerrung ist es wahrscheinlich nicht wünschenswert, nur die erklärte Varianz zu betrachten, es sei denn, Sie haben bereits eine sehr gute Schätzung der Verzerrung. Die ganze Idee,

als Grundlage für die Schlussfolgerung zu verwenden, basiert auf der Unparteilichkeit der Schätzungen. Sogar große Lehrbücher zur Regression scheinen dies zu "vergessen". (Siehe zum Beispiel Seber und Lees etwas fehlerhafte Behandlung von

im Fall der multiplen Regression.)

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

Kardinal

R^{2}

$R^2$

Antworten:

Meine erste Reaktion auf Jelles Kommentare ist "Bias-Schmias". Sie müssen vorsichtig sein, was Sie mit "große Anzahl von Prädiktoren" meinen. Dies könnte "groß" sein in Bezug auf:

Die Anzahl der Datenpunkte ("big p small n")
Die Zeit, die Sie benötigen, um die Variablen zu untersuchen
Der Rechenaufwand für die Invertierung einer Riesenmatrix

Meine Reaktion basierte auf "groß" in Bezug auf Punkt 1. Dies liegt daran, dass es sich in diesem Fall in der Regel lohnt, die Abweichung für die Verringerung der Varianz, die Sie erhalten, auszugleichen. Vorspannung ist nur "auf lange Sicht" wichtig. Wenn Sie also eine kleine Stichprobe haben, wen interessiert dann "Langfristig"?

$R^2$ $R^2$ Ihnen sagt: Sie haben viele Variablen). Ich würde etwas mehr wie einen "Vorhersagefehler" mittels Kreuzvalidierung berechnen.

Idealerweise sollte dieser "Vorhersagefehler" auf dem Kontext Ihrer Modellierungssituation basieren. Grundsätzlich möchten Sie die Frage "Wie gut reproduziert mein Modell die Daten?" Beantworten. Der Kontext Ihrer Situation sollte Ihnen sagen können, was "wie gut" in der realen Welt bedeutet. Sie müssen dies dann in eine Art mathematische Gleichung übersetzen.

P R E S S = \sum_{ich = 1}^{N} ({Y.}_{ich} - {\hat{Y.}}_{ich, - ich})^{2}

$PRESS=\sum_{i=1}^{N} (Y_{i}-\hat{Y}_{i,-i})^2$

{\hat{Y}}_{i, - i}

$\hat{Y}_{i,-i}$

Y_{i}

$Y_{i}$

Y_{i}

$Y_i$

N

$N$

T

$T$

M

$M$

G = \frac{T}{M}

$G=\frac{T}{M}$

N_{g} = \frac{N \times M}{T}

$N_{g}=\frac{N\times M}{T}$

P R E S S = \sum_{G = 1}^{G} \sum_{ich = 1}^{N_{G}} ({Y.}_{ich G} - {\hat{Y.}}_{ich G, - G})^{2}

$PRESS=\sum_{g=1}^{G}\sum_{i=1}^{N_{g}} (Y_{ig}-\hat{Y}_{ig,-g})^2$

\frac{β_{L A S S O}}{β_{U N C O N S T R A I N E D}}

$\frac{\beta_{LASSO}}{\beta_{UNCONSTRAINED}}$

Wahrscheinlichkeitslogik
quelle

k

$k$

p > n

$p > n$

> 1

$> 1$

Das R-Paket hdm und das Stata-Paket lassopack unterstützen einen gemeinsamen Signifikanztest für das Lasso. Die Theorie sieht vor, dass die Anzahl der Prädiktoren im Verhältnis zur Anzahl der Beobachtungen groß ist. Die Theorie hinter dem Test und wie man ihn anwendet, wird in der hdm- Dokumentation kurz erklärt . Kurz gesagt, es basiert auf einem Rahmen für eine theoretisch motivierte Bestrafung (entwickelt von Belloni, Chernozhukov und Hansen et al.). Dieses Papier ist ein guter Ausgangspunkt, wenn Sie mehr über die zugrunde liegende Theorie erfahren möchten. Der einzige Nachteil ist, dass der Test nur für das Lasso und (Quadratwurzellasso) funktioniert. Nicht für andere bestrafte Regressionsmethoden.

Belloni, A., Chen, D., Chernozhukov, V. und Hansen, C. (2012), spärliche Modelle und Methoden für optimale Instrumente mit einer Anwendung auf bedeutende Gebiete. Econometrica, 80: 2369 & ndash; 2429.

aahr1
quelle

Bitte fügen Sie die vollständige Referenz des Papiers hinzu (ein Link kann sterben)

Antoine