Die Kreuzvalidierungsstatistik (CV) und die generalisierte Kreuzvalidierungsstatistik (GCV)

Ich habe möglicherweise widersprüchliche Definitionen für die Kreuzvalidierungsstatistik (CV) und die generalisierte Kreuzvalidierungsstatistik (GCV) gefunden, die mit einem linearen Modell (mit einem normalen homoskedastischen Fehlervektor ). $Y = X\boldsymbol\beta + \boldsymbol\varepsilon$ $\boldsymbol\varepsilon$

Einerseits definieren Golub, Heath & Wahba die GCV-Schätzung als (S. 216). $\hat{\lambda}$

der durch gegebene Minimierer von wobei $V\left(\lambda\right)$
$V (λ) = \frac{\frac{1}{n} {‖ (I - A (λ)) y ‖}^{2}}{{(\frac{1}{n} t r (I - A (λ)))}^{2}}$ $V\left(\lambda\right) = \frac{\frac{1}{n} \left\|\left(I - A\left(\lambda\right)\right)y\right\|^2}{\left(\frac{1}{n} \mathrm{tr}\left(I - A\left(\lambda\right)\right)\right)^2}$ $A\left(\lambda\right) = X\left(X^T X + n\lambda I\right)^{-1} X^T$

Auf der anderen Seite definiert Efron dasselbe Konzept wie $V\left(0\right)$ (S. 24), schreibt jedoch die Einführung dieses Konzepts Craven & Wahba zu, dessen Definition (S. 377) im Wesentlichen identisch ist wie die oben erwähnte Definition von Golub, Heath & Wahba.

Bedeutet dies, dass $0$ minimiert ? $V\left(\lambda\right)$

In ähnlicher Weise definieren Golub, Heath & Wahba die CV-Schätzung von $\lambda$ (S. 217) als Minimierer von

P (λ) = \frac{1}{n} \sum_{k = 1}^{n} {({[X β^{(k)} (λ)]}_{k} - y_{k})}^{2}

$P\left(\lambda\right) = \frac{1}{n}\sum_{k=1}^n \left(\left[X \beta^{(k)}\left(\lambda\right)\right]_k - y_k\right)^2$

Dabei ist $\beta^{\left(k\right)}\left(\lambda\right)$ die Schätzung

\hat{β} (λ) = {(X^{T} X + n λ I)}^{- 1} X^{T} y

$\hat{\beta}\left(\lambda\right) = \left(X^T X + n \lambda I\right)^{-1} X^T y$

von $\beta$ mit dem $k$ ten Datenpunkt $y_i$ weggelassen.

Die Autoren führen die Einführung der CV-Schätzung (auch PRESS-Schätzung genannt) auf Allen zurück ("Allen's PRESS", ebenda). In Allens Aufsatz wird die PRESS-Schätzung jedoch als ) definiert (S. 126). $n P\left(0\right)$ (in Efrons Artikel wird es als $P\left(0\right)$ (S. 24)).

Bedeutet dies wiederum, dass $0$ minimiert ? $P\left(\lambda\right)$

Allen, David M. Die Beziehung zwischen Variablenauswahl und Datendokumentation und eine Methode zur Vorhersage. Technometrics. 16, No. 1 (Februar 1974), S. 125-127
Craven, Peter und Wahba, Grace. Glätten von verrauschten Daten mit Spline-Funktionen. Numerische Mathematik 31 (1979), S. 377-403
Efron, Bradley. Wie voreingenommen ist die scheinbare Fehlerrate einer logistischen Regression? Technischer Bericht Nr. 232. Institut für Statistik, Stanford University (April 1985)
Golub, Gene H., Heath und Grace Wahba. Verallgemeinerte Kreuzvalidierung als Methode zur Auswahl eines guten Firstparameters. Technometrics. 21, No. 2 (Mai 1979), S. 215-223

cross-validation Evan Aad
quelle

Haben Sie vergessen zu erwähnen, dass dies mit einer Gratregression und nicht zuletzt Quadraten ausgestattet sein wird? Ich war total verwirrt darüber, was war, bis ich die Papiertitel am unteren Rand sah

λ

$\lambda$

shadowtalker

Entfernen Sie Generalized Cross Validation im Titel und fügen Sie Ridge Regression im Titel hinzu. Dies ist, was GridSearchCV () standardmäßig für RidgeCV () verwendet:

HoofarLotusX

Antworten:

Ich glaube, die Kommentare deuten auf die Antwort hin, sagen es aber nicht direkt. Also werde ich stumpf sein.

Die hier angegebene V-Formel ist spezifisch für die lineare Gratregression. Sie sagen nicht, dass es dasselbe ist wie PRESS, sie sagen, dass es eine rotationsinvariante Version von PRESS ist. Der "rotationsinvariante" Teil macht dies verallgemeinernd.

Efrons Artikel handelt von logistischen Regressionen, die auf diesen Kontext zugeschnitten sind. Wenn Sie die mathematische Übersetzung zwischen den beiden Kontexten sehen möchten, lesen Sie am besten Elements of Statistical Learning, 2ed von Hastie, Tibshirani und Freedman. Sie bieten dieses Buch kostenlos online an: https://web.stanford.edu/~hastie/Papers/ESLII.pdf . Eine weitere hilfreiche Lektüre zu GCV ist Generalized Additive Models von Simon Wood. Seine Behandlung integriert GCV im Allgemeinen mit Anwendungen in der Regression und in der logistischen Regression.

Wenn Sie sich das ESL-Buch auf Seite 244 ansehen, sehen Sie im Grunde die gleiche Symbologie. Sie beziehen sich auf das große Matrixprodukt, das Sie als Smoother-Matrix haben (ich würde sagen, es ist eine Hat-Matrix oder eine Near-Cousine). Sie beschreiben den Smoother als die Zuordnung von zu $S$ $y$ $\hat{y}$

\hat{y} = S y

$\hat{y}=S y$

$S$ kann verwendet werden, um einen CV-Wert wegzulassen, einen für jede Datenzeile. Bei linearen Modellen spielt die Matrix in der Regressionsdiagnostik die Rolle der Hat-Matrix. Sie behaupten jedoch, es sei möglicherweise rechenintensiv oder unnötig, dies herauszufinden, und der GCV-Ansatz ist eine etwas allgemeinere Version derselben Idee. $S$

Sie bieten eine Formel zur Approximation von GCV an:

G C V (\hat{f}) = \frac{1}{N} \sum_{i = 1}^{N} {[\frac{y_{i} - \hat{f} (x_{i})}{1 - t r a c e (S) / N}]}^{2}

$GCV(\hat{f})=\frac{1}{N}\sum_{i=1}^{N}\left[\frac{y_i - \hat{f}(x_i)}{1-trace(S)/N}\right]^2$

Dies ist im Verhalten dem AIC in vielen Modellen ziemlich ähnlich. Der ist die effektive Anzahl von Parametern. $trace{S}$

Das Stück , das Sie angeben , ist generell eine Spur von . Soweit ich verstehen kann, handelt es sich bei der abstrakten GCV um eine ungefähre Version der Nicht-Kreuzvalidierung, aber in einigen Fällen (ich glaube Kammregression) ist sie genau. Das ist ein Hauptpunkt in der Golub-Zeitung. $n\lambda$ $S$

Viel Glück, schreib zurück, wenn du mehr lernst.

pauljohn32
quelle

Vielen Dank. Ich habe meine Frage vor über 5 Jahren gepostet und seitdem habe ich den größten Teil dieses Materials vergessen. Daher kann ich Ihre Antwort nicht beurteilen, um festzustellen, ob es gut (was es zu sein scheint) oder schlecht ist, und aus diesem Grund Ich kann es auch nicht akzeptieren. Vielen Dank für die Veröffentlichung. Hoffentlich wird es für andere nützlich sein, die auf diese Seite stoßen könnten.

Evan Aad