Ich habe möglicherweise widersprüchliche Definitionen für die Kreuzvalidierungsstatistik (CV) und die generalisierte Kreuzvalidierungsstatistik (GCV) gefunden, die mit einem linearen Modell (mit einem normalen homoskedastischen Fehlervektor ).& egr;
Einerseits definieren Golub, Heath & Wahba die GCV-Schätzung als (S. 216).
der durch gegebene Minimierer von wobei A \ left (\ lambda \ right) = X \ left (X ^ TX + n \ lambda I \ right) ^ {- 1} X ^ TA(λ)=X(XTX+nλI)-1XT
Auf der anderen Seite definiert Efron dasselbe Konzept wie (S. 24), schreibt jedoch die Einführung dieses Konzepts Craven & Wahba zu, dessen Definition (S. 377) im Wesentlichen identisch ist wie die oben erwähnte Definition von Golub, Heath & Wahba.
Bedeutet dies, dass 0 V \ left (\ lambda \ right) minimiert ?
In ähnlicher Weise definieren Golub, Heath & Wahba die CV-Schätzung von (S. 217) als Minimierer von
Dabei ist die Schätzung
von mit dem ten Datenpunkt weggelassen.
Die Autoren führen die Einführung der CV-Schätzung (auch PRESS-Schätzung genannt) auf Allen zurück ("Allen's PRESS", ebenda). In Allens Aufsatz wird die PRESS-Schätzung jedoch als n P \ left (0 \ ) definiert (S. 126). rechts) (in Efrons Artikel wird es als (S. 24)).
Bedeutet dies wiederum, dass 0 P \ left (\ lambda \ right) minimiert ?
Allen, David M. Die Beziehung zwischen Variablenauswahl und Datendokumentation und eine Methode zur Vorhersage. Technometrics. 16, No. 1 (Februar 1974), S. 125-127
Craven, Peter und Wahba, Grace. Glätten von verrauschten Daten mit Spline-Funktionen. Numerische Mathematik 31 (1979), S. 377-403
Efron, Bradley. Wie voreingenommen ist die scheinbare Fehlerrate einer logistischen Regression? Technischer Bericht Nr. 232. Institut für Statistik, Stanford University (April 1985)
Golub, Gene H., Heath und Grace Wahba. Verallgemeinerte Kreuzvalidierung als Methode zur Auswahl eines guten Firstparameters. Technometrics. 21, No. 2 (Mai 1979), S. 215-223
quelle
Antworten:
Ich glaube, die Kommentare deuten auf die Antwort hin, sagen es aber nicht direkt. Also werde ich stumpf sein.
Die hier angegebene V-Formel ist spezifisch für die lineare Gratregression. Sie sagen nicht, dass es dasselbe ist wie PRESS, sie sagen, dass es eine rotationsinvariante Version von PRESS ist. Der "rotationsinvariante" Teil macht dies verallgemeinernd.
Efrons Artikel handelt von logistischen Regressionen, die auf diesen Kontext zugeschnitten sind. Wenn Sie die mathematische Übersetzung zwischen den beiden Kontexten sehen möchten, lesen Sie am besten Elements of Statistical Learning, 2ed von Hastie, Tibshirani und Freedman. Sie bieten dieses Buch kostenlos online an: https://web.stanford.edu/~hastie/Papers/ESLII.pdf . Eine weitere hilfreiche Lektüre zu GCV ist Generalized Additive Models von Simon Wood. Seine Behandlung integriert GCV im Allgemeinen mit Anwendungen in der Regression und in der logistischen Regression.
Wenn Sie sich das ESL-Buch auf Seite 244 ansehen, sehen Sie im Grunde die gleiche Symbologie. Sie beziehen sich auf das große Matrixprodukt, das Sie als Smoother-Matrix haben (ich würde sagen, es ist eine Hat-Matrix oder eine Near-Cousine). Sie beschreiben den Smoother als die Zuordnung von zuS y yy^
Sie bieten eine Formel zur Approximation von GCV an:
Dies ist im Verhalten dem AIC in vielen Modellen ziemlich ähnlich. Der ist die effektive Anzahl von Parametern.traceS
Das Stück , das Sie angeben , ist generell eine Spur von . Soweit ich verstehen kann, handelt es sich bei der abstrakten GCV um eine ungefähre Version der Nicht-Kreuzvalidierung, aber in einigen Fällen (ich glaube Kammregression) ist sie genau. Das ist ein Hauptpunkt in der Golub-Zeitung.nλ S
Viel Glück, schreib zurück, wenn du mehr lernst.
quelle