Was ist eine unvoreingenommene Schätzung der Bevölkerung R-Quadrat?

14

Ich bin daran interessiert, eine unvoreingenommene Schätzung von in einer multiplen linearen Regression zu erhalten.R2

Bei der Reflexion kann ich mir zwei verschiedene Werte vorstellen, mit denen eine unvoreingenommene Schätzung von übereinstimmen könnte.R2

  1. Out of sample :R2 das r-Quadrat, das erhalten würde, wenn die aus der Stichprobe erhaltene Regressionsgleichung (dh ) auf eine unendliche Datenmenge außerhalb der Stichprobe angewendet würde, jedoch aus denselben Daten Erzeugungsprozess.β^
  2. Population :R2 Das r-Quadrat, das erhalten würde, wenn eine unendliche Stichprobe erhalten und das Modell an diese unendliche Stichprobe angepasst würde (dh ), oder alternativ nur das R-Quadrat, das durch den bekannten Datenerzeugungsprozess impliziert wird.β

Ich verstehe, dass das eingestellte R2 so ausgelegt ist, dass es die in Probe beobachtete Überanpassung ausgleicht . Nichtsdestotrotz ist nicht klar, ob angepasstes R 2 tatsächlich eine unvoreingenommene Schätzung von R 2 ist , und wenn es eine unvoreingenommene Schätzung ist, welche der obigen zwei Definitionen von R 2 geschätzt werden soll.R2R2R2R2

Also meine Fragen:

  • Was ist eine unvoreingenommene Schätzung dessen, was ich oben aus Probe nenne ?R2
  • Was ist eine unvoreingenommene Schätzung dessen, was ich über der Population nenne ?R2
  • Gibt es Referenzen, die die Unparteilichkeit simulieren oder auf andere Weise belegen?
Jeromy Anglim
quelle
Die Frage, welche Formel für adj. R ^ 2 ist weniger voreingenommen, wurde zB hier angehoben .
ttnphns
Vielen Dank. Ich lese jetzt die Referenz, die Sie erwähnen: Yin, P. & Fan, X. (2001). Schätzung der -Schrumpfung bei multipler Regression: Ein Vergleich verschiedener Analysemethoden. The Journal of Experimental Education, 69 (2), 203-224. R2
Jeromy Anglim

Antworten:

14

Auswertung der analytischen Anpassungen an R-Quadrat

@ttnphns verwies mich auf den Artikel von Yin und Fan (2001), in dem verschiedene analytische Methoden zur Schätzung von verglichen werden . Gemäß meiner Frage unterscheiden sie zwischen zwei Arten von Schätzern. Sie verwenden die folgende Terminologie:R2

  • : Schätzer des multiplen Korrelationskoeffizienten der quadratischen Grundgesamtheitρ2
  • : Schätzer des Kreuzvaliditätskoeffizienten der quadratischen Grundgesamtheitρc2

Ihre Ergebnisse sind in der Zusammenfassung zusammengefasst:

R2ρ2ρ2ρc2

ρ2

R^2=1(N3)(1R2)(Np1)[1+2(1R2)Np2.3]

Dabei ist N die Stichprobengröße und p die Anzahl der Prädiktoren.

Empirische Schätzungen zur Anpassung des R-Quadrats

R2ρ2ρc2ρ2

Verweise

  • Kromrey, JD & amp; Hines, CV (1995). Verwendung empirischer Schätzungen der Schrumpfung bei multipler Regression: Vorsicht. Educational and Psychological Measurement, 55 (6), 901-925.
  • R2
Jeromy Anglim
quelle