Ich bin daran interessiert, eine unvoreingenommene Schätzung von in einer multiplen linearen Regression zu erhalten.
Bei der Reflexion kann ich mir zwei verschiedene Werte vorstellen, mit denen eine unvoreingenommene Schätzung von übereinstimmen könnte.
- Out of sample : das r-Quadrat, das erhalten würde, wenn die aus der Stichprobe erhaltene Regressionsgleichung (dh ) auf eine unendliche Datenmenge außerhalb der Stichprobe angewendet würde, jedoch aus denselben Daten Erzeugungsprozess.
- Population : Das r-Quadrat, das erhalten würde, wenn eine unendliche Stichprobe erhalten und das Modell an diese unendliche Stichprobe angepasst würde (dh ), oder alternativ nur das R-Quadrat, das durch den bekannten Datenerzeugungsprozess impliziert wird.
Ich verstehe, dass das eingestellte so ausgelegt ist, dass es die in Probe beobachtete Überanpassung ausgleicht . Nichtsdestotrotz ist nicht klar, ob angepasstes R 2 tatsächlich eine unvoreingenommene Schätzung von R 2 ist , und wenn es eine unvoreingenommene Schätzung ist, welche der obigen zwei Definitionen von R 2 geschätzt werden soll.
Also meine Fragen:
- Was ist eine unvoreingenommene Schätzung dessen, was ich oben aus Probe nenne ?
- Was ist eine unvoreingenommene Schätzung dessen, was ich über der Population nenne ?
- Gibt es Referenzen, die die Unparteilichkeit simulieren oder auf andere Weise belegen?
estimation
multiple-regression
r-squared
bias
Jeromy Anglim
quelle
quelle
Antworten:
Auswertung der analytischen Anpassungen an R-Quadrat
@ttnphns verwies mich auf den Artikel von Yin und Fan (2001), in dem verschiedene analytische Methoden zur Schätzung von verglichen werden . Gemäß meiner Frage unterscheiden sie zwischen zwei Arten von Schätzern. Sie verwenden die folgende Terminologie:R2
Ihre Ergebnisse sind in der Zusammenfassung zusammengefasst:
Dabei ist N die Stichprobengröße und p die Anzahl der Prädiktoren.
Empirische Schätzungen zur Anpassung des R-Quadrats
Verweise
quelle