In meinem Kopf gab es einige Verwirrung über zwei Arten von Schätzern für den Populationswert des Pearson-Korrelationskoeffizienten.
A. Fisher (1915) zeigte, dass für bivariate Normalpopulation empirisch ein negativ verzerrter Schätzer von , obwohl die Verzerrung nur für kleine Stichprobengrößen ( ) von praktisch beträchtlichem Wert sein kann . Stichprobe unterschätzt in dem Sinne, dass sie näher bei als . (Außer wenn letzteres oder , dann ist unbefangen.) Es wurden mehrere beinahe unbefangene Schätzer für vorgeschlagen, von denen der beste wahrscheinlich Olkin und Pratt (1958) ist.korrigiertes :
B. Es wird gesagt, dass in der beobachteten Regression die entsprechende Population R-Quadrat überschätzt. Oder mit einfacher Regression ist es, dass r 2 ρ 2 überschätzt . Auf der Grundlage dieser Tatsache habe ich , dass viele Texte gesehen sagen , r ist positiv relativ voreingenommen zu & rgr; , Absolutwert bedeutet: r ist weiter weg von 0 als ρ (? Ist diese Aussage wahr ist ). Die Texte sagen, es ist das gleiche Problem wie die Überschätzung des Standardabweichungsparameters durch seinen Abtastwert. Es gibt viele Formeln, um beobachtetes R 2 "anzupassen"näher an seinem Populationsparameter, wobei Wherrys (1931) das bekannteste (aber nicht das beste) ist. Die Wurzel eines solchen eingestellten r 2 adj heißt geschrumpftes r :
Es gibt zwei verschiedene Schätzer für . Sehr verschieden: das erste aufbläst r , die zweite entleert r . Wie versöhnt man sie? Wo benutzt / meldet man das eine und wo - das andere?
Kann es insbesondere zutreffen, dass der "geschrumpfte" Schätzer auch (fast) unvoreingenommen ist, wie der "unbefangene", jedoch nur in einem anderen Kontext - im asymmetrischen Kontext der Regression. Bei der OLS-Regression betrachten wir die Werte einer Seite (des Prädiktors) als fest und nehmen von Stichprobe zu Stichprobe ohne zufälligen Fehler teil. (Und um hier hinzuzufügen, braucht Regression keine bivariate Normalität.)
Antworten:
Bezüglich der Verzerrung in der Korrelation: Wenn die Stichprobengrößen klein genug sind, um eine Verzerrung von praktischer Bedeutung zu haben (z. B. das von Ihnen vorgeschlagene n <30), ist die Verzerrung wahrscheinlich die geringste Sorge, da die Ungenauigkeit fürchterlich ist.
In Bezug auf die Verzerrung von R 2 bei multipler Regression gibt es viele verschiedene Anpassungen, die sich auf eine unverzerrte Populationsschätzung im Vergleich zu einer unverzerrten Schätzung in einer unabhängigen Stichprobe gleicher Größe beziehen. Siehe Yin, P. & Fan, X. (2001). Schätzung der R 2 -Schrumpfung bei multipler Regression: Ein Vergleich der Analysemethoden. The Journal of Experimental Education, 69, 203-224.
Moderne Regressionsmethoden befassen sich auch mit der Schrumpfung von Regressionskoeffizienten sowie R 2 als Folge davon - z. B. das elastische Netz mit k- facher Kreuzvalidierung, siehe http://web.stanford.edu/~hastie/Papers/ elasticnet.pdf .
quelle
Ich denke, die Antwort liegt im Kontext einer einfachen Regression und einer multiplen Regression. Bei einer einfachen Regression mit einer IV und einer DV ist R sq nicht positiv vorgespannt und kann sogar negativ vorgespannt sein, wenn r negativ vorgespannt ist. Bei multipler Regression mit mehreren IVs, die selbst korreliert sein können, kann R sq jedoch aufgrund einer möglicherweise auftretenden "Unterdrückung" positiv voreingenommen sein. Ich nehme daher an, dass das beobachtete R2 das entsprechende R-Quadrat der Grundgesamtheit überschätzt, jedoch nur in multipler Regression
quelle
R sq is not positively biased, and in-fact may be negatively biased
Interessant. Können Sie es zeigen oder einen Hinweis geben? - Kann die beobachtete Rsq-Statistik in einer bivariaten Normalbevölkerung negativ beeinflusst werden?