Warum sagt Daniel Wilks (2011), dass die Regression der Hauptkomponenten „voreingenommen sein wird“?

In Statistical Methods in the Atmospheric Sciences stellt Daniel Wilks fest, dass multiple lineare Regression zu Problemen führen kann, wenn zwischen den Prädiktoren sehr starke Wechselbeziehungen bestehen (3. Auflage, Seite 559-560):

Eine Pathologie, die bei der multiplen linearen Regression auftreten kann, besteht darin, dass ein Satz von Prädiktorvariablen mit starken gegenseitigen Korrelationen zur Berechnung einer instabilen Regressionsbeziehung führen kann.

(...)

Anschließend führt er die Hauptkomponentenregression ein:

Ein Ansatz zur Behebung dieses Problems besteht darin, die Prädiktoren zunächst in ihre Hauptkomponenten umzuwandeln, deren Korrelationen Null sind.

So weit, ist es gut. Aber als nächstes macht er einige Aussagen, die er nicht erklärt (oder zumindest nicht ausführlich genug, damit ich sie verstehe):

Wenn alle Hauptkomponenten in einer Hauptkomponenten-Regression beibehalten werden, wird nichts über die konventionelle Anpassung der kleinsten Quadrate an den vollständigen Prädiktorsatz gewonnen.

(..) und:

Es ist möglich, die Hauptkomponenten-Regression in Bezug auf die ursprünglichen Prädiktoren erneut auszudrücken, aber das Ergebnis wird im Allgemeinen alle ursprünglichen Prädiktorvariablen mit einbeziehen, selbst wenn nur ein oder wenige Hauptkomponenten-Prädiktoren verwendet wurden. Diese wiederhergestellte Regression ist voreingenommen, obwohl die Varianz häufig viel geringer ist, was insgesamt zu einer geringeren MSE führt.

Ich verstehe diese beiden Punkte nicht.

Wenn alle Hauptkomponenten beibehalten werden, verwenden wir natürlich dieselben Informationen wie bei der Verwendung der Prädiktoren an ihrem ursprünglichen Platz. Das Problem der gegenseitigen Korrelation wird jedoch durch Arbeiten im Hauptkomponentenraum beseitigt. Wir haben vielleicht immer noch Überanpassung, aber ist das das einzige Problem? Warum wird nichts gewonnen?

Zweitens, selbst wenn wir die Hauptkomponenten abschneiden (möglicherweise zur Geräuschreduzierung und / oder zur Vermeidung von Überanpassung), warum und wie führt dies zu einer voreingenommenen rekonstituierten Regression? Inwiefern voreingenommen?

Buchquelle: Daniel S. Wilks, Statistical Methods in the Atmospheric Sciences, 3. Auflage, 2011. Internationale Geophysik-Reihe Band 100, Academic Press.

regression pca bias Gerrit
quelle

(+1) Im zweiten Zitat folgt "wird voreingenommen sein" nicht logisch: Besser wäre eine mildere Aussage wie "wahrscheinlich voreingenommen sein". Ich vermute, die Gründe dafür könnten in etwa so lauten: "Da die PCR lineare Beziehungen zwischen den Parameterschätzungen auferlegt, weichen diese Schätzungen tendenziell von den OLS-Schätzungen ab. Und weil die OLS-Schätzungen unvoreingenommen sind, bedeutet dies, dass die PCR-Schätzungen verzerrt sind." Intuitiv ist es eine gute Heuristik, aber nicht ganz richtig.

whuber

könnte man sagen, dass "PCR wird verzerrt sein", wenn (a) Datenpunkte nicht eine linear niedrigere oder gleich dimensionierte Mannigfaltigkeit als die gewählte Anzahl von PCs einnehmen und (b) Datenpunkte nicht perfekt unkorreliert sind? oder wie?

Soren Havelund Welling

Antworten:

Was passiert, wenn alle PCs verwendet werden?

Wenn alle PCs verwendet werden, sind die resultierenden Regressionskoeffizienten identisch mit denen, die mit der OLS-Regression erhalten wurden. Daher sollte dieses Verfahren besser nicht als "Hauptkomponenten-Regression" bezeichnet werden. Es ist eine Standardregression, die nur auf Umwegen durchgeführt wird.

$Z$ $Z$ $X$ $X_i$

Es wird also nichts gewonnen.

Was passiert, wenn nur wenige PCs verwendet werden?

$\hat \beta_\mathrm{PCR}$ $\hat \beta_\mathrm{OLS}$ $\hat \beta$

Dies ist ein Beispiel für den Bias-Varianz-Kompromiss . Siehe Warum funktioniert das Schrumpfen? für eine weitere allgemeine Diskussion.

$y$ $y$ $y$

Warum ist die Verwendung von PCs mit hoher Varianz überhaupt eine gute Idee?

Dies war nicht Teil der Frage, aber für die weitere Lektüre könnte Sie der folgende Thread interessieren: Wie können Hauptkomponenten die Vorhersagekraft einer abhängigen Variablen beibehalten (oder sogar zu besseren Vorhersagen führen)?

Amöbe sagt Reinstate Monica
quelle

Y

$Y$

Y

$Y$

@whuber, in der Tat. Ich habe diesen Absatz umgeschrieben, hoffentlich macht er jetzt mehr Sinn. Vielen Dank.

Amöbe sagt Reinstate Monica

Hmm, richtig. Verzerrt bedeutet im Wesentlichen, dass einige Punkte gleich sind wie andere. Genau das ist es, was wir wollen, wenn wir den Einfluss von Rauschen und Ausreißern reduzieren wollen (wobei ich noch nicht sicher bin, ob PCA das beste Werkzeug ist).

Gerrit

@gerrit Du schreibst, als ob Voreingenommenheit gleichbedeutend mit Gewichtung wäre, aber es sind getrennte Dinge. Die Abweichung bezieht sich in diesem Zusammenhang auf eine Differenz zwischen den erwarteten Werten der Koeffizientenschätzungen und ihren wahren Werten.

whuber

Das Modell geht davon aus, dass die Antworten Zufallsvariablen sind. Dies macht die geschätzten Koeffizienten - unter Verwendung eines beliebigen Verfahrens - auch zu Zufallsvariablen. Ihre erwarteten Werte sind wie für jede Zufallsvariable definiert. Voreingenommenheit ist per Definition die Differenz zwischen dem erwarteten Wert und dem wahren Wert. OLS-Koeffizientenschätzungen weisen eine Vorbelastung von Null auf. Die Vorspannung irgendeines anderen Verfahrens könnte immer noch Null sein. Die Logik des Zitats ist, dass eine Prozedur, die wie OLS linear ist, aber Beziehungen zwischen den Koeffizienten auferlegt, notwendigerweise voreingenommen sein wird. Diese Schlussfolgerung trifft in vielen Fällen zu, aber nicht in allen.

whuber