Wie können Hauptkomponenten die Vorhersagekraft einer abhängigen Variablen beibehalten (oder sogar zu besseren Vorhersagen führen)?

25

Angenommen, ich führe eine Regression . Warum behält das Modell durch Auswahl der Top- Hauptkomponenten von seine Vorhersagekraft für ?Y.XkXY.

Ich verstehe, dass aus Sicht der Dimensionsreduktion / Merkmalsauswahl, wenn die Eigenvektoren der Kovarianzmatrix von mit den höchsten Eigenwerten sind, die höchsten Hauptkomponenten sind mit maximalen Abweichungen. Wir können dadurch die Anzahl der Merkmale auf reduzieren und den größten Teil der Vorhersagekraft behalten, so wie ich es verstehe.v1,v2,...vkXkXv1,Xv2...Xvkkk

Aber warum behalten Top- Komponenten die Vorhersagekraft für ?kY.

Wenn wir über ein allgemeines OLS sprechen , gibt es keinen Grund , dass die prädiktivste Potenz für hat , wenn das Merkmal die maximale Varianz .Y.ZZichZichY.

Update nach dem Anzeigen von Kommentaren: Ich glaube, ich habe unzählige Beispiele für die Verwendung von PCA zur Dimensionsreduzierung gesehen. Ich bin davon ausgegangen, dass die Dimensionen, die uns verbleiben, die prädiktivste Aussagekraft haben. Ansonsten, was ist der Punkt der Dimensionsreduktion?

Vendetta
quelle
3
Sie haben Recht: Es gibt keinen mathematischen Grund für die Annahme, dass die Top- PCs von eine Vorhersagekraft haben - genau wie es im Allgemeinen keinen mathematischen Grund für die Annahme gibt, dass ein Satz von Kovariaten überhaupt eine Beziehung zu einem gegebenen . Es scheint, dass Sie sich auf eine Aussage beziehen, auf die Sie gestoßen sind: Was genau steht darin und wer hat es gesagt? KXXY.
whuber
@whuber Ich glaube, ich habe Tonnen von Beispielen für die Verwendung von PCA zur Dimensionsreduktion. Ich bin davon ausgegangen, dass die Dimensionen, die uns verbleiben, die prädiktivsten Kräfte haben. Ansonsten ist das der Punkt, um Dimensionen zu reduzieren?
Vendetta

Antworten:

43

Tatsächlich gibt es keine Garantie dafür, dass Top-Hauptkomponenten (PCs) eine höhere Vorhersagekraft haben als jene mit geringer Varianz.

Wo dies nicht der Fall ist, finden sich Beispiele aus der Praxis, und es ist einfach, ein künstliches Beispiel zu konstruieren, bei dem z. B. nur der kleinste PC überhaupt eine Beziehung zu .y

Dieses Thema wurde in unserem Forum viel diskutiert, und da (unglücklicherweise) kein eindeutiger kanonischer Thread vorhanden ist, kann ich nur mehrere Links angeben, die zusammen verschiedene reale und künstliche Beispiele liefern:

Und das gleiche Thema, aber im Kontext der Klassifizierung:


In der Praxis verfügen Top-PCs jedoch häufig über eine höhere Vorhersagekraft als die mit geringer Varianz. Darüber hinaus kann die Verwendung von Top-PCs eine bessere Vorhersagekraft als die Verwendung aller PCs liefern.

In Situationen mit vielen Prädiktoren und relativ wenigen Datenpunkten (z. B. wenn oder sogar ) passt die gewöhnliche Regression über und muss reguliert werden. Die Hauptkomponenten-Regression (PCR) kann als eine Möglichkeit zur Regularisierung der Regression angesehen werden und führt tendenziell zu überlegenen Ergebnissen. Darüber hinaus ist es eng mit der Gratregression verwandt, die eine Standardmethode zur Regulierung des Schrumpfens ist. Während die Verwendung der Ridge-Regression normalerweise eine bessere Idee ist, verhält sich die PCR oft recht gut. Siehe Warum funktioniert das Schrumpfen? für die allgemeine Diskussion über den Bias-Varianz-Kompromiss und darüber, wie Schrumpfung vorteilhaft sein kann.pnpnp>n

In gewisser Weise kann man sagen, dass sowohl die Ridge-Regression als auch die PCR davon ausgehen, dass die meisten Informationen über in den großen PCs von , und diese Annahme ist oft gerechtfertigt.yX

In der späteren Antwort von @cbeleites (+1) finden Sie eine Diskussion darüber, warum diese Annahme häufig gerechtfertigt ist (und auch in diesem neueren Thread: Ist die Dimensionsreduzierung für die Klassifizierung fast immer nützlich? Für einige weitere Kommentare).

Hastie et al. In den Elementen des statistischen Lernens (Abschnitt 3.4.1) wird dies im Zusammenhang mit der Gratregression erläutert:

[D] Die kleinen Singularwerte [...] entsprechen Richtungen im Spaltenraum von mit geringer Varianz, und die Kammregression schrumpft diese Richtungen am stärksten. [...] Die Gratregression schützt vor der potenziell hohen Varianz von Gradienten, die in den kurzen Richtungen geschätzt werden. Die implizite Annahme ist, dass die Antwort dazu neigt, in den Richtungen hoher Varianz der Eingaben am stärksten zu variieren. Dies ist häufig eine vernünftige Annahme, da Prädiktoren häufig für die Untersuchung ausgewählt werden, da sie mit der Antwortvariablen variieren, aber im Allgemeinen nicht gelten müssen.X

Siehe meine Antworten in den folgenden Threads für Details:


Endeffekt

Bei hochdimensionalen Problemen kann die Vorverarbeitung mit PCA (dh Reduzierung der Dimensionalität und Beibehaltung von Top-PCs) als eine Möglichkeit zur Regularisierung angesehen werden und verbessert häufig die Ergebnisse einer nachfolgenden Analyse, sei es eine Regressions- oder eine Klassifizierungsmethode. Es gibt jedoch keine Garantie dafür, dass dies funktioniert, und es gibt häufig bessere Regularisierungsansätze.

Amöbe sagt Reinstate Monica
quelle
Vielen Dank, dass Sie die Referenzen in Ihrer Antwort gesammelt haben. Hier ist noch eine neue. Es gibt eine Antwort mit weiterführenden Links.
TTNPHNS
Danke, @ttnphns! Ich habe diesen Beitrag nicht gesehen, weil er kein [pca] -Tag hatte (ich verfolge nur eine Handvoll spezifischer Tags genau). Eigentlich bin ich ziemlich unglücklich, dass es eine lose Sammlung von 5-10 eng verwandten Themen gibt, wobei keine Frage und keine Antwort wirklich perfekt ist und keine wirklichen Duplikate zwischen ihnen bestehen. Ich hätte lieber einen kanonischen Thread, der für zukünftige Referenzen verwendet werden könnte ...
Amöbe sagt Reinstate Monica
Ich habe das Tag zu dieser Frage hinzugefügt. Die "perfekte" enzyklodische Antwort auf dieses interessante Thema wartet auf den Autor. :-) Vielleicht möchtest du einer werden.
TTNPHNS
Ebenfalls relevant: die Antwort von onestop
kjetil b halvorsen
11

Zusätzlich zu den Antworten, die sich bereits auf die mathematischen Eigenschaften konzentrieren, möchte ich einen experimentellen Kommentar abgeben.

Zusammenfassung: Datengenerierungsprozesse werden häufig so optimiert, dass die Daten für die Regression der Hauptkomponente (PCR) oder der kleinsten Quadrate (PLS) geeignet sind.


Ich bin Analytiker. Wenn ich ein Experiment / eine Methode entwerfe, um etwas zu messen (Regression oder Klassifizierung), nutze ich mein Wissen über die Anwendung und die verfügbaren Instrumente, um Daten zu erhalten, die ein gutes Signal-Rausch-Verhältnis in Bezug auf die jeweilige Aufgabe aufweisen. Das heißt, die von mir generierten Daten sind so konzipiert, dass sie eine große Kovarianz mit der Eigenschaft von Interesse aufweisen.
Dies führt zu einer Varianzstruktur, bei der die interessante Varianz groß ist und die späteren PCs nur das (kleine) Rauschen tragen.

Ich bevorzuge auch Methoden, die redundante Informationen über die jeweilige Aufgabe liefern, um robustere oder präzisere Ergebnisse zu erzielen. PCA bündelt redundante Messkanäle in einem PC, der dann sehr unterschiedlich ist und damit zu den ersten PCs zählt.

Wenn bekannte Confounder zu einer großen Varianz führen, die nicht mit der interessierenden Eigenschaft korreliert, werde ich normalerweise versuchen, diese während der Vorverarbeitung der Daten so weit wie möglich zu korrigieren. In vielen Fällen sind diese Confounder von bekannter Natur physikalische oder chemische Natur, und dieses Wissen legt geeignete Wege zur Korrektur der Störfaktoren nahe. Ich messe zB Raman-Spektren unter dem Mikroskop. Ihre Intensität hängt von der Intensität des Laserlichts sowie davon ab, wie gut ich das Mikroskop fokussieren kann. Beides führt zu Änderungen, die durch Normalisierung korrigiert werden können, z. B. zu einem Signal, von dem bekannt ist, dass es konstant ist.
Daher können große Varianzbeiträge, die nicht zur Lösung beitragen, beseitigt worden sein, bevor die Daten in die PCA eingehen, so dass die ersten PCs größtenteils eine bedeutende Varianz aufweisen.


Last but not least gibt es hier eine sich selbst erfüllende Prophezeiung: Offensichtlich wird die PCR mit Daten durchgeführt, bei denen die Annahme, dass die informationstragende Varianz groß ist, sinnvoll ist. Wenn ich zum Beispiel denke, dass es wichtige Störfaktoren geben könnte, für die ich nicht weiß, wie ich sie korrigieren soll, würde ich mich sofort für PLS entscheiden.

cbeleites unterstützt Monica
quelle
+1. Dies ist eine hervorragende Ergänzung, danke für die Teilnahme an der Diskussion.
Amöbe sagt Reinstate Monica
@amoeba: danke für die freundlichen Worte. Wie immer ist auch Ihre Antwort sehr gründlich. Ich verlasse mich in der Tat darauf, dass Sie sich um [pca] kümmern!
cbeleites unterstützt Monica am
6

PCA wird manchmal verwendet, um Probleme zu korrigieren, die durch kollineare Variablen verursacht werden, so dass der größte Teil der Variation im X-Raum von den K-Hauptkomponenten erfasst wird.

Aber dieses mathematische Problem ist natürlich nicht dasselbe, als den größten Teil der Variation sowohl im X- als auch im Y-Raum so zu erfassen, dass die ungeklärte Variation so gering wie möglich ist.

Partielle kleinste Quadrate versuchen dies im letzteren Sinne zu tun:

http://en.wikipedia.org/wiki/Partial_least_squares_regression

Analytiker
quelle
3

Wie bereits erwähnt, gibt es keinen direkten Zusammenhang zwischen den Top-k-Eigenvektoren und der Vorhersagekraft. Indem Sie die Spitze auswählen und als Grundlage verwenden, behalten Sie etwas Spitzenenergie (oder Varianz entlang dieser Achse) bei.

Es kann sein, dass die Achse, die die größte Varianz erklärt, tatsächlich für die Vorhersage nützlich ist, aber im Allgemeinen ist dies nicht der Fall.

Vladislavs Dovgalecs
quelle
Wenn Sie "im Allgemeinen" sagen, meinen Sie das im Allgemeinen in der Praxis oder im Allgemeinen in der Theorie?
Amöbe sagt Reinstate Monica
@amoeba Im Allgemeinen, weil es einfach ist, einen Datensatz zu erstellen, bei dem die Projektion der Daten auf die obere k-Achse der maximalen Varianz nicht vorhersagbar / diskriminativ ist.
Vladislavs Dovgalecs
-1

Lassen Sie mich eine einfache Erklärung anbieten.

PCA läuft darauf hinaus, bestimmte Funktionen intuitiv zu entfernen. Dies verringert die Wahrscheinlichkeit einer Überanpassung.

Bewohner des Nordens
quelle