Angenommen, ich führe eine Regression . Warum behält das Modell durch Auswahl der Top- Hauptkomponenten von seine Vorhersagekraft für ?
Ich verstehe, dass aus Sicht der Dimensionsreduktion / Merkmalsauswahl, wenn die Eigenvektoren der Kovarianzmatrix von mit den höchsten Eigenwerten sind, die höchsten Hauptkomponenten sind mit maximalen Abweichungen. Wir können dadurch die Anzahl der Merkmale auf reduzieren und den größten Teil der Vorhersagekraft behalten, so wie ich es verstehe.
Aber warum behalten Top- Komponenten die Vorhersagekraft für ?
Wenn wir über ein allgemeines OLS sprechen , gibt es keinen Grund , dass die prädiktivste Potenz für hat , wenn das Merkmal die maximale Varianz .
Update nach dem Anzeigen von Kommentaren: Ich glaube, ich habe unzählige Beispiele für die Verwendung von PCA zur Dimensionsreduzierung gesehen. Ich bin davon ausgegangen, dass die Dimensionen, die uns verbleiben, die prädiktivste Aussagekraft haben. Ansonsten, was ist der Punkt der Dimensionsreduktion?
Antworten:
Tatsächlich gibt es keine Garantie dafür, dass Top-Hauptkomponenten (PCs) eine höhere Vorhersagekraft haben als jene mit geringer Varianz.
Wo dies nicht der Fall ist, finden sich Beispiele aus der Praxis, und es ist einfach, ein künstliches Beispiel zu konstruieren, bei dem z. B. nur der kleinste PC überhaupt eine Beziehung zu .y
Dieses Thema wurde in unserem Forum viel diskutiert, und da (unglücklicherweise) kein eindeutiger kanonischer Thread vorhanden ist, kann ich nur mehrere Links angeben, die zusammen verschiedene reale und künstliche Beispiele liefern:
Und das gleiche Thema, aber im Kontext der Klassifizierung:
In der Praxis verfügen Top-PCs jedoch häufig über eine höhere Vorhersagekraft als die mit geringer Varianz. Darüber hinaus kann die Verwendung von Top-PCs eine bessere Vorhersagekraft als die Verwendung aller PCs liefern.
In Situationen mit vielen Prädiktoren und relativ wenigen Datenpunkten (z. B. wenn oder sogar ) passt die gewöhnliche Regression über und muss reguliert werden. Die Hauptkomponenten-Regression (PCR) kann als eine Möglichkeit zur Regularisierung der Regression angesehen werden und führt tendenziell zu überlegenen Ergebnissen. Darüber hinaus ist es eng mit der Gratregression verwandt, die eine Standardmethode zur Regulierung des Schrumpfens ist. Während die Verwendung der Ridge-Regression normalerweise eine bessere Idee ist, verhält sich die PCR oft recht gut. Siehe Warum funktioniert das Schrumpfen? für die allgemeine Diskussion über den Bias-Varianz-Kompromiss und darüber, wie Schrumpfung vorteilhaft sein kann.p n p ≈ n p > n
In gewisser Weise kann man sagen, dass sowohl die Ridge-Regression als auch die PCR davon ausgehen, dass die meisten Informationen über in den großen PCs von , und diese Annahme ist oft gerechtfertigt.y X
In der späteren Antwort von @cbeleites (+1) finden Sie eine Diskussion darüber, warum diese Annahme häufig gerechtfertigt ist (und auch in diesem neueren Thread: Ist die Dimensionsreduzierung für die Klassifizierung fast immer nützlich? Für einige weitere Kommentare).
Hastie et al. In den Elementen des statistischen Lernens (Abschnitt 3.4.1) wird dies im Zusammenhang mit der Gratregression erläutert:
Siehe meine Antworten in den folgenden Threads für Details:
Endeffekt
Bei hochdimensionalen Problemen kann die Vorverarbeitung mit PCA (dh Reduzierung der Dimensionalität und Beibehaltung von Top-PCs) als eine Möglichkeit zur Regularisierung angesehen werden und verbessert häufig die Ergebnisse einer nachfolgenden Analyse, sei es eine Regressions- oder eine Klassifizierungsmethode. Es gibt jedoch keine Garantie dafür, dass dies funktioniert, und es gibt häufig bessere Regularisierungsansätze.
quelle
Zusätzlich zu den Antworten, die sich bereits auf die mathematischen Eigenschaften konzentrieren, möchte ich einen experimentellen Kommentar abgeben.
Zusammenfassung: Datengenerierungsprozesse werden häufig so optimiert, dass die Daten für die Regression der Hauptkomponente (PCR) oder der kleinsten Quadrate (PLS) geeignet sind.
Ich bin Analytiker. Wenn ich ein Experiment / eine Methode entwerfe, um etwas zu messen (Regression oder Klassifizierung), nutze ich mein Wissen über die Anwendung und die verfügbaren Instrumente, um Daten zu erhalten, die ein gutes Signal-Rausch-Verhältnis in Bezug auf die jeweilige Aufgabe aufweisen. Das heißt, die von mir generierten Daten sind so konzipiert, dass sie eine große Kovarianz mit der Eigenschaft von Interesse aufweisen.
Dies führt zu einer Varianzstruktur, bei der die interessante Varianz groß ist und die späteren PCs nur das (kleine) Rauschen tragen.
Ich bevorzuge auch Methoden, die redundante Informationen über die jeweilige Aufgabe liefern, um robustere oder präzisere Ergebnisse zu erzielen. PCA bündelt redundante Messkanäle in einem PC, der dann sehr unterschiedlich ist und damit zu den ersten PCs zählt.
Wenn bekannte Confounder zu einer großen Varianz führen, die nicht mit der interessierenden Eigenschaft korreliert, werde ich normalerweise versuchen, diese während der Vorverarbeitung der Daten so weit wie möglich zu korrigieren. In vielen Fällen sind diese Confounder von bekannter Natur physikalische oder chemische Natur, und dieses Wissen legt geeignete Wege zur Korrektur der Störfaktoren nahe. Ich messe zB Raman-Spektren unter dem Mikroskop. Ihre Intensität hängt von der Intensität des Laserlichts sowie davon ab, wie gut ich das Mikroskop fokussieren kann. Beides führt zu Änderungen, die durch Normalisierung korrigiert werden können, z. B. zu einem Signal, von dem bekannt ist, dass es konstant ist.
Daher können große Varianzbeiträge, die nicht zur Lösung beitragen, beseitigt worden sein, bevor die Daten in die PCA eingehen, so dass die ersten PCs größtenteils eine bedeutende Varianz aufweisen.
Last but not least gibt es hier eine sich selbst erfüllende Prophezeiung: Offensichtlich wird die PCR mit Daten durchgeführt, bei denen die Annahme, dass die informationstragende Varianz groß ist, sinnvoll ist. Wenn ich zum Beispiel denke, dass es wichtige Störfaktoren geben könnte, für die ich nicht weiß, wie ich sie korrigieren soll, würde ich mich sofort für PLS entscheiden.
quelle
PCA wird manchmal verwendet, um Probleme zu korrigieren, die durch kollineare Variablen verursacht werden, so dass der größte Teil der Variation im X-Raum von den K-Hauptkomponenten erfasst wird.
Aber dieses mathematische Problem ist natürlich nicht dasselbe, als den größten Teil der Variation sowohl im X- als auch im Y-Raum so zu erfassen, dass die ungeklärte Variation so gering wie möglich ist.
Partielle kleinste Quadrate versuchen dies im letzteren Sinne zu tun:
http://en.wikipedia.org/wiki/Partial_least_squares_regression
quelle
Wie bereits erwähnt, gibt es keinen direkten Zusammenhang zwischen den Top-k-Eigenvektoren und der Vorhersagekraft. Indem Sie die Spitze auswählen und als Grundlage verwenden, behalten Sie etwas Spitzenenergie (oder Varianz entlang dieser Achse) bei.
Es kann sein, dass die Achse, die die größte Varianz erklärt, tatsächlich für die Vorhersage nützlich ist, aber im Allgemeinen ist dies nicht der Fall.
quelle
Lassen Sie mich eine einfache Erklärung anbieten.
PCA läuft darauf hinaus, bestimmte Funktionen intuitiv zu entfernen. Dies verringert die Wahrscheinlichkeit einer Überanpassung.
quelle