Wie werden Hauptkomponenten als Prädiktoren in GLM verwendet?

9

Wie würde ich die Ausgabe einer Hauptkomponentenanalyse (PCA) in einem verallgemeinerten linearen Modell (GLM) verwenden, vorausgesetzt, die PCA wird für die Variablenauswahl für das GLM verwendet?

Erläuterung: Ich möchte PCA verwenden, um die Verwendung korrelierter Variablen im GLM zu vermeiden. PCA gibt mir jedoch Ausgaben wie .2*variable1+.5*variable3usw. Ich bin es gewohnt, nur die Variablen 1 und 3 in das GLM einzufügen. Da PCA mir eine lineare Kombination gibt, sollte ich diese beispielsweise als neue Variable in das GLM aufnehmen (um systematische Variationen in der Antwort durch die Variablen 1 und 3 zu berücksichtigen)?

pca generalized-linear-model feature-selection ciel
quelle

12

Es ist möglich und manchmal angebracht, eine Teilmenge der Hauptkomponenten als erklärende Variablen in einem linearen Modell anstelle der ursprünglichen Variablen zu verwenden. Die resultierenden Koeffizienten müssen dann rücktransformiert werden, um auf die ursprünglichen Variablen angewendet zu werden. Die Ergebnisse sind voreingenommen, können jedoch einfacheren Techniken überlegen sein.

PCA liefert eine Reihe von Hauptkomponenten, die lineare Kombinationen der ursprünglichen Variablen sind. Wenn Sie ursprüngliche Variablen haben, haben Sie am Ende immer noch Hauptkomponenten, aber sie wurden durch den dimensionalen Raum gedreht, so dass sie orthogonal zueinander sind (dh nicht miteinander korreliert sind) (dies ist am einfachsten mit nur zwei Variablen zu durchdenken). $k$ $k$ $k$

Der Trick bei der Verwendung von PCA-Ergebnissen in einem linearen Modell besteht darin, dass Sie eine Entscheidung treffen, eine bestimmte Anzahl der Hauptkomponenten zu entfernen. Diese Entscheidung basiert auf ähnlichen Kriterien wie die "üblichen" Black-Art-Variablenauswahlverfahren für Gebäudemodelle.

Die Methode wird verwendet, um mit Multikollinearität umzugehen. Es ist bei linearer Regression mit einer normalen Antwort- und Identitätsverknüpfungsfunktion vom linearen Prädiktor zur Antwort ziemlich häufig; aber weniger häufig mit einem verallgemeinerten linearen Modell. Es gibt mindestens einen Artikel zu den Themen im Web.

Mir sind keine benutzerfreundlichen Software-Implementierungen bekannt. Es wäre ziemlich einfach, die PCA durchzuführen und die resultierenden Hauptkomponenten als erklärende Variablen in einem verallgemeinerten linearen Modell zu verwenden. und dann zurück in die ursprüngliche Skala zu übersetzen. Es wäre jedoch schwierig, die Verteilung (Varianz, Verzerrung und Form) Ihrer Schätzer zu schätzen, die dies getan haben. Die Standardausgabe Ihres verallgemeinerten linearen Modells ist falsch, da davon ausgegangen wird, dass es sich um Originalbeobachtungen handelt. Sie könnten einen Bootstrap um die gesamte Prozedur herum erstellen (PCA und glm kombiniert), was entweder in R oder SAS möglich wäre.

Peter Ellis
quelle

5

Meine Antwort bezieht sich nicht auf die ursprüngliche Frage, sondern auf Kommentare zu Ihrem Ansatz.

Wenden Sie zuerst PCA an und führen Sie dann ein verallgemeinertes lineares Modell aus. Dies wird nicht empfohlen. Der Grund dafür ist, dass PCA die variable Wichtigkeit anhand der "variablen Varianz" auswählt, nicht jedoch anhand der "Korrelation der Variablen mit dem Vorhersageziel". Mit anderen Worten, die "Variablenauswahl" kann völlig irreführend sein und nicht wichtige Variablen auswählen.

Hier ein Beispiel: Links-Zukunftsshows sind x1wichtig, um zwei Arten von Punkten zu klassifizieren. Aber PCA zeigt das Gegenteil.

Details finden Sie in meiner Antwort hier. Wie kann man sich zwischen PCA und logistischer Regression entscheiden?

Haitao Du
quelle

3

Ich würde vorschlagen, dass Sie sich dieses Papier ansehen. Es macht einen guten Job und zeigt die Beziehung zwischen Gaußschen Familienverteilungen und PCA-ähnlichen Lernsystemen.

http://papers.nips.cc/paper/2078-a-generalization-of-principal-components-analysis-to-the-exponential-family.pdf

BEARBEITEN

Synopsis: Während viele an PCA aus der geometrischen Interpretation denken, die orthogonalen Vektoren in einem Datensatz zu finden, der am meisten für die Varianz verantwortlich ist, und dann Parameter bereitzustellen, um den eigenen Raum korrekt an diesen Vektoren auszurichten, baut dieses Papier PCA unter Verwendung exponentieller Wahrscheinlichkeitsfunktionen in der Kontext verallgemeinerter linearer Modelle und bietet eine leistungsfähigere Erweiterung von PCA für andere Wahrscheinlichkeitsfunktionen innerhalb der Exponentialfamilie. Darüber hinaus erstellen sie einen PCA-ähnlichen Lernalgorithmus unter Verwendung von Bregman-Divergenzen. Es ist ziemlich einfach zu befolgen und für Sie scheint es Ihnen zu helfen, den Zusammenhang zwischen PCA und verallgemeinerten linearen Modellen zu verstehen.

Zitat:

Collins, Michael et al. "Eine Verallgemeinerung der Hauptkomponentenanalyse auf die Exponentialfamilie". Neuronale Informationsverarbeitungssysteme

themantalope
quelle

Hallo Gung, tut mir leid, ich verstehe das total!

Themantalope

Wie werden Hauptkomponenten als Prädiktoren in GLM verwendet?

Antworten: