Auswahl der Anzahl der Hauptkomponenten mit geringer Dichte, die in die Regression einbezogen werden sollen

9

Hat jemand Erfahrung mit Ansätzen zur Auswahl der Anzahl der Hauptkomponenten mit geringer Dichte, die in ein Regressionsmodell aufgenommen werden sollen?

Frank Harrell
quelle
Ich habe keine konkreten Erfahrungen damit, aber ich würde davon ausgehen, dass eine Kreuzvalidierung (wie immer) ein guter Ansatz wäre.
Amöbe

Antworten:

4

Obwohl ich keine direkten Einblicke in Ihre Frage habe, bin ich auf einige Forschungsarbeiten gestoßen , die für Sie von Interesse sein könnten. Das heißt natürlich, wenn ich richtig verstehe, dass Sie über spärliche PCA , Regression der Hauptkomponenten und verwandte Themen sprechen . In diesem Fall sind hier die Papiere:

Aleksandr Blekh
quelle
1
Ich wusste nicht über alle diese Referenzen Bescheid. Sie sind sehr gut - danke.
Frank Harrell
@FrankHarrell: Gern geschehen! Froh, dass ich helfen konnte.
Aleksandr Blekh
1

Die Kreuzvalidierungsergebnisse wurden auch verwendet, um die optimale Anzahl von Dimensionen für den LSI-Raum zu bestimmen. Zu wenige Dimensionen nutzten die Vorhersagekraft der Daten nicht aus. während zu viele Abmessungen zu einer Überanpassung führten. Fig. 4 zeigt die Verteilung der durchschnittlichen Fehler für Modelle mit unterschiedlicher Anzahl von LSI-Dimensionen. Die Modelle mit vierdimensionalen LSI-Räumen erzeugten sowohl die geringste durchschnittliche Anzahl von Fehlern als auch die geringste mittlere Anzahl von Fehlern. Daher wurde das endgültige Modell unter Verwendung eines vierdimensionalen LSI-Raums erstellt.

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870

Ich kann eine Kopie posten, wenn Sie kein ieee-Mitglied sind.

Dies ist aus einem Artikel, den ich in der Grundschule geschrieben habe. Ich hatte ein Problem, bei dem ich entscheiden musste, wie viele Dimensionen (Latent Semantic Indexing ähnelt PCA) in meinem logistischen Regressionsmodell verwendet werden sollen. Ich habe eine Metrik ausgewählt (dh die Fehlerrate bei Verwendung einer Markierungswahrscheinlichkeit von 0,5) und die Verteilung für diese Fehlerrate für verschiedene Modelle untersucht, die auf verschiedenen Dimensionen trainiert wurden. Ich habe dann das Modell mit der niedrigsten Fehlerrate ausgewählt. Sie können auch andere Metriken wie die Fläche unter der ROC-Kurve verwenden.

Sie können auch eine schrittweise Regression verwenden, um die Anzahl der Dimensionen für Sie auszuwählen. Welche Art von Regression führen Sie speziell durch?

Was meinst du übrigens mit spärlich?

Andrew Cassidy
quelle
Sparse PC ist beispielsweise L1 (Lasso) -penalisierte PCA. In gewöhnlichen PCA können wir normalerweise Begriffe in der Reihenfolge der erklärten Variation eingeben. Bei spärlicher PCA sind die Dinge etwas unberechenbarer, so dass die Auswahl möglicherweise schwieriger ist.
Frank Harrell
Die Frage bezog sich speziell auf spärliche Hauptkomponenten, und diese Antwort (so gut sie ist) spricht sie überhaupt nicht an , also -1.
Amöbe
Eine schrittweise Regression, bei der Komponenten basierend auf Assoziationen mit werden, führt zu einer Überanpassung, sofern keine speziellen Straffunktionen integriert sind. Y
Frank Harrell
@FrankHarrell, das möglicherweise passieren kann, aber weniger anfällig ist, wenn Sie AIC anstelle von R-Quadrat verwenden
Andrew Cassidy
@amoeba Ich bin verwirrt ... nein, ich habe den "spärlichen" Teil der Hauptkommentare nicht angesprochen, aber Sie haben genau den gleichen Vorschlag gemacht, die Kreuzvalidierung in einem Kommentar zu verwenden?
Andrew Cassidy