Ich habe einen großen Datensatz, der aus den Werten mehrerer hundert Finanzvariablen besteht, die in einer multiplen Regression verwendet werden könnten, um das Verhalten eines Indexfonds im Zeitverlauf vorherzusagen. Ich möchte die Anzahl der Variablen auf etwa zehn reduzieren und dabei so viel Vorhersagekraft wie möglich behalten. Hinzugefügt: Die reduzierte Menge von Variablen muss eine Teilmenge der ursprünglichen Variablenmenge sein, um die wirtschaftliche Bedeutung der ursprünglichen Variablen zu erhalten. So sollte ich zum Beispiel nicht mit linearen Kombinationen oder Aggregaten der ursprünglichen Variablen enden.
Einige (wahrscheinlich naive) Gedanken dazu:
- Führen Sie mit jeder Variablen eine einfache lineare Regression durch und wählen Sie die zehn mit den größten Werten. Natürlich gibt es keine Garantie dafür, dass die zehn besten Einzelvariablen zusammen die beste Zehnergruppe sind.
- Führen Sie eine Hauptkomponentenanalyse durch und versuchen Sie, die zehn ursprünglichen Variablen mit den größten Assoziationen zu den ersten Hauptachsen zu finden.
Ich glaube nicht, dass ich eine hierarchische Regression durchführen kann, da die Variablen nicht wirklich verschachtelt sind. Das Ausprobieren aller möglichen Kombinationen von zehn Variablen ist rechnerisch nicht möglich, da es zu viele Kombinationen gibt.
Gibt es einen Standardansatz, um dieses Problem der Reduzierung der Anzahl von Variablen in einer multiplen Regression anzugehen?
Es scheint, dass dies ein hinreichend häufiges Problem wäre, dass es einen Standardansatz geben würde.
Eine sehr hilfreiche Antwort wäre eine, die nicht nur eine Standardmethode erwähnt, sondern auch einen Überblick darüber gibt, wie und warum sie funktioniert. Wenn es alternativ keinen Standardansatz gibt, sondern mehrere mit unterschiedlichen Stärken und Schwächen, wäre eine sehr hilfreiche Antwort eine, in der die Vor- und Nachteile erörtert werden.
Der folgende Kommentar von whuber weist darauf hin, dass die Anfrage im letzten Absatz zu weit gefasst ist. Stattdessen würde ich als gute Antwort eine Liste der wichtigsten Ansätze akzeptieren, vielleicht mit einer sehr kurzen Beschreibung von jedem. Sobald ich die Bedingungen habe, kann ich die Details zu jedem selbst herausfinden.
Antworten:
Dieses Problem wird normalerweise als Teilmengenauswahl bezeichnet, und es gibt einige verschiedene Ansätze. In Google Scholar finden Sie eine Übersicht über verwandte Artikel .
quelle
Methode 1 funktioniert nicht. Methode 2 hat Hoffnung, je nachdem, wie Sie es tun. Es ist besser, die Hauptkomponenten in absteigender Reihenfolge der erklärten Varianz einzugeben. Ein besser interpretierbarer Ansatz besteht darin, ein variables Clustering durchzuführen, dann jeden Cluster auf eine einzelne Punktzahl zu reduzieren (ohne Y zu verwenden) und dann ein Modell mit den Cluster-Punktzahlen anzupassen.
quelle
varclus
Funktion im R-Hmisc
Paket oder PROC VARCLUS in SAS. Datenreduktion kann bei der Teilmenge von Variablen hilfreich sein, wenn Sie etwas Vorsicht walten lassen. Sie können einen gesamten Cluster entfernen, wenn sein Wert 0,3 beträgt. Bei Hauptkomponenten gibt es Techniken wie die Reduzierung der Batterie, bei denen Sie die PCs im Wesentlichen mit einer Teilmenge ihrer konstituierenden Variablen approximieren.In Kapitel 5 von Data Mining mit R zeigt der Autor einige Möglichkeiten zur Auswahl der nützlichsten Prädiktoren. (Im Kontext der Bioinformatik, wo jede Beispielzeile mehr als 12.000 Spalten enthält!)
Er verwendet zunächst einige Filter, die auf der statistischen Verteilung basieren. Wenn Sie zum Beispiel ein halbes Dutzend Prädiktoren mit einem ähnlichen Mittelwert und SD haben, können Sie davonkommen, indem Sie nur einen von ihnen behalten.
Anschließend zeigt er, wie mithilfe einer zufälligen Gesamtstruktur ermittelt wird, welche Prädiktoren am nützlichsten sind. Hier ist ein in sich geschlossenes abstraktes Beispiel. Sie sehen, ich habe 5 gute Prädiktoren, 5 schlechte. Der Code zeigt, wie man einfach die besten 3 behält.
Der letzte Ansatz des Autors besteht darin, einen hierarchischen Clustering-Algorithmus zu verwenden, um ähnliche Prädiktoren in beispielsweise 30 Gruppen zu gruppieren. Wenn Sie 30 verschiedene Prädiktoren wünschen, wählen Sie zufällig einen aus jeder dieser 30 Gruppen aus.
Hier ist ein Code, der dieselben Beispieldaten wie oben verwendet, um 3 der 10 Spalten auszuwählen:
Meine Beispieldaten passen überhaupt nicht zu diesem Ansatz, da ich 5 gute Prädiktoren und 5 nur Rauschen habe. Wenn alle 10 Prädiktoren leicht korreliert
y
waren und eine gute Chance hatten, bei gemeinsamer Verwendung noch besser zu werden (was im Finanzbereich durchaus möglich ist), könnte dies ein guter Ansatz sein.quelle
Sie können eine Methode wie LASSO verwenden, die die kleinsten Quadrate reguliert, indem Sie eine Lösung auswählen, die die eine Norm des Parametervektors minimiert. Es stellt sich heraus, dass dies in der Praxis dazu führt, dass die Anzahl der Einträge ungleich Null im Parametervektor minimiert wird. Obwohl LASSO in einigen statistischen Kreisen beliebt ist, wurden in der Welt der Druckmessung viele andere verwandte Methoden in Betracht gezogen.
quelle